近日,由经济学院统计学与数据科学系2018级在读博士生陈远星与其导师组导师方匡南教授、张庆昭副教授以及耶鲁大学马双鸽教授合作完成的论文“Biclustering analysis of functionals via penalized fusion”被Journal of Multivariate Analysis正式接受并在线发表。Journal of Multivariate Analysis创立于1971年,是学界公认的统计学国际权威期刊,也是我院认定的统计学国际A-期刊。

聚类分析作为无监督学习中的一类重要方法,已在生物医学、经济学、商业管理等领域的研究中得到广泛应用。近几年随着高维大数据的发展,在生物基因分析、文本分析、电商推荐分析等领域对聚类的要求越来越精细,双向聚类方法得到了快速发展,双向聚类是同时对样本维度和变量维度进行聚类,从而可以更全面更精细地描述数据的异质性。现存的大多数双向聚类方法主要考虑标量数据,在实际研究中,受时间过程基因表达数据的启发,本文提出了函数型数据双向聚类方法,利用双重的惩罚融合法来对样本和变量同时进行聚类,从而形成多个矩阵块的聚类结构,每个矩阵块对应部分样本和部分变量,进而刻画这些样本在这些变量上共有的函数轨迹。通过分析不同块的函数轨迹的差异,可以探究相同变量上不同样本的异质性差异,以及相同样本上不同变量间的协同作用。该论文提出的方法相比于与现存的函数数据双向聚类方法有较大改进:首先,该方法无需事先设定聚类的个数,而是通过自适应的方式来自发确定聚类的个数;其次,现存方法通常具有严格的模型假设(例如高斯分布),而该方法基于非参的基本框架无需进行分布假设;最后,该论文在提出方法论的同时,建立了严格的理论性质,证明了该方法的聚类一致性。该方法除了应用于生物基因的函数数据外,还可以应用于金融函数型数据、商业函数型等,具有广泛的应用前景。
陈远星,厦门大学经济学院统计学与数据科学系2018级博士研究生,目前已在Journal of Multivariate Analysis, Journal of Statistical Computation and Simulation以及《数理统计与管理》等期刊发表(含正式接收)论文3篇,并且还有多篇论文在审稿中。
方匡南,厦门大学经济学院统计学与数据科学系教授、博士生导师。兼任厦门大学信用大数据与智能风控研究中心主任、国际统计学会 elected member、中国商业统计学会常务理事、全国工业统计学会常务理事、数据科学与商业智能学会常务理事、厦门统计学会常务理事等。主要研究方向为统计机器学习、高维数据分析、经济管理统计、信用风险管理、金融科技及健康医疗大数据。入选国家高层次青年人才计划(中组部)、福建省“特支双百计划”青年拔尖人才、厦门大学南强青年拔尖人才(A类)、福建省高校杰出青年科研人才培育计划、福建省高校新世纪优秀人才支持计划。发表学术论文100多篇,其中SSCI/SCI 收录论文50多篇,国际二类以上论文30余篇。先后主持国家自科3项、教育部基金1项、国家统计局重大(重点)项目3项。
张庆昭,厦门大学经济学院统计学与数据科学系和王亚南经济研究院双聘副教授、博士生导师,国际统计学会推选会员。2013年获得中国科学院数学与系统科学研究院概率论与数理统计博士学位,先后在中国科学院大学和美国耶鲁大学进行博士后研究。中国现场统计学会高维数据分析学会理事,全国工业统计学理事、中国青年统计学家协会理事等。主要研究方向为高维数据分析、多源数据融合、函数数据分析、统计机器学习等,发表论文50余篇,先后主持国家自科2项,教育部基金1项。