在线学术报告|蒋学军副教授:前向回归中相关变量的稳健筛选

Robust Screening of Correlated Features via Forward Regression



主讲嘉宾:蒋学军 副教授

分享时间:4月25日(星期五)20:00分

摘要:

Forward regression is a crucial methodology for automatically identifying important predictors from a large pool of potential covariates. In contexts with moderate predictor correlation, forward selection techniques can achieve screening consistency. However, this property gradually becomes invalid in the presence of substantially correlated variables, especially in high-dimensional datasets where strong correlations exist among predictors. This dilemma is encountered by other model selection methods in literature as well. To address these challenges, we propose a novel decorrelated forward (DF) selection framework for generalized mean regression models, including prevalent models, such as linear, logistic, poisson, and quasi likelihood. We also develop a thresholding DF (T-DF) algorithm that provides a principled stopping rule for the forward-searching process. Theoretically, we establish the screening consistency of T-DF selection and determine the upper bound of the selected submodel's size.  Simulations and two real data applications show the outstanding performance of our method compared with some existing model selection methods.

前向回归(FR)是一种从大量潜在协变量中自动识别重要预测因子的重要方法。在预测变量之间相关性适中的情况下,前向选择技术能够实现变量筛选的相合性。然而,当变量之间存在较强相关性,特别是在高维数据集中预测变量高度相关时,这一性质逐渐失效。文献中的其他模型选择方法也面临类似困境。为了应对这一挑战,我们提出了一种新的去相关前向(DF)选择框架,适用于广义均值回归模型,包括常见的线性回归、逻辑回归、泊松回归以及拟似然模型等。我们还进一步开发了一种基于阈值的DF(T-DF)算法,为前向搜索过程提供了一个具有理论依据的停止准则。在理论方面,我们证明了T-DF选择方法在变量筛选上的相合性,并给出了所选子模型大小的上界。通过模拟实验及两个真实数据的应用表明,我们的方法在性能上显著优于现有的一些模型选择方法。


嘉宾介绍:

蒋学军,南方科技大学统计与数据科学系长聘副教授、研究员、博士生导师,于2009年博士毕业于香港中文大学统计学系,2009-2010在港中文从事博士后研究,2010-2013任中南财经政法大学副教授,2013年07月加入南方科技大学,入选深圳市海外高层次人才孔雀计划  (2016),曾获南方科技大学杰出教学奖,深圳市优秀教师等荣誉,主持和完成国家(广东省)自然科学基金、深圳市基础研究面上项目等10余项。蒋老师研究兴趣涉及分位数回归、变量选择、假设检验、高维统计推断,金融统计与计量,迁移学习等,已在Biometrika, Bernoulli, Statistics and Computing, Statistica Sinica, Econometrics Journal  , Science China-Mathematics等国际一流统计学及计量经济学期刊上发表SCI&SSCI论文近60篇,发明专利2项及出版英文教材一部,目前担任Statistics and Its Interface副主编、中国现场统计研究会-教育统计分会副理事长及多元分析分会秘书长。


文章来源:狗熊会

链接:https://mp.weixin.qq.com/s/KamYmMG_E8XY6uth05ytzg