首页> 中文学位 >基于Lasso的高维数据线性回归模型统计推断方法比较
【6h】

基于Lasso的高维数据线性回归模型统计推断方法比较

代理获取

目录

封面

声明

目录

中文摘要

英文摘要

前言

1 基于Lasso的高维数据线性回归模型统计推断方法

1.1 一般线性回归模型与Lasso

1.2 基于Lasso的线性回归模型统计推断方法

1.3 Lasso-惩罚计分检验

2 模拟研究

2.1 模拟数据生成

2.2 模拟数据分析

2.3 模拟数据分析结果

2.4 模拟结果分析

3 讨 论

参考文献

综述: 基于Lasso的高维数据线性回归模型统计方法

致谢

在学期间承担/参与的科研课题与研究成果

个人简历

展开▼

摘要

目的:
  本文将介绍五种基于Lasso的高维数据线性回归模型统计推断方法:Lasso-惩罚计分检验(Lasso Penalized Score Test,Lassoscore),多重样本拆分(Multiple Sample-Splitting,MS-split)、稳定选择(Stability Selection)、低维投射(Low-Dimensional Projection Estimate,LDPE)、协方差检验(Covariance test,Covtest),并将这五种方法作比较,分析其在不同高维数据情形下的表现。
  方法:
  分别介绍Lasso-惩罚计分检验、多重样本拆分、稳定选择、低维投射、协方差检验的基本原理。利用以下四个参数设置模拟数据,分别为:7种样本量n=50、75、100、150、200、300、400;两种自变量个数p=100、300;两种自变量间相关性,一是自变量间相互独立,二是自变量间相关性为corr(Xi,Xj)=0.5|i-j|;两种回归系数大小,一是β1=β2=β3=β4=β5=5,βj=0,j>5。二是β1=β2=β3=β4=β5=0.15,βj=0,j>5。以上四个参数分别构成不同情形的高维数据。采用R软件模拟数据并用五种方法做统计推断,最后以期望假阳性率(Expected False Positives,EFP)和检验效能(power)为评价指标,比较这五种方法在不同高维数据情形下的表现。
  结果:
  在理想高维数据情形下五种方法除协方差检验推断结果保守外其余方法表现都较好,其中稳定选择的EFP最低而检验效能最高,在五种方法中表现最好。低维投射、稳定选择、多重样本拆分都对βmin条件有要求,其中稳定选择过于其依赖βmin条件,所以在复杂高维数据情形下检验效能大幅度降低,表现差。在复杂高维数据情形下低维投射在大样本和小样本下表现都较保守,虽然在中等样本量时检验效能很高,但是以引入极高的假阳性为代价的。无论在何种数据情形下协方差检验推断结果都很保守。在复杂高维数据情形下Lasso-惩罚计分检验的检验效能是五种方法中最高的,其次为多重样本拆分,而Lasso-惩罚计分检验的EFP也是最高的,多重样本拆分的EFP基本接近0。
  结论:
  在常见复杂高维数据情形下Lasso-惩罚计分检验发现真实非零变量的能力优于其余四种方法,且其对βmin的要求低,但期望假阳性率高。多重样本拆分的发现真实非零变量的能力虽然依赖于数据对βmin条件的满足与否,但当条件不满足时仅次于Lasso-惩罚计分检验,且其期望假阳性率极低。所以在常见复杂高维数据中Lasso-惩罚计分检验和多重样本拆分是两种较好的高维线性回归模型统计推断方法,两者相对而言前者较宽松,后者较保守。在实际应用中虽然无法得知真实数据是否满足βmin条件,但可根据应用需求来选择合适的统计推断方法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号