基于Lasso的高维数据线性回归模型统计推断方法比较

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

目的：
　　本文将介绍五种基于Lasso的高维数据线性回归模型统计推断方法：Lasso-惩罚计分检验(Lasso Penalized Score Test,Lassoscore)，多重样本拆分(Multiple Sample-Splitting,MS-split)、稳定选择(Stability Selection)、低维投射(Low-Dimensional Projection Estimate,LDPE)、协方差检验(Covariance test,Covtest)，并将这五种方法作比较，分析其在不同高维数据情形下的表现。
　　方法：
　　分别介绍Lasso-惩罚计分检验、多重样本拆分、稳定选择、低维投射、协方差检验的基本原理。利用以下四个参数设置模拟数据，分别为：7种样本量n=50、75、100、150、200、300、400；两种自变量个数p=100、300；两种自变量间相关性，一是自变量间相互独立，二是自变量间相关性为corr(Xi,Xj)=0.5|i-j|；两种回归系数大小，一是β1=β2=β3=β4=β5=5，βj=0，j>5。二是β1=β2=β3=β4=β5=0.15，βj=0，j>5。以上四个参数分别构成不同情形的高维数据。采用R软件模拟数据并用五种方法做统计推断，最后以期望假阳性率(Expected False Positives,EFP)和检验效能(power)为评价指标，比较这五种方法在不同高维数据情形下的表现。
　　结果：
　　在理想高维数据情形下五种方法除协方差检验推断结果保守外其余方法表现都较好，其中稳定选择的EFP最低而检验效能最高，在五种方法中表现最好。低维投射、稳定选择、多重样本拆分都对βmin条件有要求，其中稳定选择过于其依赖βmin条件，所以在复杂高维数据情形下检验效能大幅度降低，表现差。在复杂高维数据情形下低维投射在大样本和小样本下表现都较保守，虽然在中等样本量时检验效能很高，但是以引入极高的假阳性为代价的。无论在何种数据情形下协方差检验推断结果都很保守。在复杂高维数据情形下Lasso-惩罚计分检验的检验效能是五种方法中最高的，其次为多重样本拆分，而Lasso-惩罚计分检验的EFP也是最高的，多重样本拆分的EFP基本接近0。
　　结论：
　　在常见复杂高维数据情形下Lasso-惩罚计分检验发现真实非零变量的能力优于其余四种方法，且其对βmin的要求低，但期望假阳性率高。多重样本拆分的发现真实非零变量的能力虽然依赖于数据对βmin条件的满足与否，但当条件不满足时仅次于Lasso-惩罚计分检验，且其期望假阳性率极低。所以在常见复杂高维数据中Lasso-惩罚计分检验和多重样本拆分是两种较好的高维线性回归模型统计推断方法，两者相对而言前者较宽松，后者较保守。在实际应用中虽然无法得知真实数据是否满足βmin条件，但可根据应用需求来选择合适的统计推断方法。

著录项

作者
赵俊琴;
展开▼
作者单位

山西医科大学;

展开▼
授予单位山西医科大学;
学科流行病与卫生统计学
授予学位硕士
导师姓名王彤;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类卫生统计学;
关键词
高维数据; 线性回归模型; 统计推断方法;

相似文献

中文文献
外文文献
专利

1. 基于LASSO的高维数据线性回归模型统计推断方法比较 [J] . 赵俊琴 ,王慧 ,王彤 . 中国卫生统计 . 2017,第002期
2. 基于Logistic回归模型的高维数据变量选择方法比较研究 [J] . 廖丹1 . 统计学与应用 . 2019,第003期
3. 基于嵌套结构的分层线性回归模型的统计推断 [J] . 周梦雨 ,田茂再 . 统计学与应用 . 2021,第001期
4. 基于线性回归模型对北京市PM2.5含量的统计分析 [J] . 廖锡欧 . 科技创新与应用 . 2021,第035期
5. 经济计量分析中的数理统计方法:基于截面数据双变量线性单方程回归模型 [J] . 曲天尧 . 广西质量监督导报 . 2018,第009期
6. 基于Lasso的高维线性回归模型统计推断方法简介 [C] . 赵俊琴 ,王慧 ,王彤 . 中国卫生统计（生物统计）2014学术年会 . 2014
7. 三类群lasso正则化回归模型及其在高维数据分析中的应用 [A] . 常明明 . 2020

基于Lasso的高维数据线性回归模型统计推断方法比较

目录

摘要

著录项

相似文献

相关主题

期刊订阅