首页> 中文学位 >Lasso-Logistic与Group Lasso-Logistic模型在出生缺陷研究中的应用
【6h】

Lasso-Logistic与Group Lasso-Logistic模型在出生缺陷研究中的应用

代理获取

摘要

目的:
  出生缺陷成因复杂、病因不明确、影响因素多,并且各影响因素之间关系复杂且存在相关性,而传统统计方法因为变量过多而导致估计偏差,只能达到变量选择的部分目标。本文将采用基于Lasso、Group Lasso的Logistic回归变量选择方法对出生缺陷影响因素进行分析,挖掘影响出生缺陷儿的关键因素,建立出生缺陷患病概率预测模型,为出生缺陷的预防和控制提供更好的指导。
  方法:
  本文首先介绍Lasso、Group Lasso基本原理。其中,Group Lasso是对Lasso方法的延伸,在对具有多分类的因素进行变量选择时是以整组为单位进行选择,而不是选择其中的某个分类。Group Lasso进行整组变量选择可以更好地解释和分析所研究的因素。本文以山西省人口计生委科学研究所2006-2008年对山西省6个县(市)所有出生儿及其家庭情况问卷调查的数据进行分析,该调查共收回有效问卷35058份,其中493例为出生缺陷患儿。整理出38个指标,以出生缺陷发生与否为因变量,其他为自变量。对于具有多个分类或水平的指标设置虚拟变量,共有37组50个变量。采用基于Lasso、Group Lasso的Logistic回归模型方法构建出生缺陷患儿发生概率预测模型,评价这些模型的预测性能。
  结果:
  Lasso和Group Lasso具有较好的变量选择效果。母亲的生育年龄、居住地、家庭人均收入、近亲结婚、有亲属缺陷儿、母亲孕早期贫血、有自然流产史、亲属缺陷儿、孕早期感冒、发热、服用感冒药、抗生素、经常与宠物接触、居住周边有污染源、家人经常吸烟、经常饮酒等因素对出生缺陷有重要影响;孕早期常吃肉类、蔬菜、补充叶酸制剂可有效降低出生缺陷的发生。以TPR、TNR、G-mean、AUC作为评价指标,针对不平衡分布的出生缺陷数据,并基于Logistic建立预测模型,对模型预测性能进行比较,结果显示Lasso、Group Lasso的测试集的预测效果都高于全模型logistic和逐步回归,具有较好的外推能力。
  结论:
  Lasso-Logistic、Group Lasso-Logistic回归模型可以选择出可解释的出生缺陷重要变量,并可以进行有效预测。Lasso可以选择比Group Lasso更简洁的模型,而Group Lasso-Logistic成组地选择变量可以更好地解释和分析所研究的因素,具有更强的实际应用意义。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号