首页> 中文学位 >误调整工具变量的后果及多个工具变量联合应用的研究
【6h】

误调整工具变量的后果及多个工具变量联合应用的研究

代理获取

目录

声明

摘要

符号说明

1 前言

2.1.1 因果图模型

2.1.2 因果效应

2.1.3 工具变量

2.1.4 孟德尔随机化

2.1.5 弱工具变量

2.1.6 单核苷酸多态性

2.1.7 连锁不平衡

2.2 误调整工具变量的后果

2.2.1 建立因果图模型

2.2.2 因果效应的估计

2.2.3 统计模拟

2.3 多个工具变量的联合应用

2.3.1 构建因果图模型

2.3.2 TSLS模型

2.3.3 统计模拟

2.4 实证数据

2.4.1 BMI与高血压因果效应分析数据

2.4.2 BMI与收缩压/舒张压因果效应分析数据

3.1.1 误调整工具变量的后果

3.1.2 多个工具变量的联合应用

3.2 实际数据分析结果

3.2.1 队列描述

3.2.2 BMI与高血压关系的验证结果

3.2.3 BMI与收缩压/舒张压关系的验证结果

4.1 误调整工具变量的后果

4.2 多个工具变量的联合应用

5 结论

6 创新与不足

附录

参考文献

致谢

攻读学位期间发表的学术论文目录

展开▼

摘要

在流行病学研究中,混杂因素是导致因果效应估计偏倚的重要原因。调整混杂因素时,由于混杂因素与工具变量在统计学特征上难以区分,容易误把工具变量当作混杂因素进行调整。已有研究认为,误调整工具变量会增大效应估计的偏倚和方差,但这类研究大多仅限于理论框架研究或对线性模型的研究。为此,本文在设定所有变量均为二分类变量的情况下,基于logistic回归分析模型统计模拟,探讨回归调整标准工具变量、近似工具变量(与暴露强相关,且与结局通过混杂因素间接相关,即与混杂因素相关的工具变量)、混杂因素(即与结局直接相关的工具变量)的不同后果,以及调整工具变量对选择性偏倚的影响。
  对于角色十分清楚的工具变量,统计分析时采用工具变量法可准确估计真实因果效应,比如孟德尔随机化分析,就是以基因变异作为工具变量来估计因果效应的。由于单个基因变异通常只能够解释暴露的少量信息,孟德尔随机化分析通常需要大样本来提高检验效能。有报道指出,应用多个基因变异作为工具变量能够提高效应估计的准确度,但多个基因变异作为工具变量的联合应用方法仍不够明确。本文设定暴露因素和结局均为连续型变量,且变量间均呈线性关系,采用两阶段最小二乘回归模型模拟试验,分析比较多个基因变异联合应用的不同策略对效应估计偏倚和精确性的影响。
  在实际数据分析中,分别用调整工具变量和不调整工具变量的两个logistic回归模型分析BMI与高血压的关系,据此评价误调整工具变量对因果效应估计的影响;分别使用不同策略联合应用多个基因变异工具变量来分析BMI与收缩压/舒张压的关系,据此评价不同策略对因果效应估计的差异。
  研究结果:
  1.(1)调整完全符合假设条件的标准工具变量会放大混杂偏倚,且使效应估计的标准误变大,但增大的程度通常较小。(2)调整近似工具变量对因果效应估计值的影响,取决于其与混杂因素关联性的强弱:若相关关系弱,则对其调整会增大效应估计的偏倚;若相关性增强,则对其调整会降低因果效应估计的偏倚。(3)直接影响结局的工具变量,亦即混杂因素,对其调整会降低因果效应估计的偏倚。(4)不存在混杂偏倚时,调整工具变量不会影响选择性偏倚。
  2.(1)当SNP为强工具变量时,使用单个工具变量即可获得接近无偏的效应估计值;增加SNP个数,能使效应估计的标准误变小;SNPs间的连锁不平衡(LD)状态不会明显地影响暴露对结局的因果效应估计。(2)当所选SNPs中存在弱工具变量时,应用单个弱工具变量会产生弱工具变量偏倚;且SNPs间的LD越强,效应估计的偏倚越小。应用多个SNPs工具变量,或联合应用多个基因变异作为单一工具变量,能够在一定程度上减小弱工具变量偏倚,提高效应估计的精确性。基于加权等位基因得分的两阶段最小二乘模型,优于基于等位基因得分和基于主成分分析的两阶段最小二乘模型,且以第一主成分作工具变量的方法不适用于LD较低的情境。
  3.在实际数据分析中,(1)相较于不调整工具变量所得BMI对高血压的估计值,调整工具变量所得的效应估计值略小,但相差很小。(2)应用孟德尔随机化分析所得的BMI对收缩压/舒张压的效应估计值均大于普通线性回归所得的效应估计值;增加工具变量的个数,可以降低效应估计的标准误;以多个SNPs的等位基因得分、加权等位基因得分和第一主成分作为工具变量进行孟德尔随机化分析的三种方法所得的效应估计值相近,与本研究的模拟结果一致。
  研究结论:
  1.当所调整的工具变量与暴露和结局的相关性强弱不同时,调整工具变量对效应估计偏倚的放大、减小是不一定的。在选择协变量做回归调整时,应依据其与结局之间关联程度的强弱,而非仅依据其与暴露之间关联程度的强弱选择。首先,不应调整符合标准工具变量条件的协变量,以避免增大效应估计偏倚。其次,与结局有强相关关系的协变量更有可能是混杂因素而非工具变量,应放在回归方程中加以调整,以减少混杂偏倚。总体来说,误调整工具变量所致的效应估计偏倚增大幅度较小。所以当所有变量均为二分类变量时,如果研究者不能明确变量间的因果结构,在成本和误差允许的范围内,更推荐冒着误调整工具变量的风险来控制可能的混杂偏倚。
  2.当SNP为强工具变量时,使用单个工具变量即可。当所选SNPs中存在弱工具变量,建议使用多个SNPs工具变量或联合应用多个基因变异作为单一工具变量并使用加权等位基因得分法。效应估计偏倚受SNPs间LD强度的影响,强度越强,效应估计的偏倚越小。
  3.实际数据分析结果与模拟结果一致,误调整工具变量会使得因果效应估计值产生偏差,但偏差较小;以多个SNPs的等位基因得分、加权等位基因得分和第一主成分作为工具变量进行孟德尔随机化分析的结果相近。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号