首页> 中文学位 >贝叶斯累加回归树扩展研究及在生存分析中的模型构建
【6h】

贝叶斯累加回归树扩展研究及在生存分析中的模型构建

代理获取

目录

声明

缩略词表

第一部分 绪论

一、研究背景、意义和目的

二、研究现状

三、研究内容

第二部分 贝叶斯累加回归树扩展研究

一、方法

二、结果

三、讨论

第三部分 基于贝叶斯累加回归树的生存分析模型构建

一、方法

二、结果

三、讨论

创新点与未来研究工作

创新点

研究的不足之处及未来研究工作

参考文献

综述:集成树研究进展

附录 攻读博士学位期间发表论文及参与课题

致谢

展开▼

摘要

背景:贝叶斯累加回归树(BART)不仅在拟合数据的非线性和交互作用方面具有强大的灵活性,而且基于贝叶斯概率模型的方法与纯算法相比更具有优势,多树集成之后泛化能力也更强。但是,其在缺失数据处理和树结构采样等方面仍存在一定的局限性。同时,现有基于贝叶斯累加回归树的生存分析模型过于复杂,限制了它的推广应用。因此,对贝叶斯累加回归树在缺失数据处理和树结构采样等方面进行方法学扩展,并构建其在生存分析中的简约模型十分必要。
  目的:(1)探讨在完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(NMAR)机制下,贝叶斯累加回归树处理连续型响应变量的数据中协变量有缺失的问题,以及对树结构采样进行扩展和优化,以提高模型的预测性能。
  (2)对右删失数据构建基于贝叶斯累加回归树的生存分析简约模型,以提高其在生存分析中的适用性。
  方法:(1)对于缺失数据,将“属性纳入缺失”(MIA)的技术引入贝叶斯累加回归树中,以解决协变量在不同缺失机制下贝叶斯累加回归树的预测问题。
  (2)采用去除交换操作,设置生长、剪枝和改变操作的概率,修改改变操作中内部节点的选择规则,以及改进树采样接受概率的计算,对贝叶斯累加回归树中树结构采样进行扩展和优化。
  (3)利用模拟数据及案例数据对扩展的贝叶斯累加回归树(MTBART)进行评价,并将其应用于连续型响应变量和二分类响应变量的数据资料。
  (4)通过引入右删失时间的顺序统计量,构建基于贝叶斯累加回归树的生存分析简约模型,并使用模拟数据进行评价及运用实例进行说明。
  结果:(1)基于贝叶斯累加回归树Metropolis-Hastings算法的MIA分割规则,将带有缺失数据的观察结果与有相似响应值的观察结果归为同一节点,从而增加了模型整体的似然值P(Y|X,M)。
  (2)通过样本量分别为200、500、1000和2000的Friedman5维函数模拟树结构的扩展和优化,结果显示:经过1000次迭代采样树的接受率达到约40%并具有很好的稳定性。
  (3)收敛性诊断显示:MTBART具有很好的收敛性;模型预测准确性的模拟结果显示:当样本量N=500,协变量个数P分别为10、100及1000时,MTBART的均方根误差(RMSE)(50%,75%)分位数分别为:(0.90,0.95)、(0.93,0.98)、(0.99,1.06),均明显低于BART的RMSE(50%,75%)分位数:(1.25,1.31)、(1.46,1.52)、(1.62,1.68);6组不同案例数据测评结果显示:MTBART的RMSE均值分别为6.072、3.003、4.105、0.627、0.715和3.091,也明显低于BART的RMSE均值:6.745、4.506、4.129、0.653、0.764和3.267。
  (4)对于连续性响应变量,在糖化血红蛋白的应用研究中,100例测试样本所得95%可信区间的覆盖率为90%,而95%预测区间的覆盖率为99%;对于二分类响应变量,在乳腺癌的应用研究中,680例良性和恶性二分类训练样本结果显示:准确率为0.975、误分类率为0.025;正例覆盖率为0.973、正例命中率为0.989;负例覆盖率为0.979、负例命中率为0.951。3例恶性乳腺癌测试样本的概率估计分别为0.921、0.918和0.932,表明MTBART的预测准确性高。
  (5)构建了基于贝叶斯累加回归树的生存分析模型(SURBART):
  (此处为方程,省略)
  其中δi为示性指标(δ=1,终点事件;δ=0,右删失)
  ①单样本模拟,取N=200、删失率为50%时的覆盖概率:SURBART为0.96,Kaplan–Meier(KM)为0.95;偏差:SURBART为0.002,KM为0.005;RMSE:SURBART为0.034,而KM为0.035。
  ②两样本模拟,取N=400、删失率为50%时的覆盖概率:SURBART为0.97,KM为0.96;偏差:SURBART为-0.007,KM为-0.004;RMSE:SURBART为0.043,KM为0.049。
  结果显示SURBART模型后验可信区间仍具有更好的覆盖概率,均方根误差略低,而偏差相近。当存在两个总体时,SURBART模型可以一次完成参数差值的估计,而KM需要两次估计。
  ③比例风险(PH)和非比例风险(nPH)模拟,结果显示:在PH情形,Cox回归的偏差和RMSE略低于SURBART模型;而在nPH情形,SURBART模型的偏差和RMSE要显著低于Cox回归。
  ④对于协变量具有高度非线性关系的情形,取N=400、2000、4000,利用Friedman5维函数生成模拟数据,结果表明SURBART模型估计的生存概率与实际生存概率呈高度的线性关系,能够很好地拟合生存概率与协变量之间的复杂函数关系。
  (6)在一项2000-2007年接受非血缘供体造血干细胞移植患者的生存情况的回顾性队列研究中,845名患者考虑13个协变量,SURBART模型结果显示:3种预处理方案在提高患者生存率方面,氟达拉滨联合环磷酰胺的效果最好,氟达拉滨联合白消安次之,氟达拉滨联合美法仑最差;移植类型与年龄不存在交互作用;在3年生存期方面,甲氨蝶呤的治疗效果要明显优于麦考酚酸酯。
  结论:(1)通过解决贝叶斯累加回归树处理协变量数据缺失问题,以及对树结构采样进行优化,扩展了贝叶斯累加回归树,提高了其预测性能,且能方便有效地评价研究变量的重要性、变量的偏依赖及检测变量间的交互作用,具有良好的实用性。
  (2)构建了基于贝叶斯累加回归树的简约生存分析模型,其不依赖于分布或比例风险假设,可以拟合生存函数与协变量间复杂的非线性关系,包括高维参数空间和非比例风险等。亦能用于选择重要的协变量、分析变量的偏依赖和检测变量间的交互作用,模型稳健可靠,扩展了贝叶斯累加回归树在生存分析中的应用。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号