首页> 中文学位 >基于协同信息增益与二次反馈集成模型的癌症分类方法
【6h】

基于协同信息增益与二次反馈集成模型的癌症分类方法

代理获取

目录

声明

第1章 绪 论

1.1 课题的研究背景及意义

1.2 国内外研究现状

1.2.1 数据集的选取

1.2.2 特征选择层面

1.2.3 癌症分类模型层面

1.3 研究内容

1.4 论文结构

第2章 融合数据集构建

2.1 数据选取原理

2.2 TCGA数据库

2.3 癌症基因表达谱数据

2.3.1 高维高冗余

2.3.2 高噪声

2.3.3 数据类分布不平衡

2.4 数据集融合

2.4.1 数据融合

2.4.2 数据集的归一化处理与划分

2.5 本章小结

第3章 基于协同信息增益以及相关冗余的特征选择方法

3.1 特征选择基本方法

3.2 基于协同信息增益以及相关冗余的特征选择方法

3.2.1 特征相关性选择阶段

3.2.2 协同信息增益选择阶段

3.2.2 相关冗余消除阶段

3.3 本章小结

第4章 二次反馈集成分类模型研究

4.1 决策分类单模型

4.1.1 决策树模型

4.1.2 朴素贝叶斯模型

4.1.3 多层感知机模型

4.1.4 极限学习机模型

4.2 集成学习模型

4.3 二次反馈集成模型

4.4 本章小结

第5章 对比实验与结果分析

5.1 实验概况

5.1.1 数据获取方式

5.1.2 特征选择方法参数设置

5.1.3 模型评估指标

5.2 基于协同信息增益与二次反馈集成模型的癌症分类研究对比

5.2.1 针对融合基因表达谱数据的数据集的对比实验一

5.2.2 基于协同信息增益以及相关冗余的特征选择方法对比实验二

5.2.3 针对二次反馈集成模型的分类模型对比实验三

5.2.4 基于协同信息增益与二次反馈集成模型的癌症分类研究方法实验四

5.2.5 本文癌症分类方法与国内外研究成果对比实验五

5.3 本章小结

结论

参考文献

致谢

展开▼

摘要

目前,癌症治疗是医学界难以逾越的一道鸿沟,其发病率和死亡率逐年递增,而极早发现并开始治疗是提高癌症治愈率的核心方法之一,因此,精准医疗领域的癌症分类研究应运而生。传统的基于形态学、影像学的癌症诊断方法具有经验主观性特性,存在很大的缺陷,而基于信息学的癌症分类方法则可以克服这些缺陷,对实现癌症患者早期诊断具有重大意义。  在癌症分类研究领域,高维、高冗余、数据类分布不平衡的基因表达数据如何进行特征选择与分类模型构建一直是影响分类准确率的难点。为了提高癌症分类的准确率,提出了基于协同信息增益与二次反馈集成模型的癌症分类方法,该方法的本质是一种从数据源到分类结果的全周期的数据分析方法。首先,融合TCGA数据库中六种不同部位不同特点的癌症的隶属于同一个样本的编码基因表达谱与非编码基因表达谱得到融合基因表达谱数据。在特征选择层面,该方法利用多特征共同作为输入特征时对分类信息产生的协同增益信息来快速筛选特征,可以针对性地选出对于标签具有协同增益信息作用的关键特征组合,并进一步降低特征之间的相关冗余,解决基因表达数据的高维度与高冗余问题。在分类模型层面,提出结合二次反馈集成模型,综合考虑不同原理的模型对不同类别样本的差异拟合能力,根据第一次学习的基础模型的分类结果做出的反馈进行二次学习,解决数据类分布不平衡的问题,充分发挥集成模型的优势。应用该方法对六种癌症数据进行分类测试实验研究,Accuracy、Sensitivity、Precision和F-Measure四项指标均稳定在99.39%以上、Specificity在94.74%以上,表明该方法能有效提高癌症分类的准确率和稳定性,同时具有对于不同癌症分类的通用性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号