首页> 中文学位 >基于最大相关最小冗余朴素贝叶斯分类器的肿瘤分类方法研究
【6h】

基于最大相关最小冗余朴素贝叶斯分类器的肿瘤分类方法研究

代理获取

目录

声明

前言

1研究背景及方法介绍

1.1微阵列技术简介

1.2基因表达谱数据分类的一般流程

1.3最大相关最小冗余法简介

1.4朴素贝叶斯分类器简介

1.5其他重要机器学习分类方法简介

2基于最大相关最小冗余朴素贝叶斯分类器的模拟研究

2.1数据模拟方法

2.2研究方法

2.3评价指标

2.4研究结果

2.5讨论

3基于最大相关最小冗余朴素贝叶斯分类器的实证研究

3.1数据来源及介绍

3.2数据预处理

3.3研究方法

3.4评价指标

3.5研究结果

3.6讨论

4基于最大相关最小冗余朴素贝叶斯分类器的应用研究

4.1数据来源及介绍

4.2数据预处理

4.3研究方法

4.4研究结果

4.5讨论

全文总结

本研究特色及局限性

参考文献

文献综述:集成学习在基于基因表达谱数据的肿瘤分类问题中的应用

致谢

攻读硕士学位期间发表的学术论文目录

展开▼

摘要

目的:
  利用基因表达谱数据研究肿瘤的发生发展机理,有助于肿瘤的诊断与个性化治疗。然而,基因芯片检测的基因数量巨大,检测费用也较高加之样本收集的困难,造成了基因表达谱数据高维小样本的特点。此外,基因表达数据还存在高噪声、高冗余及样本分布不均衡等特点,传统分类方法已不再适用,高维数据的分类问题正面临前所未有的挑战。特征选择与分类器相结合是解决这类问题的一种思路,本文以最大相关最小冗余朴素贝叶斯分类器(Nave Bayes classifier based on the Maximum Relevance Minimum Redundancy feature selection method,mRMR-NBC)为例,将其应用于模拟数据、公开的基因表达谱数据以及实际临床肿瘤样本的基因表达谱数据,并与常用分类方法进行对比研究,证明该思路的优越性,以期为实际临床肿瘤样本分类提供理论依据。
  方法:
  (1)进行高维数据模拟研究,将mRMR-NBC应用于高维数据分类问题中,并将其与支持向量机、极限学习机与随机森林进行比较,探讨样本量、基因数以及信噪比对分类准确率的影响;
  (2)应用公开的结肠癌与肺癌基因表达谱数据,分别采用mRMR-NBC、支持向量机、极限学习机与随机森林进行比较研究,验证模拟研究结果;
  (3)从GEO数据库下载人类非小细胞肺癌基因表达数据集(GSE10245),共获得40例肺腺癌和18例肺鳞癌组织的基因表达谱数据。进行预处理后,采用mRMR-NBC进行分析,选取特征基因;利用迪杰斯特拉算法进行最短路径分析,筛选候选基因;利用DAVID软件进行 GO与 KEGG富集分析。采用文献回顾法分析对分类有贡献的基因在肿瘤发生发展中的作用。
  结果:
  (1)在模拟数据中,mRMR-NBC的综合分类准确率达到96.71%,与支持向量机分类准确率相当,依次高于随机森林与极限向量机。上述几种方法的分类准确率与样本量的相关系数,均具有统计学意义(P<0.05)。其中,mRMR-NBC、支持向量机与极限学习机的分类准确率与样本量为负相关,而随机森林的分类准确率则与样本量呈正相关。随机森林的分类准确率还与基因数呈负相关(P<0.05),而暂未发现mRMR-NBC的分类准确率与基因数间的相关性。对mRMR-NBC的分类准确率进行析因设计的方差分析结果显示,仅样本量对分类准确率有影响(P<0.05)。
  (2)应用mRMR-NBC分析结肠癌与肺癌基因表达谱数据显示,当纳入基因数分别为15与12时分类准确率最高分别达到95.16%与97.26%,mRMR-NBC仅使用极少的属性参与分类就能得到非常好的分类效果,且随着纳入分析的基因增多分类效果逐渐趋于稳定。支持向量机在结肠癌与肺癌数据集上分类准确率分别达到90.32%与94.52%;极限学习机则分别为82.26%与69.86%;随机森林分别为81.98%与77.62%。
  (3)运用mRMR-NBC筛选特征基因8个;最短路径分析筛选候选基因21个,其中AURKA、SLC7A2基因分别在最短路径中出现3、2次。富集分析后发现,上述基因主要涉及卵母细胞减数分裂、细胞周期调控、癌症通路等信号通路。
  结论:
  mRMR-NBC适用于处理高维小样本数据的分类问题;能在仅有极少属性参与分类时,得到较高的分类准确率,优于随机森林、极限学习机等方法;能较为准确地筛选肿瘤相关基因,这将有助于了解基因在肿瘤发生发展中的作用,推动精准医学与个性化治疗的发展。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号