首页> 中文学位 >面向肿瘤亚型识别的基因表达谱非负矩阵分解聚类方法研究
【6h】

面向肿瘤亚型识别的基因表达谱非负矩阵分解聚类方法研究

代理获取

目录

声明

致谢

摘要

1 绪论

1.1 研究背景及意义

1.2 基因表达数据分析理论

1.2.1 基因芯片技术

1.2.2 基因表达数据的表示

1.2.3 基因表达数据的特点

1.2.4 基因表达数据的预处理

1.3 国内外研究现状

1.3.1 基因表达数据降维

1.3.2 基因调控网络的构建

1.3.3 基于基因表达谱数据分析的肿瘤亚型识别

1.4 本文的主要工作

2 相关理论知识

2.1 聚类算法概述

2.1.1 聚类分析

2.1.2 相似性度量

2.2 聚类分析方法

2.2.1 K-means聚类

2.2.2 K-近邻方法

2.2.3 非负矩阵分解方法

2.3 聚类有效性评价

2.4 本章小结

3 非负矩阵分解在肿瘤亚型识别中的应用

3.1 基于NMF的聚类分析

3.2 基于NMF的肿瘤数据分析

3.3 基于SNMF的肿瘤数据分析

3.4 基于nsNMF的肿瘤数据分析

3.5 实验数据及结果分析

3.5.1 白血病数据集

3.5.2 中枢神经系统肿瘤数据集

3.6 本章小结

4 图正则化非负矩阵分解算法

4.1 基于图正则化非负矩阵分解的基因表达谱聚类

4.2 GNMF目标函数

4.3 GNMF更新规则

4.4 实验结果及分析

4.4.1 模拟数据集

4.4.2 真实数据集

4.5 本章小结

5 双向图正则化非负矩阵分解算法

5.1 基于双向图正则化非负矩阵分解的基因表达谱聚类

5.2 GDNMF目标函数

5.3 GDNMF更新规则

5.4 实验结果及分析

5.4.1 模拟数据集

5.4.2 真实数据集

5.5 本章小结

6 总结与展望

参考文献

作者简历

学位论文数据集

展开▼

摘要

当今社会随着人们生活水平的提高以及生活习惯、饮食习惯的改变,肿瘤的发病率和死亡率在不断上升,已成为威胁人类健康的最主要疾病。肿瘤早期的诊断和个性化治疗是减少肿瘤患者死亡率的最有效方法。随着生物技术和生物信息的不断发展,基因芯片技术也迅速发展了起来,该技术是一种在单一的试验中能够检测成千上万条基因、甚至整个基因表达水平的最强大的方法。过去的几年里,这种技术已经被广泛应用在如肿瘤分析、新药物发现及不同条件下细胞行为的分析等。由于该技术在生物领域的广泛使用,目前积累了大量的基因表达数据集。怎么样对这些海量的基因表达谱进行分析及挖掘出其中隐藏的信息,是当今生物信息学的一个研究热点。基因表达数据呈现维度高、样本小的特点。基因表达谱聚类是该类数据分析的一个主要任务,其目标是根据样本在基因表达上的相似性自动实现样本数据的聚类,被用于肿瘤(亚型)识别的聚类之中。该方法是一种无监督的学习方法。在基因表达谱分析中一直是一个热点研究问题。然而,如何选择相似性度量标准以及更有效的挖掘数据中的局部信息,并且应用恰当有效的算法来进行聚类分析研究依然是个亟待解决的难题。由于基于非负矩阵分解(Non-negative Matrix Factorization,NMF)聚类方法具有较好的可解释性,本文主要面向肿瘤基因表达数据聚类,研究基于NMF的基因表达谱聚类。
  本研究主要内容包括:⑴将图正则化的非负矩阵分解(Graph Regularized Non-negative MatrixFactorization,GNMF)方法引入到肿瘤基因表达谱聚类分析中,该方法是一种近邻保持的非负矩阵分解方法,其采用图的拉普拉斯正则化约束实现了数据在原空间和分解空间的近邻保持。实验结果显示:在面向肿瘤亚型识别应用中,该方法优于已有的非负矩阵分解方法。⑵考虑到不同基因与不同肿瘤亚型相关联,我们需要在对样本进行肿瘤亚型识别的同时,发现与特定肿瘤亚型相关的关键基因。因此,我们将双向图正则化的非负矩阵分解(Graph Dual Regularized Non-negative Matrix Factorization,GDNMF)方法引用到肿瘤基因表达谱聚类分析中,该方法同时考虑数据流形的几何结构和特征流形的几何结构,对非负矩阵分解过程中的数据近邻分解保持和特征近邻分解保持进行双向图拉普拉斯正则化约束。实验结果表明:该方法不但能有效地对肿瘤亚型进行聚类,同时还能识别出肿瘤亚型对应的关键基因。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号