首页> 中文学位 >基于基因芯片表达谱的癌症预后元分析方法研究
【6h】

基于基因芯片表达谱的癌症预后元分析方法研究

代理获取

目录

文摘

英文文摘

东南大学学位论文独创性声明及使用授权声明

第1章 绪论

1.1节 基因芯片及其应用

1.1.1 基因芯片

1.1.2 基因芯片的应用

1.1.3 基因芯片在癌症精细化诊疗方面的应用

1.2节 癌症相关基因芯片数据研究的主要内容和面临问题

1.2.1生物信息学

1.2.2 生物检测芯片数据分析问题

1.2.3数据元分析(Meta-analysis)

1.2.4 基因芯片数据元分析

1.2.5 癌症预后的多因素性

1.3节 本研究工作的理论意义与实用价值

第2章 基因芯片相关的元分析方法

2.1节 元分析的概念

2.2节 元分析的基本内容

2.2.1 确定研究目的,收集有关研究资料

2.2.2 合并统计量的选择

2.2.3 差异检验

2.2.4 合并分析

2.2.5 元分析应注意的问题

2.3节 癌症基因芯片相关的元分析

2.3.1 元分析是显著性差异表达研究的补充和发展

2.3.2 本课题国内研究状况

2.3.3 本课题国外研究动态及尚存的问题

2.4节 本文的研究思路及结构安排

第3章 白血病亚型的元分析研究

3.1节 白血病亚型研究的问题和研究思路

3.2节 材料和方法

3.2.1 数据收集和加工

3.2.2 数据初步分析-元分析准备

3.2.3 秩打分

3.2.4 识别并可视化白血病亚型的聚类

3.2.5 识别儿童白血病亚型的特征基因

3.3节 结果

3.3.1 基因表达检测的数据源和有序基因列表

3.3.2 白血病临床亚型间分子学差异强于实验芯片间差异

3.3.3 验证儿童白血病亚型的标识基因

3.4节 讨论

第4章 多种癌症的共同基因表达模式的元分析研究

4.1节 理论分析

4.1.1 统一化阈值

4.1.2 模式(MAP)匹配计数元分析

4.1.3 检测匹配计数的显著性

4.2节 癌症预后数据元分析结果

4.2.1 癌症预后数据资料的整合

4.2.2 模式匹配元分析结果

4.2.3 相关标志基因的讨论

4.3节 算法讨论及结果意义分析

第5章 有序基因列表的相似性算法研究

5.1节 研究思路

5.2节 算法

5.2.1概念及符号

5.2.2相似性打分函数

5.3节 函数的参数实现

5.3.1 数据建模

5.3.2 参数适应性智能选取

5.3.3显著性评价

5.3.4 标志基因

5.4节 扩展的多重比对函数

5.5节 真实数据分析结果

5.5.1 数据集

5.5.2 基因排序列表两两比对

5.5.3 关于共同秩领先的基因的讨论

5.6节 关于本算法的优势和局限的思考

5.6.1打分函数定义

5.6.2数据自适应性

5.6.3 敏感性

5.6.4相似性的非传递性

5.6.5 适合生物信息的挖掘

5.6.6计算复杂度

5.6.7 元分析标志基因对单个实验结果的预测能力讨论

5.6.8小结与展望

第6章 影响癌症治疗效果的共差异表达基因及其分子学机制研究

6.1节 数据

6.1.1 基因表达谱初始化

6.1.2数据预后分组

6.2节 算法

6.2.1 有 序列表相似性搜索

6.2.2分类误差估计

6.3节 分析结果

6.3.1相似性比对

6.3.2 标识基因

6.3.3 数据预后分析比较

6.3.4 用独立白血病数据评估13个标志基因的癌症预后判别能力

6.3.5 13个标志基因的分子生物学讨论

6.4节 小结与展望

第7章 工具软件开发

7.1节 OrderedList介绍

7.1.1 开发背景和目的

7.1.2 算法核心

7.1.3 函数特色

7.1.4 函数使用

7.1.5 软件应用

7.2节 OrderedList软件包的使用向导

7.2.1 预备

7.2.2 检测基因排序列表间的相似性

7.2.3 检测有序基因列表中重复秩领先的相似性标志基因

第8章 本研究创新点及展望

8.1节 创新点

8.2节 工作展望

致谢

参考文献

缩略术语注释表

附录

发表论文清单

展开▼

摘要

大多数癌症芯片数据研究关注的是识别特异组织癌细胞的分子特性。最近,科研工作者开始利用基因芯片数据,研究特异组织癌细胞的预后特性,但关于普遍的肿瘤预后的分子生物学机制仍待研究。本文在现有研究成果之上,使用元分析(meta-analysis)手段研究多种肿瘤数据源的信号共发生的几率。 本文首先通过研究特异组织肿瘤亚型间的共同表达调控信号,研究多源数据元分析方法。论文修正现有的元分析方法:基于不同数据源的有序基因列表秩打分(RS)算法。利用实际表达芯片数据,发现RS与“一对多”(0VA)或“一对一”(OVO)比对结合,是分析多源数据的有效方法。论文还通过有效聚类说明,6个独立实验的白血病亚型问的信号差异强于芯片系统间差异信号。 论文探讨了跨临床表征的癌症共同分子机制的存在性,并研究发现这一共性的方法。我们创造性地设立了模式匹配(Meta-Analysis Pattern Matches)元分析概念。在分析了白血病、恶性间皮瘤和两个独立乳腺癌共四个基因芯片数据后,发现 42 个基因在不同癌症病人的治疗结果分组比对中都显示了一致的差异表达。这些基因不但证实了跨临床表征的癌症共同分子机制的存在性,而且是已公布的候选通用预后标志(universal prognostic markers)基因的补充。 为了定量地测定与治疗结果相关的不同表型癌症间的共同分子机制,论文进一步研究并提出了新的更成熟的统计算法——排序的基因列表的相似性打分算法(Similarities of Ordered Gene List-SOGL)。SOGL算法的核心思想是不依赖于某个单一数据集中显著的差异表达的效应量,而是关注多实验中一致的差异表达的效应量。该算法基于有序基因列表的排序,赋予越位于排序列表两端的基因越高的权重,累加权重的打分揭示了有序基因列表问的相似性。与其它元分析算法比较,它尤其敏感于差异表达排序相似但有序基因列表本身的差异表达不明显的情况。在分析了五个独立的临床数据源后(恶性间皮瘤、神经胶质瘤、前列腺癌和两个独立乳腺癌),我们从10对可能的成双比对中检测到5对显著相似的有序基因列表。为了说明算法的敏感性,以上5个被分析的数据集中包括无显著表达基因的数据集。 研究目标是从大规模芯片数据中统计保守的癌症预后标志基因。不包含显著差异达基因的数据集产生的有序基因列表间的相似结果往往令人质疑:这样找到的标志基因是否能提高预后效果?因此,在SOGL,的基础上,论文将现有的两两比对算法扩展为多序列比对。我们发现前列腺癌存活、恶性间皮瘤复发和神经胶质瘤存活所对应的3条有序基因列表之间显著相似。随后,我们选用排序列表相似性打分为支持向量机(SVM)算法的变量提取算法,发现导致3条有序基因列表相似的13个标志基因能够提高原始数据集的预后判别准确率。有临床意义的是,这组标志基因中的12个基因与血管增生调控(regulation ofangiogeesis)有关,并且能够准确地预测成人T细胞白血病人的治疗后效果。13个标志基因中的12个涉及血管增生及其调控和组装的基因是MDK、CPE、POSTN、COL4A1、COLllA1、COLlA2、COL5A2、IGFBP3、FN1、ANXA2、BGN和PTGDS。该结果提示细胞外的基质蛋白的破坏是血管新生相关的癌症入侵和转移的重要因素。 最后,我们开发了SOGL算法的软件包-OrderedList。该软件包与流行的生物信息学世界共享软件工具集R/Bioconductor兼容。它是一个元分析基因表达芯片数据的工具,主要用于从包括微妙变化的多个数据集中识别稳定可重复的信号。除了统计度量外,该软件包还提供了丰富的图形化输出,以及候选基因的在线注释的链接。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号