首页> 中文学位 >基于序列特征的宏基因组数据分析方法研究
【6h】

基于序列特征的宏基因组数据分析方法研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 宏基因组及宏基因组学

1.1.1 微生物与宏基因组

1.1.2 宏基因组学的研究策略

1.2 高通量测序技术

1.2.1 测序技术的发展

1.2.2 高通量测序技术在宏基因组中的应用

1.3 宏基因组测序数据分析方法

1.3.1 宏基因组分装

1.3.2 宏基因组样本比较或分类

1.3.3 宏基因组基因预测和功能注释

1.4 序列特征

1.4.1 序列统计特征

1.4.2 序列几何模型

1.5 基于序列特征的宏基因组数据分类的机器学习策略

1.5.1 机器学习策略

1.5.2 机器学习的分类学习算法

1.6 本课题的主要工作

1.6.1 课题研究动机

1.6.2 课题研究内容

1.6.3 课题意义

1.6.4 论文架构

第二章 ICO:寡核苷酸内关联度特征

2.1 绪论

2.2 ICO特征的原理及计算方法

2.3 ICO特征辨别微生物物种的性能分析

2.3.1 序列长度和基因组GC含量对ICO性能评估的影响

2.3.2 基于ICO特征向量图谱的分析

2.3.3 基于种内与种间距离差异的分析

2.3.4 基于种内和种间关联度的分析

2.4 本章小节

第三章 HSS-bin:一种基于序列特征的宏基因组无监督分装算法

3.1 绪论

3.2 方法和数据

3.2.1 算法流程

3.2.2 组合特征和特征向量的归一化

3.2.3 谱聚类算法

3.2.4 数据集

3.2.5 分装算法正确率的评估

3.3 基于不同序列特征的分装性能比较

3.3.1 基于单独序列特征的分装算法的性能比较

3.3.2 基于组合特征的分装算法的性能评估

3.4 应用谱聚类算法可以提升分装算法的性能

3.5 HSS-bin算法与其他分装算法的性能比较

3.6 本章小结

第四章 DectICO:一种有监督的宏基因组样本分类算法

4.1 绪论

4.2 方法和数据

4.2.1 算法原理

4.2.2 动态的KPLS特征筛选算法

4.2.3 样本特征向量的提取及归一化

4.2.4 评估实验

4.2.5 数据集

4.3 DectICO算法与基于多联核苷酸频率特征的样本分类算法的性能比较

4.3.1 基于长核苷酸的ICO特征分类性能优秀

4.3.2 DectICO算法的稳定性和通用性更好

4.4 动态的特征筛选算法提高了DectICO算法的分类性能

4.5 DectICO算法与基于RSVM的样本分类算法的性能比较

4.6 本章小结

第五章 总结与展望

5.1 论文总结与创新点

5.2 后期展望

参考文献

附录

致谢

作者简介

展开▼

摘要

宏基因组也称环境基因组,代表了环境微生物群落中所有物种基因组的总和。由于自然界中仅有不足1%的微生物可以单纯培养,而宏基因组学的研究方法使得微生物的免培养研究成为可能,所以宏基因组学逐渐成为研究微生物的主流方法。宏基因组学的首要任务就是分析环境群落的物种多样性,然后在此基础上研究物种的功能。此外,宏基因组学的另一个重要任务就是研究不同环境类型的宏基因组之间的差异,从而解决实际的生物医学问题。DNA序列是生命信息的主要载体,解读序列信息是研究生命活动的关键。而序列特征作为序列信息的表现形式,可以有效地对物种或者功能基因进行辨识。随着高通量测序技术的日益成熟和测序费用的降低,很多大型宏基因组计划都测序完成。面对海量的宏基因组数据,开发高效准确的数据分析方法迫在眉睫。
  宏基因组数据分析方法通常分为两类:基于比对和基于序列特征的分析方法。基于比对的方法是以数据库作为参考,利用比对软件分析数据,方法的正确性依赖于数据库信息的完整程度。面序列特征直接提取于序列,是对基因组序列内部的组成和关联信息的深入挖掘,可以特异地区别物种以及基因组中的功能原件。所以基于序列特征的宏基因组分析方法不依赖于数据库,不仅能够准确分析宏基因组测序数据,还可以从中探索未知的信息,为研究人员提供新的研究思路。本课题围绕基因组序列特征,建立具有物种分辨能力的序列特征模型,发展基于序列特征的宏基因组分析方法。论文主要包含以下内容:
  1.提出了一种序列关联性特征。序列统计特征分为组成性特征和关联性特征。组成性特征统计的是基因组序列中不同组分的含量如GC含量,寡核苷酸频率等。而序列关联性特征则是对基因组中不同组分之间的相互关联性进行量化。本文基于统计学中的比率比和信息理论中的互信息的概念提出了一种序列关联性特征ICO(Intrinsic Correlation of Oligonucleotides),寡核苷酸内关联度特征,并将其应用在宏基因组测序数据的分类方法中。ICO特征反映了一个寡核苷酸中两个连续组分之间的关联信息,可以作为基因组标识,用以辨别不同物种的基因组及其片段。序列特征图谱的实验结果表明ICO特征不仅可以区分不同的微生物基因组,还可以准确辨识基因组片段的归属。种内和种间距离的差异统计分析表明ICO的两个单独部分对于辨别不同分类级别的物种有着各自的优势,而ICO特征作为整体性能要优于每一个单独部分,同样要优于四联核苷酸频率特征。最后,我们基于皮尔逊相关系数定义了种内和种间关联度去评估序列特征辨别基因组片段归属的能力。实验结果证明相比于四联核苷酸频率特征,ICO可以更准确地辨别DNA片段的归属。综上所述,我们提出的这种序列关联性特征通过对基因组信息的深入挖掘,有着良好的辨别微生物物种基因组及其片段归属的能力。
  2.发展了一种基于序列特征的宏基因组无监督分装算法。宏基因组分装算法的目的是将宏基因组测序数据中杂乱无章的片段根据其所属的物种来源进行归类。我们将四联核苷酸的ICO特征和频率特征进行组合,结合谱聚类算法,发展了一种基于序列组合特征的无监督分装算法,HSS-bin。我们通过对模拟和真实宏基因组数据集的分装实验评估了HSS-bin算法的性能。实验结果表明,基于组合特征的分装算法弥补了基于单独特征的分装算法的不足,对包含短片段和物种丰度不均匀模拟数据集的分装正确率都超过基于两种单独特征的分装算法。此外,结合谱聚类算法的机器学习策略可以显著提高分装算法的正确率。对比广泛应用的无监督分装算法,HSS-bin算法分装人类肠道宏基因组数据集的正确率分别高出MetaCluster算法和LikelyBin算法38.1%和31.18%。因此,序列组成性特征和关联性特征的组合以及谱聚类算法的应用在宏基因组数据的分装工作中都具有很好的应用价值。
  3.建立了一种基于序列特征的宏基因组有监督样本分类算法。不同微生物群落的宏基因组样本差异分析是宏基因组学的主要任务之一。我们利用KPLS(Kernel Partial Least Squares)算法对基于长寡核苷酸的ICO特征集合进行动态地筛选,最后结合SVM的机器学习策略提出了一种基于序列特征的宏基因组有监督样本分类算法,DectICO。通过对三组不同测序深度的真实宏基因组测序数据进行分类,我们评估了DectICO算法的分类性能。实验结果表明我们发展的分类算法在基于长寡核苷酸时性能比基于寡核苷酸的频率特征的分类算法要好,并且优势随核苷酸长度变长而增大。另一方面,利用动态的KPLS算法对ICO特征进行筛选可以显著地提高DectICO算法的分类正确率。此外,我们还通过实验比较了DectICO算法和基于RSVM(Recursive Support Vector Machine)的分类算法的性能。结果表明我们发展的分类算法正确率更高,算法的稳定性和通用性也更好,其稳定性受宏基因组数据集测序深度的影响更小。综上所述,该工作可以为后续的微生物群落差异分析提供了基础,进一步为检测临床样本的疾病表型、法医学鉴定以及环境污染等研究提供帮助。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号