声明
摘要
第一章 绪论
1.1 宏基因组及宏基因组学
1.1.1 微生物与宏基因组
1.1.2 宏基因组学的研究策略
1.2 高通量测序技术
1.2.1 测序技术的发展
1.2.2 高通量测序技术在宏基因组中的应用
1.3 宏基因组测序数据分析方法
1.3.1 宏基因组分装
1.3.2 宏基因组样本比较或分类
1.3.3 宏基因组基因预测和功能注释
1.4 序列特征
1.4.1 序列统计特征
1.4.2 序列几何模型
1.5 基于序列特征的宏基因组数据分类的机器学习策略
1.5.1 机器学习策略
1.5.2 机器学习的分类学习算法
1.6 本课题的主要工作
1.6.1 课题研究动机
1.6.2 课题研究内容
1.6.3 课题意义
1.6.4 论文架构
第二章 ICO:寡核苷酸内关联度特征
2.1 绪论
2.2 ICO特征的原理及计算方法
2.3 ICO特征辨别微生物物种的性能分析
2.3.1 序列长度和基因组GC含量对ICO性能评估的影响
2.3.2 基于ICO特征向量图谱的分析
2.3.3 基于种内与种间距离差异的分析
2.3.4 基于种内和种间关联度的分析
2.4 本章小节
第三章 HSS-bin:一种基于序列特征的宏基因组无监督分装算法
3.1 绪论
3.2 方法和数据
3.2.1 算法流程
3.2.2 组合特征和特征向量的归一化
3.2.3 谱聚类算法
3.2.4 数据集
3.2.5 分装算法正确率的评估
3.3 基于不同序列特征的分装性能比较
3.3.1 基于单独序列特征的分装算法的性能比较
3.3.2 基于组合特征的分装算法的性能评估
3.4 应用谱聚类算法可以提升分装算法的性能
3.5 HSS-bin算法与其他分装算法的性能比较
3.6 本章小结
第四章 DectICO:一种有监督的宏基因组样本分类算法
4.1 绪论
4.2 方法和数据
4.2.1 算法原理
4.2.2 动态的KPLS特征筛选算法
4.2.3 样本特征向量的提取及归一化
4.2.4 评估实验
4.2.5 数据集
4.3 DectICO算法与基于多联核苷酸频率特征的样本分类算法的性能比较
4.3.1 基于长核苷酸的ICO特征分类性能优秀
4.3.2 DectICO算法的稳定性和通用性更好
4.4 动态的特征筛选算法提高了DectICO算法的分类性能
4.5 DectICO算法与基于RSVM的样本分类算法的性能比较
4.6 本章小结
第五章 总结与展望
5.1 论文总结与创新点
5.2 后期展望
参考文献
附录
致谢
作者简介