首页> 中文学位 >真核生物基因组注解及原核生物基因组测序数据研究
【6h】

真核生物基因组注解及原核生物基因组测序数据研究

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景与研究意义

1.2 研究现状综述

1.2.1 真核生物基因组结构注解方法

1.2.2 基于定阶次马尔科夫模型的k-tuple频率计算方法

1.3 本文主要工作及创新点

第二章 真核生物基因组注解方法

2.1 基于物种相似性的真核生物基因组注解方法

2.1.1 动态规划算法在基因注解中的主要思想

2.1.2 基于动态规划的主要流程

2.2 主要分析流程的代码实现

2.3 实验数据描述

2.4 实验结果分析

2.4.1 实验1:GASS实验结果与RefSeq-rheMac3直接比较的结果分析

2.4.2 实验2:基于RNA-Seq数据集的结果分析

2.5 探索性发现

2.5.1 实验3:RefSeq-rheMac3基因组序列组装错误分析

2.6 本章小结

第三章 基于k-tuple特征原核生物基因组测序数据研究

3.1 k-tuple思路的主要原理及主要分析流程

3.1.1 k-tuple序列特征方法的核心思想

3.1.2 k-tuple方法的分析流程

3.2 VLMC,IMM,ICM三种模型描述

3.2.1 VLMC模型描述

3.2.2 IMM模型描述

3.2.3 ICM模型描述

3.3 实验数据描述

3.3.1 细菌基因组数据描述

3.3.2 海洋微生物(硅藻)转录组数据描述

3.3.3 海洋微生物宏转录组与宏基因组数据描述

3.3.4 全球海洋宏转录组样本数据描述

3.4 实验结果与分析

3.4.1 基于细菌基因组样本的聚类分析

3.4.2 基于海洋微生物宏转录组样本聚类分析

3.4.3 基于海洋微生物宏转录组与宏基因组样本聚类分析

3.4.4 基于全球海洋宏转录组样本聚类分析

3.5 本章小结

第四章 总结与展望

参考文献

在学期间发表以及完成的论文

致谢

展开▼

摘要

生物按照细胞类型分类有真核生物与原核生物,本文主要从真核生物与原核生物两个角度研究生物信息领域的意义所在。
  随着高通量测序技术的发展,大量物种被测序并装配获得基因组序列。然而,如何快速准确地注解真核基因组的结构仍然是一个重要问题。目前注解一个真核基因组需要大量来源可靠、不同类型的参考数据源,例如相同或近似物种的蛋白质序列、EST、cDNA序列以及RNA-Seq数据。收集大量可靠的数据,并整合不同数据的分析结果,获得一致、完整的注解结果是一项耗时复杂的工作。因此,本研究第一部分提出一种快速便捷的计算工具GASS,利用相似物种的注解信息来完成一个新物种基因组的结构注解。首先将相似物种的外显子序列匹配到待注解基因组序列上,将搜寻最合理的转录物注解信息构建为一个动态规划模型,通过最短路径搜索获得最优的注解结果。为了评估GASS的性能,我们基于人类基因组注解信息,应用GASS注解猕猴基因组,将注解结果与两个猕猴公共注解数据库(RefSeq、Ensembl)比较,同时利用三个RNA-Seq测序数据验证该数据库的精确性。GASS的注解结果中包含65%的RefSeq外显子与剪切位点。GASS的敏感性高于Refseq,与Ensembl接近。同时,在基因、外显子、转录物和剪切位点层面,GASS的特异性高于Ensembl。本研究同时还发现猕猴rheMac3基因组的若干错误拼接位置,这些错误导致了RefSeq在外显子边界注解上2bp的误差,进而造成了不完整的剪切位点模式。我们通过各种不同的数据源进一步验证了该发现。
  此外原核生物群落的多样性是目前研究的热点问题。基于k-tuple序列特征的Alignment-free方法研究原核生物群落多样性已经得到广泛的应用。然而背景序列建模过程是k-tuple特征方法的关键环节。先前基于定阶次马尔科夫模型存在一定缺陷,因此,寻找合适的背景序列模型具有重要意义。因此本文第二部分基于k-tuple频度分布设计了VLMC,IMM,ICM三种背景序列建模的方法。根据这三种随机模型,选取不同的微生物群落样本,初步得到了一些结果。实验说明三种模型都有一定的有效性与准确性。
  真核生物的基因组注解和原核生物基因组测序数据研究,本文对对这两部分的研究依然存在很多局限性与不足,有待进一步改进。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号