首页> 中文学位 >关于生物信息学的几个问题:——DNA序列编码区与非编码区识别方法的研究
【6h】

关于生物信息学的几个问题:——DNA序列编码区与非编码区识别方法的研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1研究的背景

1.2国内外发展情况

1.3 DNA序列编码区的研究

1.3.1新基因的发现与鉴定

1.3.2非编码区信息结构分析

1.3.3非编码区功能预测

1.4本文研究的主要内容

1.5本文的结构安排

第二章生物信息学

2.1生物信息学的诞生及其重要性

2.2生物信息学的定义

2.3生物信息学研究内容

2.3.1生物信息的收集、存储、管理与提供

2.3.2基因组序列信息的提取和分析

2.3.3生物大分子结构模拟和药物设计

2.4生物信息学的主要研究方法

第三章 基于CpG含量分类技术预测基因区域

3.1研究CpG岛的意义

3.2 CpG含量预测步骤

3.3 CpG岛的预测方法

3.3.1 Markov模型法

3.3.2 CG频率法

3.4材料

3.4.1值搜寻CpG岛

3.4.2滑动方法二次搜寻CpG岛

3.4.3三次搜寻CpG岛

第四章 基于CpG岛和信息熵技术预测DNA序列编码区

4.1 Shannon熵

4.2互熵利离数量

4.2.1互熵的定义

4.2.2 Jensen—Shannon离散量

4.2.3β-KL离散量

4.3 DNA序列的新向量构建方法(R14)

4.3.1终止密码子的统计

4.3.2 DNA序列的R8与R14表示

4.4应用实例与数据验证

4.4.1材料和方法

4.4.2 进一步讨论

4.5试验结果验证

第五章 总结

5.1论文的创新点

5.2展望

5.3建议

致 谢

参考文献

附录:作者在攻读硕士学位期间发表的论文

展开▼

摘要

随着人类基因组计划的发展,近年来生物信息的数据呈指数增长,如何从大量的数据中挖掘出有用的生物信息是生物信息学领域今后致力解决的问题,其中基因识别问题即通过计算的方法识别DNA序列中编码蛋白质的基因更是十分迫切需要解决的研究课题之一。 目前,基因识别常用的方法有:复杂度分析方法、人工神经网络方法、傅立叶分析方法和统计学方法等。概括起来,基因预测方法大致分为两类。一类是基于编码区的碱基组成和非编码区的差异;一类是基于编码区所具有的独特信号,如起始密码子、终止密码子等。 本文首先介绍了生物信息学发展情况、基本概念,研究内容和研究方法。然后运用三种寻找CpG岛的方法,找到可能存在基因的位置,并在此基础上,结合一种新的DNA序列字母向量表示方法(()14),利用信息熵β-KL离散量预测DNA序列的编码和非编码的方法,提高了识别基因编码与非编码区边界的效率,同时,拓展了、W-Li阈值的定义,给出S1,通过搜索β-0,0.1,0.2,…,0.9,1,比较发现β∈(0.5,0.7)效果最好。在β-0.65时利用找Dβ-KL找到DNA序列的编码和非编码的边界准确率达到89%,高于Bernalola-Galvan提出的70%的算法,而且计算的时间有显著的减少。

著录项

  • 作者

    张景祥;

  • 作者单位

    江南大学;

  • 授予单位 江南大学;
  • 学科 轻工技术与工程
  • 授予学位 硕士
  • 导师姓名 徐振源;
  • 年度 2008
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 Q343.12;
  • 关键词

    生物信息学; DNA序列编码区; 基因识别;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号