首页> 中文学位 >分类与聚类技术在蛋白质序列中的应用
【6h】

分类与聚类技术在蛋白质序列中的应用

代理获取

摘要

自从人类基因组计划实施以来,各种类型的生物数据每年都呈指数级的增长,这样海量的数据需要从中挖掘出有用的知识来帮助人们进一步解释生命现象。生物信息学就是这样一门应运而生的学科。生物信息学中出现的大规模数据给常规的计算机算法提出了挑战。准确、高效的对基因序列数据进行分析并挖掘出隐藏在其中的对人类有用的信息是非常必要的。数据挖掘作为一种以数据库、统计学和人工智能学为基础的新兴技术,给生物学家提供了前所未有的数据分析工具,为蛋白质信息的分析和提取提供了强有力的手段。聚类和分类技术正是能够对大量基因数据进行分析的技术。 本文主要研究了分类和聚类算法在蛋白质序列中的应用,主要内容如下: 1. 介绍了蛋白质序列聚类与分类的研究目的和意义、聚类与分类的常用方法、国内外研究现状。介绍了本文的研究内容;介绍了本文的内容安排和主要研究成果。 2. 介绍了蛋白质序列分类的常用方法:点阵法、Needleman-Wunsch 方法、Smith-Waterman 方法、隐马尔可夫模型及概率后缀树方法,同时介绍了基于模型的聚类方法期望最大化(EM)和竞争惩罚期望最大化(RPEM)方法。RPEM 能在学习过程中同时完成模型选择和参数估计。详述了基于频繁模式的分类方法,此方法根据蛋白质序列数据的特性设计了一个挖掘连续频繁模式的方法,对每类数据挖掘得到的频繁模式进行类间裁减。用每类独有的频繁序列对测试数据进行分类,并给出实验结果和性能分析。 3.现有的基于频繁模式的蛋白质分类方法,未能解决由于完全频繁序列集繁多所导致的挖掘效率低下及模式裁减繁琐等问题。本文通过采用最大频繁序列挖掘方法,把最大频繁序列集引入到前期的挖掘过程中。该算法直接产生最大频繁序列,通过每类的最大频繁模式表示各类数据.一个类中的独有最大频繁模式作为该类物种的代表,与其它类有较好的分辨率。测试数据通过各类的最大频繁模式计算自己所属的种类,从SWISS-PROT数据库部分实验数据结果可得出,该方法使分类精确度有了一定的提高,从而验证了该方法的有效性。实验表明该算法在继承现有算法的优点的同时提高了结果的精确度,降低了模式的冗余度。此应用增加了分类的生物信息学意义。 4.构造了一种具有可适应性学习率的蛋白质序列混合模型聚类算法。在本文中,蛋白质序列所生成的向量可以看作是由某个未知的混合概率密度函数所生成的。将蛋白质序列聚类应用到己知结构和功能的蛋白质家族中是蛋白质功能预测的一条途径。 已经有很多聚类方法被应用到蛋白质序列聚类中来,但是大多数聚类算法是启发式的,需要事先确定聚类数目,这在现实中是很困难的。基于模型的聚类方法为此提供了一条途径。最近提出的竞争惩罚期望最大化算法能同时在学习过程中自动确定混合数目和估计模型参数。但是,竞争惩罚期望最大化算法的性能对学习率的选择非常敏感,如果学习率选择不当的话,竞争惩罚期望最大化算法的性能就会很差。因此,本文提出了一种能在学习过程中具有可适应性学习率的RPEM蛋白质序列聚类算法。在给定初始学习率的情况下,该算法能自动在学习过程中调节学习率,加快了算法的收敛速度,提高了算法性能。本文利用实际的蛋白质序列数据验证了算法的可行性,试验结果表明该方法是可行的并且具有较好的聚类效果。 5.最后,对论文研究工作进行回顾总结,对蛋白质序列分类与聚类技术进行了阐述,在了解了当前国际上在此领域的发展近况后,预测了今后蛋白质序列分类与聚类技术的发展方向。 把最大频繁序列集引入到前期的挖掘过程中。从SWISS-PROT数据库部分实验数据结果可得出,该方法使分类精确度有了一定的提高,从而验证了该方法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号