分类与聚类技术在蛋白质序列中的应用

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

自从人类基因组计划实施以来，各种类型的生物数据每年都呈指数级的增长，这样海量的数据需要从中挖掘出有用的知识来帮助人们进一步解释生命现象。生物信息学就是这样一门应运而生的学科。生物信息学中出现的大规模数据给常规的计算机算法提出了挑战。准确、高效的对基因序列数据进行分析并挖掘出隐藏在其中的对人类有用的信息是非常必要的。数据挖掘作为一种以数据库、统计学和人工智能学为基础的新兴技术，给生物学家提供了前所未有的数据分析工具，为蛋白质信息的分析和提取提供了强有力的手段。聚类和分类技术正是能够对大量基因数据进行分析的技术。本文主要研究了分类和聚类算法在蛋白质序列中的应用，主要内容如下： 1. 介绍了蛋白质序列聚类与分类的研究目的和意义、聚类与分类的常用方法、国内外研究现状。介绍了本文的研究内容；介绍了本文的内容安排和主要研究成果。 2. 介绍了蛋白质序列分类的常用方法：点阵法、Needleman-Wunsch 方法、Smith-Waterman 方法、隐马尔可夫模型及概率后缀树方法，同时介绍了基于模型的聚类方法期望最大化(EM)和竞争惩罚期望最大化(RPEM）方法。RPEM 能在学习过程中同时完成模型选择和参数估计。详述了基于频繁模式的分类方法，此方法根据蛋白质序列数据的特性设计了一个挖掘连续频繁模式的方法，对每类数据挖掘得到的频繁模式进行类间裁减。用每类独有的频繁序列对测试数据进行分类,并给出实验结果和性能分析。 3．现有的基于频繁模式的蛋白质分类方法，未能解决由于完全频繁序列集繁多所导致的挖掘效率低下及模式裁减繁琐等问题。本文通过采用最大频繁序列挖掘方法,把最大频繁序列集引入到前期的挖掘过程中。该算法直接产生最大频繁序列，通过每类的最大频繁模式表示各类数据.一个类中的独有最大频繁模式作为该类物种的代表，与其它类有较好的分辨率。测试数据通过各类的最大频繁模式计算自己所属的种类，从SWISS-PROT数据库部分实验数据结果可得出，该方法使分类精确度有了一定的提高，从而验证了该方法的有效性。实验表明该算法在继承现有算法的优点的同时提高了结果的精确度，降低了模式的冗余度。此应用增加了分类的生物信息学意义。 4.构造了一种具有可适应性学习率的蛋白质序列混合模型聚类算法。在本文中，蛋白质序列所生成的向量可以看作是由某个未知的混合概率密度函数所生成的。将蛋白质序列聚类应用到己知结构和功能的蛋白质家族中是蛋白质功能预测的一条途径。已经有很多聚类方法被应用到蛋白质序列聚类中来，但是大多数聚类算法是启发式的，需要事先确定聚类数目，这在现实中是很困难的。基于模型的聚类方法为此提供了一条途径。最近提出的竞争惩罚期望最大化算法能同时在学习过程中自动确定混合数目和估计模型参数。但是，竞争惩罚期望最大化算法的性能对学习率的选择非常敏感，如果学习率选择不当的话，竞争惩罚期望最大化算法的性能就会很差。因此，本文提出了一种能在学习过程中具有可适应性学习率的RPEM蛋白质序列聚类算法。在给定初始学习率的情况下，该算法能自动在学习过程中调节学习率，加快了算法的收敛速度，提高了算法性能。本文利用实际的蛋白质序列数据验证了算法的可行性,试验结果表明该方法是可行的并且具有较好的聚类效果。 5.最后，对论文研究工作进行回顾总结，对蛋白质序列分类与聚类技术进行了阐述，在了解了当前国际上在此领域的发展近况后，预测了今后蛋白质序列分类与聚类技术的发展方向。把最大频繁序列集引入到前期的挖掘过程中。从SWISS-PROT数据库部分实验数据结果可得出，该方法使分类精确度有了一定的提高，从而验证了该方法的有效性。

著录项

作者
卫锦花;
展开▼
作者单位

江苏科技大学;

展开▼
授予单位江苏科技大学;
学科智能信息处理
授予学位硕士
导师姓名吴陈;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类蛋白质;
关键词
蛋白质序列; 聚类算法; 分类算法; 生物信息学; 概率后缀树; 隐马尔可夫模型; 频繁模式; 蛋白质分类;

相似文献

中文文献
外文文献
专利

1. 一种基于聚类的模式识别技术在葛根类药材分类中的应用 [J] . 马艳丽 ,郑伟 ,杨跃平 . 河北北方学院学报（自然科学版） . 2011,第001期
2. 模糊聚类技术在文献自动分类系统中的应用 [J] . 楚存坤 ,李韬 . 现代情报 . 2009,第009期
3. 数据挖掘的聚类技术在证券客户分类中的应用 [J] . 尚永 . 科技资讯 . 2007,第011期
4. 基于分类和聚类的数据挖掘技术在CLIS中的应用研究 [J] . 苏凯 ,李伟鹏 ,杨琳 . 医疗卫生装备 . 2005,第006期
5. 系统聚类分类法在水土保持林林种分类中的应用 [J] . 海东霞 . 水土保持科技情报 . 2000,第003期
6. K-均值聚类分析算法在多波束海底底质分类中的应用研究 [C] . 金绍华 ,肖付民 ,崔杨 . 第二十七届海洋测绘综合性学术研讨会 . 2015
7. 模糊聚类技术在心电波形分类中的应用研究 [A] . 李贵娟 . 2011

分类与聚类技术在蛋白质序列中的应用

摘要

著录项

相似文献

相关主题

期刊订阅