首页> 中文学位 >一种高效集成分类器及其在蛋白质折叠识别中的应用研究
【6h】

一种高效集成分类器及其在蛋白质折叠识别中的应用研究

代理获取

摘要

蛋白质的三维结构决定其生物功能,同种折叠模式的蛋白质功能相似。自然界中的蛋白质结构约十万种而折叠模式的总数还不到一千。因此,蛋白质折叠研究不仅具有很重要的生物学意义,而且能大大降低蛋白质结构研究的复杂度。
   蛋白质折叠预测大致分为基于模版的方法和基于分类的方法两大类。尽管在序列相似度较高时基于模版的方法能取得较好的效果,但随着序列相似度降低,其预测的敏感性和可信性都大幅度下降。基于分类的方法不依靠相似度,在序列相似度不显著时能有效预测蛋白质折叠类型。目前,已有大量的集成分类器用于蛋白质折叠识别。高效的集成分类器主要依赖基本分类器的效率和集成加权机制的合理选取。ET-KNN作为一种简单有效的分类器在多分类问题中得到了广泛的应用。其有效性依赖于内部参数的选择,虽然很多方法通过优化参数提高了分类性能,但参数都远没达到全局最优。已有的集成加权策略由于没有从整体性能来确定基本分类器的权值,各个基本分类器的作用得不到充分发挥,导致集成分类器的分类精度不高。
   针对以上问题,本文提出了一种高效的集成分类器(GAOEC)。首先,通过遗传算法全局优化ET-KNN中的参数向量,提出了一种优化的分类器—GAET-KNN。其次,集成分类器采用双层GAET-KNN的学习结构,第一层分类器的类别空间为所有的类标识,第二层分类器的类别空间为第一层分类器得到的阳性类标识。通过双层的学习结构,合理“减少了”类别的数量,便于决策。最后,基于加权集成和平均集成的思想,提出了两种集成策略━全局最优加权策略和选择平均集成策略。全局最优加权策略利用遗传算法对第二层的基本分类器全局最优加权,最大化分类精度;选择平均集成策略利用遗传算法对第二层的基本分类器二进制加权,实现选择和简单平均集成输出。
   GAOEC用于多类蛋白质折叠识别,相对于已有的分类方法,取得了较高的分类精度。实验结果显示:GAET-KNN作为基本分类器不仅效率高而且稳定性好;双层分类器的学习结构大幅度提高了分类效率;两种加权机制都合理而有效地集成输出。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号