首页> 中文学位 >基于模糊支持向量机的蛋白质二级结构智能预测
【6h】

基于模糊支持向量机的蛋白质二级结构智能预测

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景和意义

1.2 研究现状

1.2.1 蛋白质二级结构的研究现状

1.2.2 模糊支持向量机的研究现状

1.3 本文的工作

1.3.1 本文的主要研究内容

1.3.2 论文的组织框架

第二章 蛋白质二级结构预测

2.1 蛋白质

2.1.1 蛋白质简介

2.1.2 蛋白质结构介绍

2.2 蛋白质二级结构预测模型常用技术

2.2.1 样本集的选择

2.2.2 训练集与测试集

2.2.3 特征提取

2.2.4 滑动窗口技术

2.2.5 蛋白质二级结构预测的评价指标

2.3 蛋白质二级结构预测的常用方法

2.3.1 GOR方法

2.3.2 神经网络方法

2.4 几个常用的数据库介绍

2.5 本章小结

第三章 蛋白质编码方式及相似性分析

3.1 氨基酸的常用编码方式

3.1.1 正交编码

3.1.2 5位编码

3.1.3 Profile编码

3.1.4 Codon编码

3.2 本文氨基酸编码方式介绍

3.2.1 氨基酸理化性质

3.2.2 倾向因子分析

3.3 相似性分析

3.3.1 序列相似性分析方法介绍

3.3.2 相似性度量方法

3.4 蛋白质序列相似性度量

3.5 本章小结

第四章 改进的模糊支持向量机

4.1 支持向量机工作原理

4.2 模糊支持向量机

4.2.1 模糊支持向量机原理

4.2.2 常用隶属度设置方法

4.3 改进模糊支持向量机

4.3.1 隶属度改进思想

4.3.2 隶属度改进方式

4.4 本章小结

第五章 蛋白质二级结构智能预测模型

5.1 实验流程

5.2 实验结果

5.3 讨论与比较

5.4 本章小结

第六章 总结和展望

6.1 研究工作总结

6.2 研究工作展望

参考文献

致谢

展开▼

摘要

随着人类基因组计划的完成,越来越多的蛋白质序列被测出,研究快速且有效的蛋白质二级结构预测算法已经刻不容缓。人们研究蛋白质结构的主要目的是为了研究蛋白质功能,了解蛋白质功能对生物制药、农业生物等领域具有重要意义。近年来,机器学习已经成为蛋白质二级结构预测的主流方法。本文在传统支持向量机(SVM)的基础上,改进了模糊支持向量机(FSVM)的隶属度函数,具体的研究工作如下:
  1.本文首先考虑到具有相似的蛋白质一级结构序列往往具有相似的蛋白质二级结构,所以,提出一种蛋白质序列相似性比对方法,设置解离状态下的酸度(pKa(COOH))、解离状态下的碱性(pKa(NH3+))、疏水性(Hy)这三个理化性质作为氨基酸残基的坐标,将氨基酸序列映射到三维空间,然后通过向量夹角余弦法度量两个蛋白质序列的相似程度。
  2.利用点到类中心的距离设置隶属度能减少孤立点或噪声点,但没法有效的区分支持向量和噪声点,在此基础上,本文先将样本点映射到高维空间,然后在高维的环境下,结合K近邻算法,计算样本点与其周围样本点的紧密程度区分支持向量与噪声点、孤立点。
  3.最后,本文新的蛋白质二级智能预测模型是将蛋白质序列相似性与FSVM算法结合的智能算法模型,先将测试集的蛋白质序列与pdb_full数据库的蛋白质序列进行相似性比较,当相似度大于0.9时就将pdb_full数据库中找到的蛋白质序列的二级结构作为测试集的二级结构,那些相似性低的氨基酸序列用FSVM模型预测。
  改进的FSVM算法,在原有算法的基础上,将一些隶属度小的训练样本剔除,同时增加支持向量样本点的权重,排除噪声干扰,改进后的算法使准确度有了明显提高。用该算法与蛋白质序列相似性分析方法结合成的算法模型,实验结果发现其预测的准确率高于现有的使用机器学习的预测准确率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号