首页> 中文学位 >基于基因本体的蛋白质网络中蛋白质复合物识别算法研究
【6h】

基于基因本体的蛋白质网络中蛋白质复合物识别算法研究

代理获取

目录

声明

摘要

插图索引

附表索引

第1章 绪论

1.1 研究背景和意义

1.2 国内外研究现状

1.3 本文主要工作

1.4 本文组织结构

第2章 蛋白质复合物识别算法综述

2.1 引言

2.2 传统的蛋白质复合物识别算法研究

2.2.1 基于图划分的聚类算法

2.2.2 基于密度的局部搜索聚类算法

2.2.3 基于层次聚类的算法

2.3 利用多元生物信息的蛋白质复合物识别算法研究

2.3.1 基因表达数据识别蛋白质复合物

2.3.2 核心-外围结构识别蛋白质复合物

2.4 小结

第3章 基于基因本体的蛋白质复合物识别算法

3.1 引言

3.2 基因本体介绍

3.3 相关定义

3.3.1 蛋白质之间的功能相似性

3.3.2 二级邻居图

3.3.3 度数

3.3.4 密度

3.4 MCGO算法描述

3.5 实验结果与分析

3.5.1 实验数据

3.5.2 衡量指标

3.5.3 性能评估

3.5.4 参数对MCGO算法性能的影响

3.6 小结

第4章 基因本体和拓扑特性相结合的蛋白质复合物识别算法

4.1 引言

4.2 相关定义

4.2.1 边聚集系数

4.2.2 图的相似性

4.3 MGOTC算法描述

4.4 实验结果与分析

4.4.1 实验数据

4.4.2 性能评估

4.4.3 参数对MGOTC算法性能的影响

4.6 小结

结论

参考文献

附录A 攻读学位期间所发表的学术论文

附录B 攻读学位期间参加的科研项目

致谢

展开▼

摘要

在蛋白质相互作用网络中,识别蛋白质复合物对预测蛋白质相互作用、解释特定的生物进程、揭示蛋白质功能、推断物种蛋白质相互作用网络进化、对于复杂疾病的研究具有十分重要的意义。随着高通量实验技术的发展,得到了很多大规模的蛋白质相互作用网络数据,这为我们在蛋白质相互作用网络中研究识别蛋白质复合物成为了可能。然而,现有的蛋白质相互作用网络大部分是稀疏的,存在很多的噪声数据,研究高效识别蛋白质复合物的算法仍然具有挑战性。
   针对蛋白质相互作用数据中存在较高的假阳性、假阴性比率的问题,从蛋白质自身的生物功能出发,利用基因本体信息衡量蛋白质之间相互作用的可靠性,本文中提出了一种基于基因本体在蛋白质网络中识别蛋白质复合物的算法—MCGO(A novel method to predict protein complexes based on Gene Ontology)算法。使用三个酵母蛋白质数据DIP、Gavin、Krogan,将该算法得到的复合物预测集与标准复合物数据集进行性能评估,并与一些经典的算法进行比较分析其性能。实验结果表明,该算法能够识别更多具有显著生物意义的复合物,在Precision、F-measure、Coverage rate这几个指标上的性能明显优于其他的算法,尤其是在DIP数据集上。
   但上述算法仅仅考虑蛋白质之间的功能信息,存在一些局限性,忽略了蛋白质网络中的拓扑特性。因此,提出一种基因本体和拓扑特性相结合的蛋白质复合物识别算法—MGOTC(method based on Gene Ontology and topologicalcharacteristics)算法。使用三个酵母蛋白质数据集,选取两个标准复合物数据集,并与几个具有代表性的算法进行比较分析其性能。实验结果表明,该算法能够识别更多的标准复合物数据集中的已知复合物,尤其在Recall、Coverage这两个指标上的性能明显高于其他的算法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号