首页> 中国专利> 基于距离判定的蛋白质复合物识别方法

基于距离判定的蛋白质复合物识别方法

摘要

本发明公开了一种基于距离判定的蛋白质复合物识别方法,基于对已知蛋白质复合物中蛋白质顶点之间的最短距离一般不超过2的发现,将蛋白质顶点之间的最短距离作为蛋白质复合物识别的一个重要参数,并利用蛋白质顶点与蛋白质复合物之间的作用概率来控制识别的蛋白质复合物的稠密程度。本发明实现简单,能够通过蛋白质相互作用网络识别大量已知的具有生物意义的蛋白质复合物,对蛋白质相互作用大规模数据中普遍存在的比例较高的假阳性和假阴性具有很好的健壮性,有效地解决了化学实验成本昂贵,单次识别数量少以及很难识别动态复合物的生物学难题。

著录项

  • 公开/公告号CN101246520A

    专利类型发明专利

  • 公开/公告日2008-08-20

    原文格式PDF

  • 申请/专利权人 中南大学;

    申请/专利号CN200810030832.2

  • 发明设计人 王建新;李敏;

    申请日2008-03-18

  • 分类号G06F19/00(20060101);

  • 代理机构43200 中南大学专利中心;

  • 代理人龚灿凡

  • 地址 410083 湖南省长沙市麓山南路1号

  • 入库时间 2023-12-17 20:36:43

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2011-05-25

    未缴年费专利权终止 IPC(主分类):G06F19/00 授权公告日:20091104 终止日期:20100318 申请日:20080318

    专利权的终止

  • 2009-11-04

    授权

    授权

  • 2008-10-15

    实质审查的生效

    实质审查的生效

  • 2008-08-20

    公开

    公开

说明书

技术领域

本发明属于系统生物学领域,尤其涉及蛋白质复合物的识别。

背景技术

在后基因组时代,系统地分析和全面理解生物网络拓扑及细胞内的生物化学进程成为一个非常重要的研究课题。细胞中的每个蛋白质并不是独立完成被赋予的功能,而是通过与其它蛋白质相互作用形成大的复合物,在特定的时间和空间内完成特定的功能,而且有些蛋白质的功能只有在复合物形成后才能发挥出来。识别这些蛋白质复合物对预测蛋白质功能、解释特定的生物进程具有重要作用。

目前,用于识别蛋白质复合物的方法包括化学实验测定方法、基于进化模型的物种比较方法、基于多信息集成的分析方法和基于蛋白质相互作用信息的聚类分析方法。

化学实验测定方法主要包括APMS(Affinity Purification techniques usingMass Spectrometry)、TAP(Tandem Affinity Purification)、iTAP(TAP与RNAi)和HMS-PCI(High-throughput Mass Spectromic Protein Complex Identification)等方法。通过化学实验可以准确地测定某一环境下的蛋白质复合物,特别是那些比较稳定的复合物。但环境中仍存在一定数量的不稳定复合物,复合物内的蛋白质之间的相互作用是瞬时的,动态变化的,以实验为基础的研究方法很难捕捉到这些蛋白质复合物,而且实验成本十分昂贵。

基于进化模型的物种比较方法依据不同物种间的同源信息及进化过程中同一复合物内的蛋白质或集体保留或集体消失的机制,通过两个或多个物种的比较分析识别那些在物种进化过程中保守的蛋白质复合物。这种基于进化模型的物种比较方法在一定程度上提高了识别的蛋白质复合物的可靠性,但该方法以蛋白质的同源信息为基础,对两个蛋白质的同源程度本身的把握就是一个难题,基于同源去识别蛋白质复合物就变得更加困难。

基于多信息集成的分析方法则是依据已知数据库中的蛋白质功能注释、蛋白质结构、基因表达、亚细胞定位、蛋白质相互作用等信息在整个基因组规模上进行研究。Zoltán Dezso等人基于假定mRNA共表达的一组蛋白质可能调节相同功能的假说,通过分析mRNA共表达系数来识别蛋白质复合物。虽然基因表达和蛋白质相互作用之间的相互关系能够揭示出这些数据内部之间的总体趋势,但基因表达水平未必能够真正代表蛋白质丰度,特别是高通量方法产生的蛋白质相互作用数据具有较高的假阳性,蛋白质相互作用信息和基因表达信息之间的关系非常复杂。

目前,普遍的做法是基于蛋白质相互作用信息进行聚类分析,将蛋白质相互作用数据表示成一个无向图,蛋白质复合物对应于其中的稠密子图,应用各种聚类算法来识别这些稠密子图(又称为“簇/Cluster”,即蛋白质复合物)。已经提出的聚类方法主要有SPC方法、MCODE方法,RNSC方法、LCMA方法、DPClus方法、CFinder方法和STM方法等。

SPC(Super Paramagnetic Clustering)是一种层次聚类法。SPC方法模拟铁磁模型的物理特性,给每个蛋白质设定“spin”,每个spin可以存在多种状态。对应连接的两个顶点的spins之间互相影响,spins处于相同状态时系统的能量最低。同一个高连通簇内的顶点对应的spins以关联的方式进行浮动,可以通过识别关联的spins来识别蛋白质复合物。根据Brohée和Helden在BMCBioinformatics上给出的评估结果,SPC方法的敏感度和健壮性都较弱。MCODE(Molecular Complex Detection)是一种基于密度的局部搜索方法。MCODE方法首先根据每个顶点对应邻居顶点的密度计算出所有顶点权重,并将权重最大的顶点作为种子,从种子顶点不断地向外扩展,扩展的条件是被扩展的顶点权重大于给定阈值。但是,由于权重大的顶点彼此之间的连接并不一定稠密,MCODE方法并不能保证得到的簇是稠密的,对于那些稀疏的子图还需要进一步处理。RNSC是一个基于成本的局部搜索方法。RNSC方法首先随机地将蛋白质相互作用网络分为若干个独立簇,定义一个成本函数,然后不断地将一个簇内蛋白质移至另一个簇来降低整体成本,直到这种移动次数超过事先设定的阈值而没有使整体成本下降。RNSC方法的缺陷在于结果质量与方法开始生成簇的质量关系密切,此外每个蛋白质只属于一个簇与蛋白质可能参与多个复合物的事实不符。LCMA是一个基于局部团合并的方法。LCMA方法首先将每个蛋白质顶点扩充成为一个团,再根据这些团之间的密切关系进行合并。DPClus和MCODE类似,也是一种基于密度的局部搜索方法。DPClus方法首先计算出可能的蛋白质复合物种子,然后从种子顶点开始不断地向外扩展,被扩展的顶点需要满足密度和簇性质的要求。CFinder是一种基于团渗透的方法,该方法将蛋白质复合物对应于图中相互连通的若干k-团的集合。由于CFinder需要枚举网络中的所有极大团,所以对于规模比较大的网络其效率成为难以克服的瓶颈。STM是一种流方法,首先计算出网络中任意两个顶点之间的最短路径,并在此基础上计算出任意两个顶点之间的信号传导关系,然后为每个顶点选择一个簇表达,并在此基础上进行初步聚类,最后对这些初步获得的簇进行合并。

在上述这些方法中,基于局部搜索和优化的聚类方法更适用于识别比较小的簇,而大多数蛋白质复合物都比较小,规模为5至25不等。基于局部搜索和优化的聚类方法的难点在于种子的选择和扩充条件的制定,特别是扩充条件对产生蛋白质复合物的质量有很大的影响。

发明内容

本发明基于对已知复合物内蛋白质之间的最短距离一般不超过2的发现,提出了一种基于距离判定的蛋白质复合物识别方法(IPCA)。该方法不需要其它任何辅助信息,只根据蛋白质相互作用数据就能够较准确地识别大量具有生物意义的蛋白质复合物,解决了化学实验方法很难识别动态蛋白质复合物的难题,而且节约了成本,并且一次可以预测出大量的蛋白质复合物。

本发明的技术方案为:建立蛋白质相互作用无向图:输入一组蛋白质相互作用数据,设置允许的蛋白质顶点之间的最短距离的最大值Din,和一个大小在(0,1)之间的阈值Tin,过滤重复的相互作用和自相互作用,建立无向图;计算顶点权重:计算出网络中每条边的权重,边权重定义为边的两个顶点的公共邻居顶点个数;然后,将每个顶点连接的边的权重求和,计算出网络中所有顶点的权重,并根据权重对这些顶点按从大到小进行排序,放入一个候选种子队列Sq中;如果两个顶点的权重相同,或顶点的权重为0,则根据顶点度对顶点进行排序;选择种子:若所述候选种子队列Sq不为空,将队列Sq的首个顶点,即权重最大的顶点作为种子,并初始化为一个簇,将该种子作为识别的蛋白质复合物的初始状态进行扩充;每扩充完一个簇,队列Sq中对应的该簇内的顶点被删除;队列Sq为空时,整个识别过程结束;扩充簇:根据簇的所有邻居顶点对簇进行扩充;所述簇的邻居顶点指与簇内的顶点有直接相互作用且不在簇内的顶点;簇的每个邻居顶点都拥有一个被扩充的优先权,由该顶点与簇内顶点连接的边数以及边的权重之和决定;首先考虑优先权最高的邻居顶点作为候选的扩充顶点,候选的扩充顶点是否会被扩充需要调用扩充判断子过程对其进行判断,符合扩充条件的候选扩充顶点才能被加入簇;一旦有一个新的候选扩充顶点被加入簇,簇的邻居顶点就进行更新,并重新计算其优先权;扩充判断:判断一个候选的扩充顶点是否符合两个条件:1)SP(v,u)≤Din,u∈C;2)INvC≥Tin,若符合就将其加入该簇,并调用扩充簇子过程对其作进一步的扩充;若不符合,且所有的邻居顶点都已作过候选扩充顶点被考察过,则对该簇的扩充结束;若仍存在未被考察的邻居顶点,则将下一个优先权最高的邻居顶点作为候选扩充顶点;所述SP(v,u)表示蛋白质顶点v和蛋白质顶点u之间的最短距离,C表示蛋白质复合物内的蛋白质顶点集;Tin越大,识别的蛋白质复合物越稠密;所述INvC是指某个蛋白质顶点v与蛋白质复合物之间的作用概率,定义为:

INvC=|EvC||VC|---(1)

式(1)中|VC|表示蛋白质复合物内部蛋白质顶点的数量,|EvC|表示蛋白质顶点v与蛋白质复合物之间作用边的条数。

本发明的方法对蛋白质相互作用大规模数据中普遍存在的比例较高的假阳性和假阴性具有很好的健壮性,能够在蛋白质相互作用数据还不完善且具有较高噪声的情况下有效地识别蛋白质复合物,为生物学家进行蛋白质复合物识别的实验和进一步研究提供有价值的参考信息。

附图说明

图1:两个直径小于等于2的拓扑结构图;

图2:本发明IPCA的流程图;

图3:不同匹配阈值下IPCA从酵母蛋白质相互作用网络和随机网络中标识出已知复合物数量比较图;

图4:IPCA的健壮性分析,其在随机增加一定比例的边后识别的蛋白质复合物与已知蛋白质复合物匹配结果比较图(随机增加边的比例从10%到100%,按10个百分点间隔);

图5:IPCA的健壮性分析,其在随机删除一定比例的边后识别的蛋白质复合物与已知蛋白质复合物匹配结果比较图(随机删除边的比例从10%到90%,按10个百分点间隔)。

具体实施方式

一、统计分析已知蛋白质复合物的拓扑特征

目前研究最为广泛的物种是酵母,而且已经具有一定数量的通过实验手段测定的酵母蛋白质复合物。本发明从MIPS(Munich Information center forProtein Sequences)数据库下载得到已知的酵母蛋白质复合物和酵母蛋白质相互作用网络数据。将相互作用数据去除自相互作用和冗余的相互作用,最终形成的蛋白质相互作用网络包括4546个酵母蛋白质和12319对相互作用。整个网络的平均聚集系数为0.4,网络直径为13,特征路径长度(即网络内任意两个顶点之间的最短路径长度的平均值)为4.42。蛋白质复合物数据集去除只有一个蛋白质的复合物后共有216个,最小的复合物包括2个蛋白质,最大的复合物包括81个蛋白质,平均每个复合物包括6.31个蛋白质。216个复合物中共有118个是连通的,98个非连通,对连通的复合物和非连通的复合物内的连通部分分析其直径和蛋白质间的平均最短路径长度的结果如表1所示。

表1酵母蛋白质相互作用网络中复合物的直径和复合物内蛋白质间的平均最短路径长度

从表1可以看出,连通的复合物的直径和非连通复合物的连通部分的直径都远小于其所在的网络的直径。在118个连通的复合物中直径小于等于2的占94.91%,蛋白质间的平均最短路径长度小于等于2的占99.15%。98个非连通的复合物的连通部分直径小于等于2的占82.66%,平均最短路径长度全部小于2.5,其中小于等于2的占93.88%。分析的结果表明:复合物中的蛋白质顶点之间的距离具有显著的统计特性,他们之间的距离一般不超过2。所以,本发明认为距离可以作为蛋白质复合物识别过程中一个非常重要的参数。

二、识别蛋白质复合物的种子-扩充模型(IPCA)

由于具有相同直径或平均最短路径长度的图的稠密程度可能相差比较大。如图1所示的两个直径小于等于2的图的拓扑结构就相差甚远。所以,本发明以作用概率INvC来进一步控制识别的蛋白质复合物的稠密程度。在扩充过程中,某个蛋白质顶点v与蛋白质复合物(Cluster)之间的作用概率INvC定义为:

INvC=|EvC||VC|---(1)

其中,|VC|表示蛋白质复合物内部蛋白质顶点的数量,|EvC|表示蛋白质顶点v与蛋白质复合物之间作用边的条数。

用于识别蛋白质复合物的种子扩充模型定义如下:

给定一个蛋白质顶点v与一个蛋白质复合物,蛋白质顶点v若属于该蛋白质复合物则必须满足如下两个条件:1)SP(v,u)≤Din,u∈C;2)INvC≥Tin

其中,SP(v,u)表示蛋白质顶点v和蛋白质顶点u之间的最短距离,C表示蛋白质复合物内的蛋白质顶点集,Din为允许的蛋白质顶点之间的最短距离的最大值,Tin是给定的一个大小在(0,1)之间的阈值,Tin越大,识别的蛋白质复合物越稠密。

基于距离判定的蛋白质复合物识别方法IPCA的整个流程如图2所示。先输入一组蛋白质相互作用数据。用户可以自己设置输入参数Din和Tin的值。基于本发明对已知蛋白质复合物拓扑的统计分析,本发明将参数Din的默认值设置为2。

方法IPCA可以划分为4个子过程:计算顶点权重、选择种子、扩充簇和扩充判断。

子过程1:计算顶点权重。方法IPCA首先计算出网络中每条边的权重,边权重定义为边的两个顶点的公共邻居顶点个数。然后,将每个顶点连接的边的权重求和,计算出网络中所有顶点的权重,并根据权重对这些顶点进行排序,放入一个候选种子队列Sq中。如果两个顶点的权重相同,或顶点的权重为0,则根据顶点度对顶点进行排序。计算出所有边的权重的时间复杂度为O(|V||E|),计算出所有顶点的权重,并将其按权重大小放入候选种子队列Sq的时间复杂度为O(|V|log|V|)。

子过程2:选择种子。若候选种子队列Sq不为空,将队列Sq的首个顶点,即权重最大的顶点,作为种子,并将该种子作为识别的蛋白质复合物(称为“簇”)的初始状态进行扩充。候选种子队列Sq的初始状态为按权重从大到小排列的整个网络图中的所有顶点,每扩充完一个簇,队列Sq中对应的该簇内的顶点被删除。队列Sq为空时,整个识别过程结束。

子过程3:扩充簇。对簇进行扩充需要考虑簇的所有邻居顶点。簇的邻居顶点是指那些与簇内的顶点有直接相互作用且不在簇内的顶点。簇的每个邻居顶点都拥有一个被扩充的优先权,由该顶点与簇内顶点连接的边数以及这些边的权重之和决定,连接的边数越多,权重和越大,优先权越高。进行簇扩充时,首先考虑优先权最高的邻居顶点作为候选的扩充顶点。候选的扩充顶点是否会被扩充需要调用扩充判断子过程对其进行判断,符合扩充条件的候选扩充顶点才能被加入簇。一旦有一个新的候选扩充顶点被加入簇,簇的邻居顶点就进行更新,并重新计算其优先权。

从簇的邻居顶点产生候选扩充顶点的时间复杂度为O(|Vk||Vk_N|+|Vk_N|log|Vk_N||),其中|Vk|为簇内的顶点个数,|Vk_N|为簇的邻居顶点个数。实际上,当一个新的候选顶点被加入簇后,簇的邻居顶点及其优先权只需根据该顶点被加入簇引起的变化进行更新。簇的邻居顶点更新的次数取决于该簇扩充终止时的规模。

子过程4:扩充判断。一个候选的扩充顶点是否被扩充需要判断其是否符合种子-扩充模型中的两个判断条件,若符合就将其加入该簇,并调用扩充簇子过程对其作进一步的扩充;若不符合,且所有的邻居顶点都已作过候选扩充顶点被考察过,则对该簇的扩充结束,若仍存在未被考察的邻居顶点,则将下一个优先权最高的邻居顶点作为候选扩充顶点。判断一个候选扩充顶点是否满足被扩充条件的时间复杂度为O(|Vk|2)。

为了验证方法IPCA的有效性,我们将方法IPCA应用于MIPS数据库中的酵母蛋白质相互作用网络和计算机生成的与该酵母网络具有相同度分布的随机网络。

首先,我们将参数Din设置为2,参数Tin设置从0.1到0.9,按0.1的间隔递增,将方法IPCA分别应用于酵母蛋白质相互作用网络和随机网络,并将识别的复合物与已知数据库中通过实验获得的标准数据进行比较分析。识别出来的复合物(Pc)与已知复合物(Kc)的匹配程度OS(Pc,Kc)的计算如下:

OS(Pc,Kc)=i2|VPc|×|VKc|---(2)

其中|VPc|和|VKc|分别表示识别复合物和已知复合物的规模,i表示他们交集的规模。

若两个复合物的匹配程度OS(Pc,Kc)超过给定的阈值,则称这两个复合物匹配。对于标准复合物数据集中的已知复合物,如果存在一个或多个算法识别出来的复合物与之匹配程度OS(Pc,Kc)超过给定阈值,则称该已知复合物被标识,如果OS(Pc,Kc)=1,则称该已知复合物被完全标识。表2给出了不同匹配阈值下已知复合物被方法IPCA和其他方法标识出来的数量。

表2不同匹配阈值下已知复合物被方法IPCA和其他方法标识出来的数量对比表

从表2可以看出,在不同匹配阈值下,方法IPCA标识出来的已知复合物的数量都高于方法DPClus、CFinder、LCMA、MCODE、RNSC和STM标识出来的已知复合物的数量。

图3描述了不同匹配阈值下方法IPCA从酵母蛋白质相互作用网络和对应的随机网络中标识出来的已知复合物数量。从图3可以看出,方法IPCA在酵母网络中标识出大量的已知复合物,但在随机网络中几乎没有已知复合物被标识出。这说明,方法IPCA识别的蛋白质复合物具有很强的生物意义。

由于目前所能获得的蛋白质相互作用数据都不可避免地具有较高的假阳性和假阴性,好的蛋白质复合物识别方法应该具有很好的健壮性。我们用随机增加和删除一定比例的边来模拟蛋白质相互作用网络的假阳性和假阴性。随机增加边的比例从10%到100%,按10个百分点间隔,产生了10组数据,从这些高假阳性的数据中进行蛋白质复合物识别,并将识别出来的结果与已知蛋白质复合物进行匹配,匹配的结果如图4所示。从图4可以看出,随着假阳性的增强,方法IPCA能够标识出来的已知蛋白质复合物数量几乎没有下降多少,说明其具有相当高的抗噪能力。随机删除边的比例从10%到90%,也按10个百分点间隔,重复上面的工作,匹配结果如图5所示。从图5可以看出,只要删除边的比例小于50%,方法IPCA能够标识出来的已知蛋白质复合物数量下降的很少。当删除边的比例大于50%时,标识出的数量开始下降。当删除边的比例大于80%时,标识出的数量有了十分明显的下降。随机增加和删除一定比例边的模拟实验充分说明了方法IPCA对蛋白质相互作用网络的假阳性和假阴性都具有相当高的健壮性。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号