技术领域
本发明涉及生物信息学、深度学习与计算机应用领域,具体而言涉及一种基于残基位置特征的蛋白质相互作用位点预测方法。
背景技术
蛋白质相互作用在许多生物过程中发挥着重要作用。传统的识别蛋白质相互作用位点的生物实验方法既昂贵又耗时。因此,许多基于生物计算方法已经被提出用于预测蛋白质相互作用位点。蛋白质相互作用位点的精确预测,对于分析蛋白质功能和设计药物有着重要的指导意义。
背景技术
目前,通过机器学习进行蛋白质相互作用位点预测的方法有:DELPHI(accuratedeep ensemble model for protein interaction sites prediction[J].Bioinformatics.Yiwei L,Brian G G,Lucian I.即:Yiwei等人.DELPHI:基于深度集成模型的蛋白质相互作用位点预测)、(Xiaoying W,Bin Y,Anjun M,et al.Protein–proteininteraction sites prediction by ensemble random forests with syntheticminority oversampling technique[J].Bioinformatics(14):14.即:Xiaoying W等人.基于随机森林和合成少数过采样技术预测蛋白质与蛋白质相互作用位点[J].生物信息学)、(Xie Z,Deng X,Shu K.Prediction of Protein–Protein Interaction Sites UsingConvolutional Neural Network and Improved Data Sets[J].International Journalof Molecular Sciences,2020,21(2).即:Xie Z等人.基于卷积神经网络和改进数据集的蛋白质与蛋白质相互作用位点预测[J])。虽然这些方法可以用于预测蛋白质相互作用位点,但是普遍使用大量训练数据集和机器学习算法,所以计算代价较大,同时由于训练样本集中的自身存在一些问题,如数据不平衡问题,尚不能够完美解决,预测精度并不能保证是最好的,且预测效率有待进一步提升。
综上所述,现存的蛋白质相互作用位点预测方法在计算代价、预测精确性方面,距离实际应用的要求还有很大差距,迫切地需要改进。
发明内容
为了克服现有蛋白质相互作用位点预测方法在计算代价、预测精确性方面的不足,本发明提出一种计算代价低、预测精确性高的基于残基位置特征的蛋白质相互作用位点预测方法。
本发明解决其技术问题所采用的技术方案是:
一种基于残基位置特征的蛋白质相互作用位点预测方法,所述方法包括以下步骤:
1)输入一个氨基酸残基数为L的待进行蛋白质相互作用位点预测的蛋白质序列,记作S;
2)对蛋白质序列S中的每个氨基酸残基R
3)从UniProt(http://www.uniprot.org/)数据库中获取已知相互作用位点标签的蛋白质序列作为训练集,使用步骤2)生成所有氨基酸残基的特征向量;结合相互作用位点的标签,构建训练样本集;
4)搭建卷积神经网络预测蛋白质序列S中的相互作用位点,该网络共有四层,分别为卷积层、归一化层、池化层、全连接层;使用sigmoid激活函数使网络的输出值在(0,1)范围内;
5)利用步骤3)中构建的训练样本集和交叉熵损失函数训练步骤4)中搭建的网络,获取预测模型;
6)将蛋白质序列S中残基的特征向量输入到步骤5)获取的模型中,根据模型输出的预测概率值是否大于阈值threshold,来判断对应的残基是否为蛋白质相互作用位点,当模型输出的预测概率值大于阈值threshold,则判定对应的残基为蛋白质相互作用位点。
本发明的技术构思为:首先根据待进行蛋白质相互作用位点预测的序列信息,计算出该序列中每个残基的残基位置特征向量;然后,搭建卷积网络框架,通过从UniProt数据库获取已知蛋白质相互作用位点标签的蛋白质序列构建样本集,训练搭建的卷积网络;最后,将待进行预测的蛋白质序列中残基的特征向量输入到训练的模型中,根据输出的概率值来判断该序列中的残基是否为相互作用位点。本发明计算代价低、预测精度高。
本发明的有益效果表现在:一方面,蛋白质序列残基的残基位置特征获取方便且计算代价较小;另一方面,利用了卷积网络,用于提取残基局部之间的联系,更好地保证了蛋白质相互作用位点预测的精确性。
附图说明
图1为一种基于残基位置特征的蛋白质相互作用位点预测方法的示意图。
图2为使用一种基于残基位置特征的蛋白质相互作用位点预测方法对蛋白质序列P53905进行蛋白质相互作用位点预测后的结果图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1和图2,一种基于残基位置特征的蛋白质相互作用位点预测方法,包括以下步骤:
1)输入一个氨基酸残基数为L的待进行蛋白质相互作用位点预测的蛋白质序列,记作S;
2)对蛋白质序列S中的每个氨基酸残基R
3)从UniProt(http://www.uniprot.org/)数据库中获取已知蛋白质相互作用位点标签的蛋白质序列作为训练集,使用步骤2)生成所有氨基酸残基的特征向量,构建训练样本集;
4)搭建卷积神经网络预测蛋白质序列S中的相互作用位点,该网络共有四层,分别为卷积层、归一化层、池化层、全连接层;使用sigmoid激活函数使网络的输出值在(0,1)范围内;
5)利用步骤3)中构建的训练样本集和交叉熵损失函数训练步骤4)中搭建的网络,获取预测模型;
6)将蛋白质序列S中残基的特征向量输入到步骤5)获取的模型中,根据模型输出的预测概率值是否大于阈值threshold,来判断对应的残基是否为蛋白质相互作用位点。
本实施例以蛋白质P53905的蛋白质与蛋白质相互作用位点预测为实施例,一种基于残基位置特征的蛋白质相互作用位点预测方法,包括以下步骤:
1)输入一个残基数为115的待进行蛋白质相互作用位点预测的蛋白质序列P53905,记作S;
2)对蛋白质序列S中的每个氨基酸残基R
3)从UniProt(http://www.uniprot.org/)数据库中获取已知蛋白质相互作用位点标签的蛋白质序列作为训练集,使用步骤2)生成所有氨基酸残基的特征向量,构建训练样本集;
4)搭建卷积神经网络预测蛋白质序列S中的相互作用位点,该网络共有四层,分别为卷积层、归一化层、池化层、全连接层;使用sigmoid激活函数使网络的输出值在(0,1)范围内;
5)利用步骤3)中构建的训练样本集和交叉熵损失函数训练步骤4)中搭建的网络,获取预测模型;
6)将蛋白质序列S中残基的特征向量输入到步骤5)获取的模型中,根据模型输出的预测概率值是否大于阈值threshold,来判断对应的残基是否为蛋白质相互作用位点,当模型输出的预测概率值大于阈值threshold,则判定对应的残基为蛋白质相互作用位点。
以蛋白质序列P53905的蛋白质相互作用位点预测为实施例,运用以上方法划分得到蛋白质序列P53905的预测如图2所示。
以上说明是本发明以蛋白质序列P53905的蛋白质相互作用位点为实例所得出的预测结果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。
机译: 基于蛋白质相互作用信息和蛋白质位置信息的蛋白质信号传递途径的确定方法
机译: 基于支持向量机的蛋白质相互作用预测方法
机译: 基于域组合信息的蛋白质相互作用预测方法和系统