首页> 中国专利> 一种植物与病原菌蛋白质相互作用的预测方法

一种植物与病原菌蛋白质相互作用的预测方法

摘要

本发明涉及一种植物与病原菌蛋白质相互作用的预测方法,包括步骤:1)收集宿主‑病原菌蛋白质互作阳性数据;2)收集蛋白质复合体模板空间结构,分析亚基对的互作界面;3)将宿主‑病原菌蛋白质序列进行同源结构建模,获取蛋白质同源空间结构模型;4)将蛋白质同源空间结构与蛋白质复合体模板空间结构进行比对,获取结构特征;5)提取非结构特征;6)基于结构特征和非结构特征,搭建机器学习模型并测试调整,对基因组尺度的水稻‑稻瘟病菌蛋白质互作进行预测。与现有技术相比,本发明充分借助已测定的蛋白质结构数据,及同源、结构域互作等信息,能够有效、快速、简捷地提取植物‑病原菌蛋白质相关互作特征信息。

著录项

  • 公开/公告号CN112185459A

    专利类型发明专利

  • 公开/公告日2021-01-05

    原文格式PDF

  • 申请/专利权人 上海交通大学;

    申请/专利号CN202011020892.3

  • 发明设计人 张利达;郑存俭;刘源;孙方楠;

    申请日2020-09-25

  • 分类号G16B15/30(20190101);G16B15/20(20190101);G16B50/30(20190101);

  • 代理机构31225 上海科盛知识产权代理有限公司;

  • 代理人叶敏华

  • 地址 200240 上海市闵行区东川路800号

  • 入库时间 2023-06-19 09:26:02

说明书

技术领域

本发明涉及生物数据处理技术领域,尤其是涉及一种植物与病原菌蛋白质相互作用的预测方法。

背景技术

植物与病原菌的相互作用是双向的生物交流过程。一方面植物试图识别病原菌分泌的分子以避免被感染,另一方面,病原菌会尽可能地操纵植物,从而使植物宿主环境对其更有利。这使得许多已知的物种内蛋白质相互作用预测方法不适用于植物-病原菌,也鲜有聚焦植物-病原菌蛋白质相互作用预测的研究。

目前虽已发展用于蛋白质相互作用的实验检测方法,但实验方法费时费力、数据累积量少,且这些数据大多数集中在人与病原体(尤其是病毒)之间的互作。相比之下,其他宿主,尤其是植物-病原菌蛋白质互作数据非常有限。

虽然从蛋白质空间结构角度非常容易解释蛋白质互作,但是蛋白质空间结构复杂,且已知结构的蛋白质数量有限,如何充分借助这些已测定的蛋白质结构数据,提取相关互作特征信息,已成为当前植物-病原菌相互作用亟待解决的关键问题。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种植物与病原菌蛋白质相互作用的预测方法,该方法借助已测定的蛋白质空间结构数据,以及同源、结构域互作等信息,能够有效、快速、简捷地提取植物-病原菌蛋白质相关互作特征信息。

本发明的目的可以通过以下技术方案来实现:

一种植物与病原菌蛋白质相互作用的预测方法,包括如下步骤:

S1、收集宿主-病原菌蛋白质互作阳性数据以及水稻、稻瘟病菌的基因组数据;

利用HPIDB数据库收集宿主-病原菌蛋白质互作阳性数据,所述宿主-病原菌蛋白质互作阳性数据满足通过酵母双杂交等蛋白质互作检测手段中至少一种实验方法测定获得。

从MSU数据库下载水稻的基因组数据,删除转座子基因;从Ensembl Genomes数据库下载稻瘟病菌的基因组数据,在TMHMM网站进行跨膜螺旋预测,选取预测的跨膜螺旋预测数量大于0的蛋白质;在SignalP网站进行信号肽预测,在WoLF PSORT网站进行亚细胞定位预测,类别为信号肽且定位在胞外的蛋白质属于稻瘟病的分泌蛋白;去除各步骤得到的重复蛋白质后,筛选得到具有与水稻蛋白质发生潜力互作的稻瘟病菌蛋白质。

S2、收集蛋白质复合体模板空间结构,并将蛋白质复合体拆分成不同亚基,获取亚基对的互作界面;

利用PDB蛋白质结构数据库获取实验测得的蛋白质三维结构数据,所述蛋白质三维结构数据通过核磁共振、X射线晶体衍射或电子显微镜中的至少一种实验方法测定;获取蛋白质三维结构数据后,将蛋白质复合体拆分成不同亚基,利用PIBASE软件读取亚基对的结构数据,提取互作界面信息。

S3、以步骤S2中蛋白质复合体模板空间结构为模板,利用MODPIPE将宿主-病原菌蛋白质序列进行同源结构建模,获得蛋白质同源空间结构模型。

S4、将蛋白质同源空间结构与蛋白质复合体模板空间结构进行比对,获取结构特征;

进一步地,利用TM-align软件将蛋白质同源空间结构与蛋白质复合体模板空间结构进行比对,获取结构特征。所述结构特征包括蛋白质同源空间结构与蛋白质复合体的相似度、结构偏差度以及蛋白质同源空间结构与蛋白质复合体模板空间结构的互作界面的保守残基数目、保守残基占比。

S5、收集模式生物的蛋白质相互作用数据,获取模式生物阳性互作数据集,并提取非结构特征;

利用同源映射分析植物-病原菌蛋白质互作的跨物种保守性,获取蛋白质同源映射关系,结合结构域互作数据集,获取有互作结构域支撑的相关互作蛋白质对,即结构域相互作用关系。

S6、基于结构特征和非结构特征,搭建机器学习模型并测试调整,对基因组尺度的水稻-稻瘟病菌蛋白质互作进行预测。

对步骤S1得到的宿主-病原菌蛋白质互作阳性数据集进行序列聚类、随机组合生成一定量的阴性数据集,将阳性数据集与阴性数据集按一定比例生成训练集和测试集,根据训练集的结构特征和非结构特征,利用scikit-learn随机森林搭建机器学习初始模型,并通过网格搜索功能对该初始模型进行参数的批量优化测试和调整,利用优化模型对基因组尺度所有可能两两互作的水稻-稻瘟病菌蛋白质对进行关系预测,并根据预测结果采用Cytoscape软件绘制水稻-稻瘟病菌蛋白质互作网络。

相较于现有技术,本发明基于现有生物数据,借助已测定的蛋白质空间结构数据,以及同源、结构域互作等信息,能够有效、快速、简捷地提取植物-病原菌蛋白质相关互作特征信息,进而获取植物-病原菌蛋白质互作数据,为植物抗病分子机制研究提供参考。

附图说明

图1为实施例中植物与病原菌蛋白质相互作用的预测方法的流程示意图;

图2为实施例中基因组尺度的水稻-稻瘟病蛋白质相互作用网络。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。

实施例

蛋白质互作的计算机预测需要利用统计学、机器学习等方法,从大量数据中提取有价值的特征。随着生物数据的指数性增长,机器学习方法经过改进可以适用于生物数据的分析。本发明提供了基于蛋白质空间结构的植物与病原菌蛋白质相互作用的预测方法,并以此在基因组尺度构建高准确性的植物-病原菌蛋白质互作网络。

具体地,如图1所示,本发明涉及一种植物与病原菌蛋白质相互作用的预测方法,包括如下步骤:

步骤一、宿主-病原菌蛋白质互作阳性数据和水稻及稻瘟病菌基因组数据收集

从HPIDB数据库(Host-Pathogen Interaction Database)收集宿主-病原菌蛋白质互作阳性数据集。数据必须满足通过酵母双杂交等蛋白质互作检测手段中至少一种实验方法测定获得。

在稻瘟病菌侵染水稻时,膜蛋白和分泌蛋白最有可能在水稻体内与水稻的蛋白质发生相互作用。本发明基于HPIDB数据库获取与水稻蛋白质发生潜力互作的稻瘟病菌蛋白质。具体地:从MSU数据库下载水稻的基因组数据,删除转座子基因。从Ensembl Genomes数据库下载稻瘟病菌的基因组数据,在TMHMM网站进行跨膜螺旋预测,预测的跨膜螺旋预测数量大于0的蛋白质为膜蛋白,共有2317个;在SignalP网站进行信号肽预测,在WoLF PSORT网站进行亚细胞定位预测,类别为信号肽且定位在胞外的蛋白质属于稻瘟病的分泌蛋白,共有1402个蛋白质;去除重复后,共筛选获得3491个具有与水稻蛋白质发生潜力互作的稻瘟病菌蛋白质。

步骤二、蛋白质复合体模板空间结构收集及亚基互作界面分析

从PDB蛋白质结构数据库下载实验测得的蛋白质三维结构数据,结构数据需通过核磁共振、X射线晶体衍射或电子显微镜中的至少一种实验方法测定。复合体亚基互作界面分析,是指将PDB蛋白质复合体拆分成两两互作的蛋白质亚基对;本发明将蛋白质复合体拆分成不同亚基,利用PIBASE软件读取亚基对的结构数据,提取互作界面信息。

步骤三、蛋白质同源结构建模

以步骤二中实验测得的蛋白质三维结构数据为模板,利用MODPIPE软件将宿主及病原菌的蛋白质序列进行同源结构建模,获得其空间结构模型。

以步骤一中宿主-病原菌蛋白质相互作用数据集为例,从uniprot数据库中下载其蛋白质序列,对其进行同源建模,比对方法包括sequence-sequence比对(序列到序列比对)、profile-sequence比对、profile-profile比对。评估同源建模模型质量运用MPQS进行打分,MPQS是一个综合评分,包括序列相似性、模板覆盖面和三个独立的评估分数:e-value,Z-DOPE和GA341。e-value为建模蛋白与模板之间对齐的显著性阈值;Z-DOPE为基于概率论,不依赖于任何可调参数(离散优化蛋白质能量或DOPE)的从本地结构样本中推导出原子距离依赖的统计学可能性;GA341为依据统计学的模型可靠性得分。通过观察打分概率分布函数,设定打分阈值为MPQS≧0.5,视为稳定的同源结构模型。

将同源结构模型的序列长度进行打分,过滤去除过短的,不足以判断是否存在互作界面的蛋白质同源结构模型。将同源结构模型的序列长度进行打分的分值MODSEQ-sore=L-MOD/L-SEQ,其中L-MOD为同源建模序列长度,L-SEQ为对应基因序列长度。结合MODSEQ-sore的概率密度分布函数,兼顾数据数量和数据质量,设定阈值为30%,共计得到14628个蛋白质的同源建模结果。

步骤四、蛋白质同源结构模型与复合体模板结构叠加比对,获取结构特征

利用TM-align软件将宿主与病原菌的同源结构模型与复合体模板进行空间结构比对。以步骤一中宿主-病原菌蛋白质相互作用数据集为例,将TM-score值控制在0.4以上,最终获得10148个阳性同源模板与复合体亚基的结构比对结果,并计算蛋白质同源模型与复合体模板之间的RMSD值、TM-score值、互作界面保守残基数目以及保守残基占比作为结构特征。通过结构比对结果计算蛋白质同源模型与复合体模板之间的RMSD值、TM-score值、互作界面保守残基数目以及保守残基占比这些结构特征为现有技术,在此不过多赘述。

步骤五、非结构特征分析提取

从BioGRID、IntAct、DIP、BIND以及MINT五个公开数据库中收集包括拟南芥、小鼠、线虫、人、大肠杆菌、酵母、果蝇7种模式生物的蛋白质相互作用数据,获得模式生物阳性互作数据集。

利用inparanoid和blast软件分别分析步骤一得到的水稻及稻瘟病蛋白质与7种模式生物蛋白质组之间的直系同源关系,即得到非结构特征:同源映射关系。根据inparanoid分析结果,结合模式生物阳性数据集获得5720对有同源映射结果支撑的水稻-稻瘟病蛋白质互作关系;根据blast软件结果,调整e值、序列一致性、序列覆盖度3个参数,确定blast软件分析参数为e值为1e-5,序列一致性为45%,序列覆盖度为50%,获得5702对水稻-稻瘟病蛋白质互作关系。

利用PfamScan读取蛋白质结构域信息,并结合3did数据库收集的结构域互作数据集,获得有互作结构域支撑的相关互作蛋白质对。即得到非结构特征:结构域相互作用关系。

步骤六、深度学习模型的构建与优化

对步骤一中宿主-病原菌蛋白质相互作用数据集进行序列聚类、随机组合生成一定量的阴性数据集,将步骤一得到的阳性数据集与本步骤得到的阴性数据集按一定比例生成训练集和测试集。根据训练集的4个结构特征和2个非结构特征,利用scikit-learn随机森林搭建机器学习初始模型。使用网格搜索功能对初始模型进行参数的批量优化和调整,最终确定参数:最大迭代次数为60,决策树最大深度为13,内部节点再划分所需最小样本数为120,叶子节点最少样本数为20,最大特征数为7,随机数种子为10,其余参数默认。利用优化模型对基因组尺度所有可能两两互作的水稻-稻瘟病菌蛋白质对进行关系预测,其筛选阈值为0.5,并根据所有预测结果用Cytoscape软件绘制水稻-稻瘟病菌蛋白质互作网络,呈现的直观结果如图2所示。

本发明基于现有生物数据,借助已测定的蛋白质空间结构数据,以及同源、结构域互作等信息,能够有效、快速、简捷地提取植物-病原菌蛋白质相关互作特征信息,进而获取植物-病原菌蛋白质互作数据,为植物抗病分子机制研究提供参考。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的工作人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号