首页> 中国专利> 一种基于牵连犯罪原则和网络拓扑结构特征的药物-靶标相互作用识别方法

一种基于牵连犯罪原则和网络拓扑结构特征的药物-靶标相互作用识别方法

摘要

本发明公开了一种基于牵连犯罪原则和网络拓扑结构特征的药物-靶标相互作用识别方法。首先根据人类蛋白质与蛋白质相互作用数据和药物-靶标相互作用数据,构建包含蛋白质-蛋白质相互作用子网络、药物-靶标相互作用子网络和药物-药物关系子网络的药物-靶标相互作用组网络;利用蛋白质一级结构描述符、药物分子指纹特征以及相互作用可靠性等信息,对网络中的节点和边加权;基于牵连犯罪原则和图论,提出新的网络拓扑结构特征表征药物-靶标相互作用对;最后采用随机森林算法构建模型,在蛋白组尺度预测潜在药物-靶标相互作用。本方法不需要蛋白质和药物分子的三维结构等信息,更加简单、快速和准确,有望应用于新药研发和病理学研究等领域。

著录项

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-07-13

    专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F19/16 变更前: 变更后: 变更前: 变更后: 申请日:20150812

    专利权人的姓名或者名称、地址的变更

  • 2018-01-26

    授权

    授权

  • 2015-12-30

    实质审查的生效 IPC(主分类):G06F19/16 申请日:20150812

    实质审查的生效

  • 2015-12-02

    公开

    公开

说明书

技术领域

本发明属于计算机辅助药物设计技术领域。更具体地,涉及一种基于牵连犯 罪原则和网络拓扑结构特征的药物-靶标相互作用识别方法。

背景技术

新药研究与开发一直是一个费时、费力的过程。据估计一个新药上市平均要 花费数十亿美元和十多年时间。近年来新药研发的成功率一直呈下降趋势,造成 这种现象的一个主要原因是药物-靶标相互作用信息地缺乏。大部分药物都是生 物活性小分子,主要通过与靶标蛋白质的相互作用阻断异常的生物过程发挥疗 效。因此,识别药物-靶标相互作用一直是药物研发的重要部分,识别药物-靶标 相互作用不仅可以减少研发成本和时间,而且有助于阐明药物活性机制。

在药物-靶标相互作用识别模型的构建中,蛋白质与药物靶标相互作用对的 合理、有效表征是影响模型预测性能的关键。采用蛋白质一级结构描述符和药物 分子指纹描述符表征药物-靶标相互作用对是一种简单的方法,通过该方法,药 物-靶标相互作用对可以表征为一个高维特征向量,但是该方法没有考虑生物网 络的整体性和鲁棒性等特点。因此,近年来研究人员提出了基于网络的药物-靶 标相互作用识别方法,但是该方法仅把药物-靶标相互作用模拟为二部图,没有 考虑到蛋白质与蛋白质以及药物与药物之间的相互作用,而且仅把蛋白质和药物 考虑为一个单纯的点,忽略了物理化学等性质。因此,提出全新的药物-靶标相 互作用表征方法,并发展自动、可靠的药物-靶标相互作用识别方法具有重大的 理论和实际应用意义。

发明内容

本发明要解决的技术问题是克服现有新药研发中药物-靶标相互作用识别技 术的缺陷和不足,提供一种新的简单、合理、高效的药物-靶标相互作用标准方 法——网络拓扑结构特征,在网络拓扑结构特征的基础上,利用随机森林算法构 建模型对药物-靶标相互作用进行识别研究,有望应用于新药研究和计算机辅助 药物设计等领域。该表征方法不仅包含药物指纹描述符和蛋白质一级结构描述符 信息,而且还包含了网络拓扑结构信息,预测结果明显优于现有文献报道结果。

本发明的目的是提供一种基于牵连犯罪原则和网络拓扑结构特征的药物-靶 标相互作用识别方法。

本发明另一目的是提供该方法的应用。

本发明上述目的通过以下技术方案实现:

一种基于牵连犯罪原则和网络拓扑结构特征的药物-靶标相互作用识别方 法,包括以下步骤:

S1.构建药物-靶标相互作用组网络

S11.从现有数据库收集人类蛋白质与蛋白质相互作用数据和药物-靶标相互 作用数据;

S12.基于相互作用数据,构建包含蛋白质-蛋白质相互作用子网络、药物-靶 标相互作用子网络和药物-药物关系子网络的综合药物-靶标相互作用组网络;

S2.表征药物-靶标相互作用对

S21.基于蛋白质一级序列信息和药物小分子结构信息,分别计算其一级结构 描述符和药物分子指纹描述符,结合相互作用信息,对网络节点和边加权;

S22.基于加权的节点和边信息,采用牵连犯罪原则和图论分别计算网络中蛋 白质和药物小分子的网络拓扑结构特征,网络拓扑结构特征通过下式计算:

DNTFd=1NΣj=1NDd(i)×Ed,j×Dj(i)(i=1,2,......,1024)

PNTFp=1NΣj=1NPp(i)×Ep,j×Pj(i)(i=1,2,......,1767)

式中,Dd(i)和Dj(i)分别表示药物分子d和邻居药物分子j的第i个节 点权重;

Ed,j是药物分子d和j的边权重;

Pp(i)和Pj(i)分别是蛋白质p和其邻居蛋白质j的第i个节点权重;

Ep,j是蛋白质p和邻居j的边权重;

N是药物分子d或者蛋白质p的邻居总数;

S23.基于蛋白质和药物小分子的网络拓扑结构特征,提出药物d-靶标p的相 互作用对网络拓扑结构特征,其表示如下:

DPNTFd,p=DNTFdPNTFp

式中,表示正交求和;最终,药物-靶标相互作用对被表征为一个2791维 的特征向量;

S3.采用随机森林算法构建预测模型,预测潜在药物-靶标相互作用,为新药 设计和病理机制研究提供理论参考。

具体地,步骤S11所述现有数据库为DrugBank数据库和HIPPIE数据库。

步骤S12所述子网络中,每一个定点表示蛋白质或者药物小分子;如果两个 蛋白质或者药物-靶标具有相互作用,则用一条边连接这两个顶点;如果两个药 物小分子具有共同的蛋白质靶标,则用一条边连接。

步骤S21所述一级结构描述符是一个1767维特征向量,包括:氨基酸组成、 二肽组成、各种自相关描述符以及组成、转变和分布描述符;所述分子指纹描述 符是一个1024维的二进制特征向量,“1”表示药物分子具有某一种特定分子结 构,“0”表示没有。

作为一种具体的可实施方案,步骤S1构建药物-靶标相互作用组网络的具体 方法为:

(1)从HIPPIE数据库收集人类蛋白质相互作用信息,去除自相互作用、重 复相互作用以及相互作用得分为0的相互作用;根据蛋白质获得号,从 UniprotKB/Swiss-Prot数据库获取蛋白质序列信息,计算氨基酸组成、二肽组成、 自相关描述符和组成、转变和分布,获得蛋白质一级结构描述符,基于收集的信 息,构建节点和边加权的人类蛋白质-蛋白质相互作用子网络;其中,节点权重 是蛋白质一级结构描述符,边权重是蛋白质相互作用得分;

(2)从DrugBank数据库收集药物-靶标相互作用信息,废除靶标不属于人 类的相互作用数据,根据药物小分子结构信息,采用PaDEL-Descriptor软件计算 分子指纹描述符,构建药物-靶标相互作用子网络;其中,药物节点权重是分子 结构描述符,靶标节点权重是蛋白质一级结构描述符,如果药物和靶标分子发生 相互作用,则用一条边连接。

(3)根据(2)获得的药物-靶标相互作用数据,构建药物-药物关系子网络; 如果两个药物分子具有相同的靶标蛋白质,则用一条边连接;根据两个药物的靶 标蛋白质的数目和公共蛋白质的数目,计算边权重,节点权重是分子指纹描述符;

(4)根据蛋白质的获得号和药物分子在DrugBank数据库中的ID号,合并 三个子网络,构建融合的药物-靶标相互作用组网络。

构建得到的药物-靶标相互作用组网络包含:240300条边和17695个节点; 其中,153749条边表示蛋白质-蛋白质相互作用,77713条边表示药物-药物关系, 8838条表示药物-靶标相互作用;在所有的节点中,14086个是蛋白质,3609个 是药物小分子。

作为一种具体的可实施方案,步骤S2表征药物-靶标相互作用对的具体方法 为:

(1)对于一个药物d和靶标蛋白质p的相互作用,通过药物-靶标相互作用 组网络查找药物d的邻居药物小分子,考虑邻居分子的拓扑结构信息,节点权重 和边权重信息,采用下式计算药物d的网络拓扑结构特征:

DNTFd=1NΣj=1NDd(i)×Ed,j×Dj(i)(i=1,2,......,1024)

(2)查找靶标蛋白质p的邻居蛋白质分子,考虑靶标蛋白质p的网络拓扑 结构以及节点和边权重,采用下式计算靶标蛋白质p的网络拓扑结构特征:

PNTFp=1NΣj=1NPp(i)×Ep,j×Pj(i)(i=1,2,.......,1767)

(3)同时考虑药物d和靶标蛋白质p网络拓扑结构信息,通过下式表征药 物-靶标相互作用对:

DPNTFd,p=DNTFdPNTFp.

本发明的方法在实际应用时,步骤S11收集具有较高可信度的相互作用信 息,根据收集到的信息,步骤S12构建可靠的蛋白质-蛋白质相互作用子网络、 药物-靶标相互作用子网络和药物-药物关系子网络。

进一步地,步骤S2基于有效的蛋白质一级结构描述符和药物分子指纹描述 符,结合相互作用信息,对网络节点和边加权,在此基础上提出合理、有效的网 络拓扑结构特征用以表征药物-靶标相互作用。

最后,步骤S3优化随机森林算法参数、构建高精度预测模型,所述随机森 林算法的参数如下:森林中树的数目设置为100,叶节点选择变量的数目设置为 总变量数目的平方根。

另外,上述基于牵连犯罪原则和网络拓扑结构特征的药物-靶标相互作用识 别方法在新药研发和/或计算机辅助药物设计中的应用,也在本发明的保护范围 之内。具体是应用于识别药物-靶标相互作用。

本发明通过大量研究和探索,提出了新的药物-靶标相互作用表征方法—— 网络拓扑结构特征,该表征方法不仅包含了蛋白质一级结构和药物小分子结构信 息,而且还包括了生物网络拓扑结构信息,将其与随机森林算法相结合,建立了 药物-靶标相互作用识别新方法。基于构建的数据集,进行了10-折交叉验证实验, 并与现有文献报道的方法进行了比较,结果显示,本发明方法的预测结果显著优 于文献的方法,表明了本发明方法的有效性和进步性。

本发明具有以下有益效果:

本发明提供了一种基于牵连犯罪原则和网络拓扑结构特征的药物-靶标相互 作用识别方法,该方法是一种新的简单、合理、高效的药物-靶标相互作用标准 方法,在网络拓扑结构特征的基础上,利用随机森林算法构建模型对药物-靶标 相互作用进行识别研究,该表征方法不仅包含药物指纹描述符和蛋白质一级结构 描述符信息,而且还包含了网络拓扑结构信息,预测结果明显优于现有文献报道 结果。该方法具体优势如下:

(1)本发明构建了包含蛋白质-蛋白质相互作用、药物-靶标相互作用和药 物-药物关系的综合生物分子相互作用网络——药物-靶标相互作用组网络。相对 于现有方法,不仅考虑药物-靶标相互作用,而且考虑了药物-药物以及蛋白质- 蛋白质的相互作用。

(2)本发明对构建的药物-靶标相互作用组网络中的节点和边加权。而现有 方法忽视了生物分子的物理化学等性质,而且没有考虑相互作用之间的假阳性因 素,本发明通过对节点和边加权,同时考虑了这些因素。

(3)本发明同时考虑网络拓扑结构信息提出药物-靶标相互作用表征方法, 相对于传统的表征方法,从复杂生物网络尺度上对药物-靶标相互作用进行了合 理、有效表征,反应了生物分子相互作用的本质。

(4)本发明的药物-靶标相互作用识别方法简单、快速和准确,并且本发明 方法对药物-靶标相互作用冗余性和蛋白质-蛋白质相互作用假阳性具有鲁棒性, 有望应用于新药研发、疾病研究和计算机辅助药物设计等领域。

附图说明

图1本发明流程示意图。

图2统计平均结果(黑色表示本发明方法结果,灰色表示文献方法结果)。

图3受试者操作特征曲线和精度-召回曲线(黑色和灰色的实线分别表示发 明方法的ROC曲线和PRC曲线。黑色和灰色的虚线分别表示文献方法的ROC 曲线和PRC曲线)。

具体实施方式

以下结合说明书附图和具体实施例来进一步说明本发明,但实施例并不对本 发明做任何形式的限定。在不背离本发明精神和实质的情况下,对本发明方法、 步骤或条件所作的简单修改或替换,均属于本发明的范围。

除非特别说明,本发明采用的试剂、方法和设备为本技术领域常规试剂、方 法和设备。除非特别说明,以下实施例所用试剂和材料均为市购。

实施例1

1、收集数据集,构建药物-靶标相互作用组网络

(1)从HIPPIE数据库收集人类蛋白质相互作用信息,去除自相互作用、重 复相互作用以及相互作用得分为0的相互作用。根据蛋白质获得号,从 UniprotKB/Swiss-Prot数据库获取蛋白质序列信息,计算氨基酸组成、二肽组成、 自相关描述符和组成、转变和分布等蛋白质一级结构描述符。基于收集的信息, 构建节点和边加权的人类蛋白质-蛋白质相互作用子网络。节点权重是蛋白质一 级结构描述符,边权重是蛋白质相互作用得分。

(2)从DrugBank数据库收集药物-靶标相互作用信息,废除靶标不属于人 类的相互作用数据。根据药物小分子结构信息,采用PaDEL-Descriptor软件计算 分子指纹描述符,构建药物-靶标相互作用子网络。药物节点权重是分子结构描 述符,靶标节点权重是蛋白质一级结构描述符。如果药物和靶标分子发生相互作 用,则用一条边连接。

(3)根据获得的药物-靶标相互作用数据,构建药物-药物关系子网络。如 果两个药物分子具有相同的靶标蛋白质,则用一条边连接。根据两个药物的靶标 蛋白质的数目和公共蛋白质的数目,计算边权重。节点权重是分子指纹描述符。

(4)根据蛋白质的获得号和药物分子在DrugBank数据库中的ID号,合并 三个字网络,构建融合的药物-靶标相互作用组网络,包含:240300条边和17695 个节点。其中,153749条边表示蛋白质-蛋白质相互作用,77713条边表示药物- 药物关系,8838条表示药物-靶标相互作用。在所有的节点中,14086个是蛋白 质,3609个是药物小分子。

2、表征药物-靶标相互作用对

(1)对于一个药物d和靶标蛋白质p的相互作用,收集通过综合相互作用 网络查找药物d的邻居药物小分子。考虑邻居分子的拓扑结构信息,节点权重和 边权重信息,采用下式计算药物d的网络拓扑结构特征:

DNTFd=1NΣj=1NDd(i)×Ed,j×Dj(i)(i=1,2,......,1024)

式中,Dd(i)和Dj(i)分别表示药物分子d和邻居药物分子j的第i个节 点权重;

Ed,j是药物分子d和j的边权重;

Pp(i)和Pj(i)分别是蛋白质p和其邻居蛋白质j的第i个节点权重;

Ep,j是蛋白质p和邻居j的边权重;

N是药物分子d或者蛋白质p的邻居总数。

(2)查找靶标蛋白质p的邻居蛋白质分子,考虑靶标p的网络拓扑结构以 及节点和边权重,采用下式计算靶标蛋白质p的网络拓扑结构特征:

PNTFp=1NΣj=1NPp(i)×Ep,j×Pj(i)(i=1,2,......,1767)

式中,Dd(i)和Dj(i)分别表示药物分子d和邻居药物分子j的第i个节 点权重;

Ed,j是药物分子d和j的边权重;

Pp(i)和Pj(i)分别是蛋白质p和其邻居蛋白质j的第i个节点权重;

Ep,j是蛋白质p和邻居j的边权重;

N是药物分子d或者蛋白质p的邻居总数。

(3)最终,同时考虑药物和靶标网络拓扑结构信息,通过下式表征药物- 靶标相互作用对:

DPNTFd,p=DNTFdPNTFp

式中,表示正交求和;最终,药物-靶标相互作用对被表征为一个2791维 的特征向量。

3、模型构建与性能评价

(1)采用随机森林算法,优化随机森林算法参数、构建高精度预测模型, 并预测潜在药物靶标。

其中,所述随机森林算法的参数如下:深林中树的数目设置为100,叶节点 选择变量的数目设置为总变量数目的平方根。

(2)通过随机匹配药物和蛋白质产生非药物-靶标相互作用对数据,利用预 测准确度、敏感性、特异性、精确度、马氏相关系数、受试者操作特征曲线和精 度-召回曲线评估模型预测性能。

4、结果

(1)在采用随机算法构建预测模型中,树的数目按照步长100从100到1000 改变、每一个叶节点选择变量的数目分别按照步长21从20到27改变。采用格 点搜索寻找两者的最优组合。三分之二的样本考虑为袋内样本,三分之一考虑为 袋外样本。随机产生10个负样本数据集,10次统计平均结果如图2所示,最优 模型的受试者操作特征曲线和精度-召回曲线如图3所示。

本发明方法的平均预测精度为92.53%、敏感性为94.05%、特异性为91.01%、 精确度为91.28%和马氏相关系数为0.8510,各项预测结果的标准偏差仅0.19%, 0.21%,0.26%,0.24%和0.42%。受试者操作特征曲线和精度-召回曲线的面积 分别是0.9799和0.9609。这些结果表明,当前方法具有鲁棒性和较高的预测性 能。

(2)另外,我们还对现有文献报道的方法进行了测试。所述的现有文献为: Hiroaki.Y,Satoshi.N,Hiromu.T,Tomomi.I,Takatsugu.K,Takafumi.H,Teppei.O, Yohsuke.M,Gozoh.T.Yasushi.O.Analysisofmultiplecompound-protein interactionsrevealsnovelbioactivemolecules.Mol.Syst.Biol.,2011,7:472.

该文章首先计算蛋白质一级结构的氨基酸组成、二肽组成等描述符和化合物 小分子的物理化学等性质描述符。然后将蛋白质一级结构描述符和分子指纹描述 符连接成一个新的向量表征化合物-蛋白质相互作用对。最后,采用支持向量机 构建模研究化合物-蛋白质相互作用。

现有文献方法通常没有考虑网络拓扑结构特征,只是把蛋白质靶标的一级结 构描述符和药物分子的指纹描述符简单链接。基于构建构建的数据集,文献方法 的结果如图2和3所示。准确度、敏感性、特异性和精确度分别是82.27%,84.47%, 80.07%和80.91%,比本发明方法低了大约10%。马氏相关系是0.6460,比本发 明低了0.5以上。受试者操作特征曲线和精度-召回曲线的面积分别是0.9079和 0.8983,比本发明低了0.07以上。表明本发明方法显著优于文献报道方法。

(3)对于两个药物-靶标相互作用对p1-d1和p2-d2,采用 Needleman-Wunsch算法和BLOSUM50得分矩阵计算两个蛋白质p1和p2的序列 相似性。采用绝对皮尔森相关系数计算两个药物分子d1和d2指纹描述符的相关 性:

Rd1,d2=abs(Σi=1N(Dd1(i)-Dd1)(Dd2(i)-Dd2)Σi=1N(Dd1(i)-Dd1)2×Σi=1N(Dd2(i)-Dd2)2)

式中,and是两个药物分子的第i个分子指纹描述符的值,和是指纹描述符的平均值,abs表示绝对值操作,N=1024。最终,这两个 药物-靶标相互作用对的相似性定义为蛋白质序列相似性和药物分子指纹描述符 皮尔森相关系数的平均值之和。构建8系列的非冗余药物-靶标相互作用数据集, 在数据集中任何两个药物-靶标相互作用对的相似性低于阈值0.2,0.3,0.4,……, 0.9。10折交叉验证的结果如表1所示:

表1.非冗余数据集10折交叉验证结果

由表1可以看出,当阈值设置为0.9时,预测准确度为91.97%,阈值在0.8~ 0.3之间时,预测准确度始终高于80%。阈值降为0.2时,预测准确度为77.52%。 表明本发明方法对冗余性数据集具有鲁棒性,当药物-靶标相互作用对相似性很 低时,仍然能够获得高的预测准确度。

(4)通过改变蛋白质-蛋白质相互作用得分阈值为0.1,0.2,……,0.8,构建 了8个蛋白质相互作用子网络,进一步构建药物-靶标相互作用数据集,验证蛋 白质相互作用假阳性对本发明方向性能的影响。结果如表2所示。

表2.基于各种蛋白质相互作用得分构建的数据集的10折交叉验证结果

由表2可以看出,当蛋白质相互作用得分阈值从0.8到0.1变化时,本发明 方法预测准确度一直高于90%,并且变化范围非常小,表明对假阳性蛋白质相互 作用具有鲁棒性。

综上所述,本发明基于牵连犯罪原则和图论方法,提出的药物-靶标相互作 用识别方法,通过与文献报道方法的比较,预测结果要显著优于现有方法。并且 通过实验表明,本发明方法对药物-靶标相互作用冗余性和蛋白质-蛋白质相互作 用假阳性具有鲁棒性。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号