首页> 中国专利> 一种基于药物靶标相互作用神经网络寻找活性位点的方法

一种基于药物靶标相互作用神经网络寻找活性位点的方法

摘要

一种基于药物靶标相互作用神经网络寻找活性位点的方法属于人工智能药物设计领域。本发明为寻找药物与蛋白靶标的活性位点,通过将一个蛋白质中的氨基酸序列进行对折拆分,分别输入到药物靶标相互作用神经网络模型,比较输出的药物与氨基酸序列亲和力数值,确定药物与靶标相互作用的活性位点的位置。本发明已在相关已知蛋白靶点的药物设计方法中进行了多次验证,成功率极高。

著录项

  • 公开/公告号CN113870944A

    专利类型发明专利

  • 公开/公告日2021-12-31

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN202110991279.4

  • 发明设计人 孙少瑞;张云江;

    申请日2021-08-26

  • 分类号G16B15/30(20190101);G16B20/30(20190101);G16B30/10(20190101);G16B40/00(20190101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构11203 北京思海天达知识产权代理有限公司;

  • 代理人刘萍

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2023-06-19 13:29:16

说明书

技术领域

本发明属于人工智能药物设计领域

背景技术

新药研发的关键问题就是寻找和确定药物分子所对应的靶标。药物靶标是指生物体内能够与药物产生相互作用并且可以发挥特殊药效功能以达到治疗效果的生物大分子。其中,98%的药物靶标为蛋白质而极少部分为核酸分子。药物与靶标之间的相互作用就是指药物与靶标蛋白之间的相互作用。研究表明,大多数的药物可以与多个靶标蛋白产生相互作用,同理,靶标蛋白也能够与多个药物产生相互作用,只有准确找到与药物分子作用的特定的靶标蛋白才能够加速药物的研发过程。然而,倘若研究人员们能够在早期的药物研发中做到准确的识别药物与特定靶标蛋白之间的依赖关系,能够找到药物与哪些靶点的相互作用,那么就可以避免从海量的生物数据中来寻找候选靶标蛋白,从而可以极大地提高药物靶标研发的效率。因此,对于新药研发这个高投入、低产出、高风险的工程而言,发展快速、高效以及精确的药物-靶标相互作用预测方法对获得潜在的药物和寻找活性位点都具有非常重要的意义。

发明内容

本发明目的在于开发一种基于药物靶标相互作用神经网络寻找活性位点的方法。该方法具有通用性,适用于寻找任何小分子药物与蛋白靶标。

为实现上述发明目的,本发明采取如下技术方案:

神经网络模型主要包括Smiles输入层、氨基酸序列输入层、卷积层、矩阵拼接模块、全连接层、输出层。

利用药物靶标数据集建立药物靶标相互作用神经网络模型,执行如下操作:

Binding database(BindingDB)数据库是一个可公开访问的主要收集药物靶点蛋白质和类药小分子之间相互作用亲和力的数据库,目的是使研究者更容易通过网络获取相关分子的非共价结合数据,从而促进药物研发和结合预测模型的构建。训练神经网络选用了Binding DB(http://www.bindingdb.org/bind/index.jsp)的13392个药物分子、1507个蛋白靶标、70750个药物靶标对亲和力数值作为数据集。

将氨基酸序列和药物Smiles数据作为输入,应用于卷积神经网络(CNN)。在氨基酸序列输入中,采用one-hot编码对氨基酸序列进行分布表示。对于Smiles输入,采用one-hot编码对Smiles进行分布表示。氨基酸序列的CNN和蛋白质-药物相互作用网络的CNN所得到的相同维数的特征向量进行矩阵拼接,通过连接层连接到最终输出层,输出为药物靶标对亲和力数值。

Smiles和氨基酸序列的输入长度分别为1024和8420。药物和氨基酸序列的卷积滤波器为[32,64,96],药物和氨基酸序列的卷积核分别为[4,6,8]、[4,8,12],一次训练的样本(batch size)为128,训练次数(train epoch)为100,学习率为0.001,全连接层的神经元分别为1024、1024、512,选用Adam优化器,使用均方误差(MSE)作为损失函数,其中P是预测值,Y对应真实值。其中n表示样本个数。

拆分氨基酸序列分别输入到神经网络模型进行预测,包括如下过程将氨基酸序列进行对折拆分,分别输入到神经网络模型中,输出亲和力数值,比较药物与两段氨基酸序列通过预模型输出的亲和力数值大小,亲和力数值大的氨基酸序列继续拆分输入到神经网络模型中,继续比较亲和力数值大小,亲和力数字大的氨基酸序列可以继续拆分进一步缩短氨基酸序列的长度,从而找到药物与活性位点的大体位置,即选出的氨基酸序列包含药物与蛋白的活性位点。

附图说明

图1是本发明实施例中所使用方法流程示意图。

图2是本发明实施例中以5zwj(PDB ID)为例氨基酸序列拆分示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述,以便更好地理解本发明。

步骤一:训练药物靶标相互作用神经网络

首先,将氨基酸序列和Smiles数据应用于卷积神经网络(CNN)。在氨基酸序列输入中,采用one-hot编码对氨基酸序列进行分布表示。对于Smiles输入,采用one-hot编码对Smiles进行分布表示。将氨基酸序列的CNN和蛋白质-药物相互作用网络的CNN所得到的特征向量通过连接层连接到最终输出层。

步骤二:基于药物靶标相互作用神经网络寻找活性位点

如图1所示,本发明中的针对不同活性位点蛋白进行药物设计的通用性方法,包括以下步骤:对于药物靶标亲和力预测模型,首先,将蛋白质和SMILES数据应用于卷积神经网络(CNN)。对于蛋白质输入,使用one-hot编码对20个氨基酸进行表示。对于SMILES输入,使用one-hot编码对SMILES进行表示。通过CNN输出的向量进行矩阵拼接并由连接层馈送到最终输出层输出亲和力数值。蛋白质-化合物相互作用数据来源于BindingDB。以PDB库中的5zwj文件为例,如图2所示,提取5zwj文件中的EAI045药物SMILES编码和氨基酸数据,将药物的SMILES编码输入到图1预训练模型,将氨基酸序列进行对折拆分,分别输入到模型中,输出亲和力数值,比较药物与两段氨基酸序列通过预模型输出的亲和力数值大小,亲和力数值大的氨基酸序列继续拆分输入到模型中,继续比较亲和力数值大小,亲和力数字大的氨基酸序列可以继续拆分进一步缩短氨基酸序列的长度,从而找到药物与活性位点的大体位置,图2左下侧选出的氨基酸序列YVMASVDN......即包含目前已知的活性位点T790、C797等。

经过以上技术流程方案就可以快速找到包含一种药物与一种蛋白质相互作用的活性位点的氨基酸序列。此发明具有很好的通用性,可以应用于任何小分子药物与蛋白质。

以上所述是本发明的优选实施方案,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润湿也视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号