首页> 中国专利> 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法

一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法

摘要

本发明提出了一种基于分子图和序列的深度嵌入学习的药物‑靶标相互作用预测模型方法,该方法是建立基于注意力机制的图神经网络和有注意力导向的双向LSTM来预测相互作用,其中,为了更有效的训练,利用预训练模型BERT从蛋白质序列中提取各个子序列的嵌入向量表示,同时设计局部广度优先搜索算法提取药物分子图的子图信息,使得图神经网络学习更高的特征信息。该发明一方面,在药物分子方面,基于分子图可以学习到更好的空间特征;另一方面,蛋白质序列数据量大,可以覆盖更大的蛋白质空间,提高泛化能力。

著录项

  • 公开/公告号CN113327644A

    专利类型发明专利

  • 公开/公告日2021-08-31

    原文格式PDF

  • 申请/专利权人 中山大学;

    申请/专利号CN202110382488.9

  • 发明设计人 陈洧;陈观兴;陈语谦;

    申请日2021-04-09

  • 分类号G16B15/30(20190101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构44367 深圳市创富知识产权代理有限公司;

  • 代理人高冰

  • 地址 510275 广东省广州市海珠区新港西路135号

  • 入库时间 2023-06-19 12:24:27

说明书

技术领域

本发明属于深度嵌入学习药物领域,具体涉及一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法。

背景技术

药物-靶标相互作用(DTIs)的识别是药物发现和化学基因组学研究中的重要任务。尽管通过实验测量化合物与蛋白质之间的结合力是最准确的方法,但它既昂贵又耗时。因此,学者们提出了许多基于大数据集的计算模型来预测DTI。

分子对接方法是基于结构来预测和确定药物-靶标相互作用。在药物设计中,该方法主要用于从小分子数据库中搜索与受体生物大分子具有良好亲和力的小分子,并进行药理试验以发现新的先导化合物。同时,机器学习方法被广泛应用于化学信息学。例如,基于定量构效关系(QSAR)的模型使用各种特征,包括简单的物理和化学性质以及各种生物学活性等,来快速预测大量新化合物。这些 QSAR模型是使用经典的机器学习算法开发的,例如随机森林,支持向量机(SVM),k近邻算法和其他对小分子的化学结构进行建模的分子模型。这些方法是基于特征的,模型利用特征向量进行相互作用的预测。这也导致能用于训练的数据有限,模型的泛化能力有限,覆盖的空间不大。

最近,深度学习在药物开发中的应用迅速发展起来,出现了许多用于预测蛋白质和小分子相互作用的深度学习模型。这些端到端的学习模型提供了不同的策略以及蛋白质与化合物的多种表示形式,例如卷积神经网络(CNN),递归神经网络(RNN)与其变种 (LSTM、GRU等),图卷积网络等等。基于空间结构的深度学习模型需要数据的空间信息,比如蛋白质二维或三维空间信息,药物-靶标相互结合的空间结构等,但是截至2019年12月21日,PDB中总共发布了158787种蛋白质结构。虽然以上方法在实验中取得了不错的效果,但是对于大量蛋白质,基于结构的方法几乎是不现实的。同时,随着测序技术的发展,大量的蛋白质序列被发表,因此专注于蛋白质序列的模型为未知结构蛋白的预测,能学习到更多的特征,当然,基于一维序列数据,如药物小分子的序列表示 SMILES,因为其序列长度较短,提取的特征有限。

综上所述,药物-靶标相互作用预测的模型方法各有千秋,都会受限于自身的特点。因此,为了能更多地覆盖相互作用谱的空间,结合药物-靶标数据各自的特点,结合各自的优势,使模型能学习到更多地特征,迫切需要开发一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法,以满足实际使用的需要。

发明内容

本发明的目的在于提供一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法,以解决现有的靶标相互作用预测方法用于训练的数据有限,模型的泛化能力有限,覆盖的空间不大的问题。

为实现上述目的,本发明提供如下技术方案:1、一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法,其特征在于,将药物分子的图表示作为输入,即把分子的原子看作是顶点,原子间的成键视为边,而氨基酸元素组成的文本序列作为蛋白质处理模型的输入。

优选地,所述药物分子在分子图上,基于深度为r的范围内做 Depth FirstSearch,采样离目标节点的距离小于等于r的节点以及边来构成子图,然后,通过模型训练使得子图经过GNN图神经网络后,学习到目标节点的特征向量,并且再引入一层self-attention层来描述药物分子的关键结构。

优选地,所述蛋白质处理模型为蛋白质序列是基于语言模型,构建蛋白质的词,也就是n-gram amino acids。将蛋白质序列作为一长句,采用BERT预训练模型,根据蛋白质序列上下的序列文本信息,提取某一子序列符合当下的embedding,所得到的嵌入向量作为BiLSTM网络的高质量输入,同时再加一层注意力机制,在药物分子的帮助下,考虑蛋白质的哪一个子序列对他们的相互作用的发生起着重要作用。

优选地,药物分子通过模型训练使得子图经过GNN图神经网络后,学习到目标节点的特征向量,并且再引入一层self-attention层来描述药物分子的关键结构,包括以下步骤:

S1:图神经网络能通过聚合函数等将图G映射成低维稠密向量,对于一个给定的分子图,药物分子的原子,如碳原子、氯原子等等,可以看作节点,而原子之间的分子键作为图的边,从而将药物分子表示成图G={V,E}的形式,采用药物分子的SMILES作为模型原始输入,经过Python的开源化学RDKit转化成二维形式的分子图,接着建立基于注意力机制的图神经网络,从所得的二维分子图中药物分子的嵌入向量表示;

S2:当给定图G={V,E},V表示节点集合,E表示边集合,就可以对分子图进行建模。鉴于原子类型和分子键的类型较少,基于图的某一个节点,进行Depth First Search(DFS)搜索,其搜索深度为r,不必遍历整个图,即从一个节点出发,遍历深度为r的子图,同时记录节点i所有的邻接节点以及边的信息,定义v

其中,

S3:对基于深度为k的子图

其中W是待学习的参数矩阵;

S4:基于药物分子的某些官能团对药物分子与蛋白质相结合的贡献度大,为此引入注意力机制来提高模型的表现力,通过对药物分子的GNN网络的学习,可以得到一系列节点特征

coef

对任意节点j∈N(i,r),令a

S5:在经过多层图神经网络,所学习到的嵌入向量是基于节点信息的,需要一个readout operaion来描述图的descriptor,采用基于attention的策略聚合所有节点信息来获得图的descriptor,在得到药物分子的嵌入向量表示后,结合注意力层,用归一化的注意力系数去做线性加权求和,再经过激活函数σ输出药物分子最终的嵌入向量表示,即:

用矩阵形式表示得到:

其中

优选地,所述蛋白质序列,将一个蛋白质的序列看成一条句子,那么这条句子是由20种单词构成,采用自然语言建模的方法进行处理,但是同时考虑到词汇丰富度太少,需要先扩大词库量,因此,基于n-gram的语言模型,可以将蛋白质序列中的词定义为n- gramamino acids,而根据排列组合,将有20

[s

其中,S|是蛋白质序列的长度,同时定义s

优选地,使用BERT模型来提取n-gram amino acids所对应的嵌入向量表示,相比于Word2vec学习固定的嵌入向量表示,BERT能够根据上下文关系,习得更符合此语境下的嵌入向量,利用BERT 模型,根据蛋白质周边的序列信息,提取到当前单词较符合的高质量特征:

c

对于BERT模型所得到的动态嵌入向量,给定的蛋白质序列就转化成一系列隐藏向量的形式,即C={c

同时令P为双向LSTM最终所输出的向量的矩阵表示,即 P=[p

优选地,引入注意力机制来强调蛋白质序列的某一重要位置的关键性作用,给定药物分子的嵌入向量m

a

令α为权重向量,且α=[α

Pro=Pα

优选地,所述SMILES全称为Simplified Molecular Input Line Entry System,是一种用于输入和表示分子反应的线性符号,是一种 ASCII编码。

优选地,所述靶标相互作用预测方法包括分类层,分类层将 GNN图神经网络处理药物分子得到的嵌入向量表示和BiLSTM提取的蛋白质的向量表示并联,一同输入到分类层

r=σ(W

其中,W

给定药物分子与蛋白质对所组成的数据集,以及相应的标签y,模型训练的目标是最小化信息熵函数L:

其中,Θ代表模型中所有的参数矩阵、偏置向量,n表示所用到的蛋白复合物对的数量,λ是正则化系数。

本发明的技术效果和优点:本发明结合基于注意力的图神经网络,动态词向量与双向LSTM,对药物分子和蛋白质序列特征进行学习,实验证明相比于机器学习方法和一些深度学习模型,此模型可显著提高药物-靶标相互作用的预测能力。利用基于注意力机制的图神经网络进行训练,从分子图上学习相关的特征,一方面可以保留原始数据的大部分信息,另一方面,基于图的学习可以学习更高层次的特征。利用BERT模型学习词向量,构建蛋白质子序列在不同空间结构下的特征信息。利用注意力机制,综合药物分子和蛋白质的向量表示,突出药物-靶标相互作用的结合位置的重要性,提高模型的预测能力。模型在一定程度上可以从药物分子数据库中筛选靶标蛋白的潜在药物,且相比于传统的分子对接技术,可大大减少筛选的时间。

附图说明

图1为本发明的方法示意图;

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明提供了如图中所示的一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法,其特征在于,将药物分子的图表示作为输入,即把分子的原子看作是顶点,原子间的成键视为边,而氨基酸元素组成的文本序列作为蛋白质处理模型的输入。

进一步地,所述药物分子在分子图上,基于深度为r的范围内做Depth FirstSearch,采样离目标节点的距离小于等于r的节点以及边来构成子图,然后,通过模型训练使得子图经过GNN图神经网络后,学习到目标节点的特征向量,并且再引入一层self-attention层来描述药物分子的关键结构。

进一步地,所述蛋白质处理模型为蛋白质序列是基于语言模型,构建蛋白质的词,也就是n-gram amino acids。将蛋白质序列作为一长句,采用BERT预训练模型,根据蛋白质序列上下的序列文本信息,提取某一子序列符合当下的embedding,所得到的嵌入向量作为BiLSTM网络的高质量输入,同时再加一层注意力机制,在药物分子的帮助下,考虑蛋白质的哪一个子序列对他们的相互作用的发生起着重要作用。

进一步地,药物分子通过模型训练使得子图经过GNN图神经网络后,学习到目标节点的特征向量,并且再引入一层self-attention 层来描述药物分子的关键结构,包括以下步骤:

S1:图神经网络能通过聚合函数等将图G映射成低维稠密向量,对于一个给定的分子图,药物分子的原子,如碳原子、氯原子等等,可以看作节点,而原子之间的分子键作为图的边,从而将药物分子表示成图G={V,E}的形式,采用药物分子的SMILES作为模型原始输入,经过Python的开源化学RDKit转化成二维形式的分子图,接着建立基于注意力机制的图神经网络,从所得的二维分子图中药物分子的嵌入向量表示;

S2:当给定图G={V,E},V表示节点集合,E表示边集合,就可以对分子图进行建模。鉴于原子类型和分子键的类型较少,基于图的某一个节点,进行Depth First Search(DFS)搜索,其搜索深度为r,不必遍历整个图,即从一个节点出发,遍历深度为r的子图,同时记录节点i所有的邻接节点以及边的信息,定义v

其中,

S3:对基于深度为k的子图

表1.原子特征及其表示

然后将这些特征作为初始的节点特征向量x

其中W是待学习的参数矩阵;

S4:基于药物分子的某些官能团对药物分子与蛋白质相结合的贡献度大,为此引入注意力机制来提高模型的表现力,通过对药物分子的GNN网络的学习,可以得到一系列节点特征

coef

对任意节点j∈N(i,r),令a

S5:在经过多层图神经网络,所学习到的嵌入向量是基于节点信息的,需要一个readout operation来描述图的descriptor,不同于直接简单地对所有节点特征进行求和来获取图的descriptor,采用基于attention的策略聚合所有节点信息来获得图的descriptor,在得到药物分子的嵌入向量表示后,结合注意力层,用归一化的注意力系数去做线性加权求和,再经过激活函数σ输出药物分子最终的嵌入向量表示,即:

用矩阵形式表示得到:

其中

进一步地,所述蛋白质序列,将一个蛋白质的序列看成一条句子,那么这条句子是由20种单词构成,采用自然语言建模的方法进行处理,但是同时考虑到词汇丰富度太少,需要先扩大词库量,因此,基于n-gram的语言模型,可以将蛋白质序列中的词定义为n- gramamino acids,而根据排列组合,将有20

′MST′,′STS′,′TSS′,′SSL′,…,′TNP′,′NPF′,′PFL′,′FLL′

考虑到氨基酸的种类只有20种,且如果n的值取得大些,单词词频可能出现过低的情况,这里,为了保证词库大小合理,使用 Trigram语言模型,即n=3。从数学上来定义Trigram语言模型,当给定一段序列S=s

[s

其中,|S|是蛋白质序列的长度,同时定义s

进一步地,可能同一个词会在不同蛋白质序列的不同位置出现,而且相应地,虽然都是同一个词,但是其对应的三维空间结构是有差异的,也即词向量不应该是固定的,应该随着不同蛋白质而有所变化的。鉴于此问题,使用BERT模型来提取n-gram amino acids所对应的嵌入向量表示,相比于Word2vec学习固定的嵌入向量表示,BERT能够根据上下文关系,习得更符合此语境下的嵌入向量,利用BERT模型,根据蛋白质周边的序列信息,提取到当前单词较符合的高质量特征:

c

对于BERT模型所得到的动态嵌入向量,给定的蛋白质序列就转化成一系列隐藏向量的形式,即C={c

同时令P为双向LSTM最终所输出的向量的矩阵表示,即 P=[p

进一步地,在蛋白质中,药物分子与蛋白质相结合只是蛋白质上的一小部分位置,也就是说蛋白质序列的某一子序列是关键位点,大部分sites跟该药物分子没有直接的结合趋势,为此,引入注意力机制来强调蛋白质序列的某一重要位置的关键性作用,给定药物分子的嵌入向量m

α

令α为权重向量,且α=[α

Pro=Pα

进一步地,所述SMILES全称为Simplified Molecular Input Line EntrySystem,是一种用于输入和表示分子反应的线性符号,是一种ASCII编码。

进一步地,所述靶标相互作用预测方法包括分类层,分类层将 GNN图神经网络处理药物分子得到的嵌入向量表示和BiLSTM提取的蛋白质的向量表示并联,一同输入到分类层

z=σ(W

其中,W

给定药物分子与蛋白质对所组成的数据集,以及相应的标签y,模型训练的目标是最小化信息熵函数L:

其中,θ代表模型中所有的参数矩阵、偏置向量,n表示所用到的蛋白复合物对的数量,λ是正则化系数。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号