首页> 中国专利> 基于谓语类型预测关联的数字信息驱动的系统和方法

基于谓语类型预测关联的数字信息驱动的系统和方法

摘要

本公开的实施例涉及基于谓语类型预测关联的数字信息驱动的系统和方法。本公开描述了经由神经网络预测知识图中的谓语元数据参数的方法和系统。方法包括:接收基于知识库的知识图,知识库包括基于图的数据集。知识图包括两个节点之间的谓语和谓语元数据集合。方法还包括:确定正结构得分;基于每个对应显著性参数来调整每个正结构得分;生成基于合成负图的数据集;针对基于合成负图的数据集中的每个合成负三元组确定负结构得分;基于每个对应显著性参数来调整每个负结构得分;基于调整后的正结构得分和调整后的负结构得分来确定显著性损失值;以及基于显著性损失值来确定知识图中的第三节点与第四节点之间的链接的似然得分。

著录项

说明书

本申请要求于2019年12月6日提交的美国临时专利申请第62/944,769号和于2019年12月30日提交的美国临时专利申请第62/954,901号的权益,上述申请的全部内容通过引用并入本文。

技术领域

本公开一般涉及知识图领域,并且具体地涉及利用神经网络来预测针对用于生成知识图的基于图的数据集的谓语元数据参数的方法和系统。

背景技术

用于机器学习、模型化数据和图嵌入的基本技术和设备在本领域中是已知的。虽然企业系统可以访问与人类遗传组成、遗传突变信息、基因表达信息、药物相互作用、分子结构和疾病分类相关的大量信息,但是现有分析应用和数据仓库系统尚无法完全利用这种信息。通常,仅将信息简单地聚合到大型数据仓库中,而不进行适当的数据质量筛选且不包括连接信息的关系数据的附加层。不具有上下文信息或关系信息的大量数据的这种聚合是无用的数据转储。

以信息的原始格式存储在数据仓库中的信息通常需要大量计算资源来将信息变换为可搜索的数据,以便在无上下文的情况下使用串匹配机制(语义链接)来对查询做出响应。这种常规途径在标识和返回所查询的数据的能力方面受到限制,并且大多数所存储的数据不容易被配置为用于机器学习分析,以提供企业中的知识和数据的完整画面。期望多关系链接预测来更高效地且有效地标识基因-疾病关联性的谓语。

发明内容

本公开描述了一种用于预测知识图中的节点到节点链接的系统。该系统包括用于存储可执行指令的存储器和适用于访问存储器的处理器。处理器还适用于执行被存储在存储器中的可执行指令,以接收基于知识库的知识图,该知识图包括第一节点与第二节点之间的链接,第一节点和第二节点表示相关联宾语,知识库包括被存储在存储器中的基于图的数据集,该基于图的数据集将第一节点与第二节点相关联,知识库的基于图的数据集包括被指派给谓语元数据集合,该谓语元数据集合知识图中的每个三元组,知识库的基于图的数据集包括被指派给知识图中的每个三元组的显著性参数。处理器还适用于执行被存储在存储器中的可执行指令以针对知识图中的每个三元组确定正结构得分;基于每个对应显著性参数来调整每个正结构得分;根据基于图的数据集来生成基于合成负图的数据集,该基于合成负图的数据集包括合成负三元组集合;以及针对基于合成负图的数据集中的每个合成负三元组确定负结构得分。处理器还适用于执行被存储在存储器中的可执行指令以基于每个对应显著性参数来调整每个负结构得分;基于调整后的正结构得分和调整后的负结构得分来确定显著性损失值;以及基于显著性损失值来确定知识图中的第三节点与第四节点之间的链接的似然得分。

本公开描述了一种用于预测知识图中的节点到节点链接的方法。该方法包括:由设备接收基于知识库的知识图。设备包括存储指令的存储器和与存储器通信的处理器。知识图包括第一节点与第二节点之间的链接,第一节点和第二节点表示相关联宾语,知识库包括被存储在存储器中的基于图的数据集,该基于图的数据集将第一节点与第二节点相关联,知识库的基于图的数据集包括谓语元数据集合,该谓语元数据集合被指派给知识图中的每个三元组,知识库的基于图的数据集包括被指派给知识图中的每个三元组的显著性参数。该方法还包括:由设备针对知识图中的每个三元组确定正结构得分;由设备基于每个对应显著性参数来调整每个正结构得分;由设备根据基于图的数据集来生成基于合成负图的数据集,该基于合成负图的数据集包括合成负三元组集合;由设备针对基于合成负图的数据集中的每个合成负三元组确定负结构得分;以及由设备基于每个对应显著性参数来调整每个负结构得分。该方法还包括:由设备基于调整后的正结构得分和调整后的负结构得分来确定显著性损失值;以及由设备基于显著性损失值来确定知识图中的第三节点与第四节点之间的链接的似然得分。

本公开描述了一种产品,包括:除瞬态信号以外的机器可读介质;和被存储在机器可读介质上的指令,用于在约束条件下优化针对机器学习模型的超参数。当处理器执行指令时,该产品被配置为接收基于知识库的知识图,该知识图包括第一节点与第二节点之间的链接,第一节点和第二节点表示相关联宾语,知识库包括被存储在存储器中的基于图的数据集,该基于图的数据集将第一节点与第二节点相关联,知识库的基于图的数据集包括谓语元数据集合,该谓语元数据集合被指派给知识图中的每个三元组,知识库的基于图的数据集包括被指派给知识图中的每个三元组的显著性参数。当处理器执行指令时,该产品被配置为针对知识图中的每个三元组确定正结构得分;基于每个对应显著性参数来调整每个正结构得分;根据基于图的数据集来生成基于合成负图的数据集,且该基于合成负图的数据集包括合成负三元组集合。当处理器执行指令时,该产品被配置为针对基于合成负图的数据集中的每个合成负三元组确定负结构得分;基于每个对应显著性参数来调整每个负结构得分;基于调整后的正结构得分和调整后的负结构得分来确定显著性损失值;以及基于显著性损失值来确定知识图中的第三节点与第四节点之间的链接的似然得分。

附图说明

本公开的实施例的前述内容和其他目的、特征和优点将根据如附图中所图示的实施例的以下更具体的描述而变得明显,在附图中,附图标记贯穿各个视图指示相同部分。绘图并不一定按比例绘制,而是将重点放在说明本公开的原理上。

图1是图示了根据本公开的某些实施例的由示例性系统实现的方法的示例的流程图。

图2是图示了根据本公开的某些实施例的用于实现图1中的方法的设备的计算机架构的实施例的框图。

图3A是图示了根据本公开的某些实施例的知识图模式的示意图。

图3B是图示了根据本公开的某些实施例的知识图模式的示意图。

图4是图示了根据本公开的某些实施例的知识图模式的示意图。

图5是图示了根据本公开的某些实施例的在图4中所示的知识图中预测的缺失链接的示意图。

图6是图示了根据本公开的某些实施例的知识图的示意图,该知识图示出了疾病与某些基因和变体之间的关联性,包括其关联性的特定类型的数值属性。

图7是图示了根据本公开的某些实施例的在重要性模型、信息模型、损失函数计算、机器学习模型、评分确定和针对节点之间的关联性的链接预测方面从知识图接收到的数字输入的示例性实现的框图。

图8是根据本公开的某些实施例的重要性模型的示意图。

图9是根据本公开的某些实施例的信息模型的示意图。

图10是图示了根据本公开的某些实施例的示例性系统的架构的示例的框图。

图11是图示了根据本公开的某些实施例的系统的实施例的框图。

具体实施方式

现在将详细地参考本公开的实施例,在附图中图示了其示例,这些实施例形成本公开的一部分并且通过说明性方式示出了实施例的特定示例。请注意,然而,本公开可以按照各种不同形式实施,且因此,所涵盖或所要求保护的主题旨在被解释为不限于下文将要阐述的任何实施例。还请注意,本公开可以实施为方法、设备、组件或系统。因此,本公开的实施例可以例如采用硬件、软件、应用程序接口(API)、固件或它们的任何组合的形式。

贯穿本说明书和权利要求书,术语可以具有超出明确语句的含义的上下文中所暗示或暗指的具有细微差别的含义。同样,如本文中所使用的短语“在一个实施例中”或“在一种实现中”并不一定是指相同实施例或实现,且如本文中所使用的短语“在另一实施例中”或“在另一实现中”并不一定是指不同实施例或实现。例如,所要求保护的主题旨在整体地或部分地包括示例性实施例或实现的组合。

一般而言,可以至少部分地根据上下文中的用法来理解术语。例如,如本文中所使用的术语(诸如“和”、“或”或“和/或”)可以包括可以至少部分地取决于使用这种术语的上下文的各种含义。通常,“或”在用于关联诸如A、B或C的列表的情况下旨在是指A、B和C(此处以包含性含义使用)以及A、B或C(此处以排他性含义使用)。另外,至少部分地取决于上下文,如本文中所使用的术语“一个或多个”或“至少一个”可以用于以单数含义描述任何特征、结构或特性,或者可以用于以复数含义描述特征、结构或特性的组合。类似地,至少部分地取决于上下文,术语(诸如“一”、“一个”或“该”)可以再次被理解为传达单数用法或传达复数用法。另外,至少部分地取决于上下文,术语“基于”或“由……确定”可以被理解为并不一定旨在传达一组排他因素,而是可以允许存在未必明确描述的附加因素。

本公开可以按照各种形式实施,包括系统、方法、计算机可读介质或平台即服务(PaaS)产品,该系统、方法、计算机可读介质或平台即服务(PaaS)产品用于标识用以生成知识图的基于图的数据集的谓语类型并且使用神经网络或基于目标谓语类型而被选择的机器学习模型以较高准确度预测缺失链接。在示例中,本公开可以被应用以基于显著性参数来修改链接的正结构得分,并且还可以基于显著性参数来修改链接的负结构得分。

在实施例中,本公开可以提供适用于接收预先存在的知识图和/或与预先存在的知识图相对应的知识库的系统的框架。知识库及其知识图可以涉及与各个领域有关的信息,诸如航空公司、金融、电信、餐馆或医疗行业。在实施例中,知识图可以表示与基因与疾病之间的关联性或链接有关的数据集。知识图还可以包括被指派给知识库的每个基于图的数据集的显著性参数或重要性参数。

在一些实施例中,系统可以针对知识库的每个基于图的数据集确定正结构得分。系统可以基于显著性参数来修改正结构得分。另外,系统可以生成基于合成负图的数据集。神经网络或机器学习模型可以在正确和错误语句/事实两者上进行训练。在实施例中,可以根据对基于图的数据集的随机部分的谓语或关联性的逆转或反转来生成基于合成负图的数据集。系统可以针对基于合成负图的数据集的集合中的每个基于图的数据集确定负结构得分。系统还可以基于显著性参数来修改负结构得分。

在某些实施例中,系统可以基于修改后的正结构得分和修改后的负结构得分来确定显著性损失值。系统可以包括被配置为预测或生成谓语元数据参数集合的多个神经网络。系统可以针对谓语元数据参数集合确定谓语元数据损失值。系统还可以基于显著性损失值和谓语元数据损失值来确定总体损失值。

根据一些实施例,系统可以使用机器学习模型来使总体损失值最小化。系统可以基于最小化的总体损失值来确定训练后的模型。另外,系统可以接收基于图的数据集的实时用户输入请求。系统可以基于训练后的模型和用户输入请求来确定基因与疾病之间的链接的似然得分。

本公开可以实施在用于预测知识图中的节点到节点链接的系统、方法和计算机可读介质中。根据某些实施例,可以经由知识图以有意义且可理解的方式表示基因相关数据和疾病相关数据的知识库及其相关联关系或链接。知识图的模型可以由描述数据结构及其关系的模式或布局来定义,这可以由知识图中的节点和边表示。知识图可以呈现复杂且创新的图形结构,该图形结构表示响应于查询的相关信息。在实施例中,知识图可以经由图形表示来表示知识库,该图形表示对应于结构化数据点或实体(由节点表示)、关系(由边表示)和具有语义含义的属性(由节点性质或边性质表示)。

本公开描述了由用于基于谓语类型来预测关联性的链接特定的数字信息驱动的方法的一个实施例。参考图1,方法100可以包括以下中的一部分或全部:步骤110:接收基于知识库的知识图,该知识图包括第一节点与第二节点之间的链接,第一节点和第二节点表示相关联宾语,知识库包括被存储在存储器中的基于图的数据集,该基于图的数据集将第一节点与第二节点相关联,知识库的基于图的数据集包括被指派给知识图中的每个三元组的谓语元数据集合,知识库的基于图的数据集包括被指派给知识图中的每个三元组的显著性参数;步骤120:针对知识图中的每个三元组确定正结构得分;步骤130:基于每个对应显著性参数来调整每个正结构得分;步骤140:根据基于图的数据集来生成基于合成负图的数据集,该基于合成负图的数据集包括合成负三元组集合;步骤150:针对基于合成负图的数据集中的每个合成负三元组确定负结构得分;步骤160:基于每个对应显著性参数来调整每个负结构得分;步骤170:基于调整后的正结构得分和调整后的负结构得分来确定显著性损失值;以及步骤180:基于显著性损失值来确定知识图中的第三节点与第四节点之间的链接的似然得分。

图2示出了用于实现方法100的示例执行电路装置200。执行电路装置200可以包括用于实现方法100的计算机系统200。

参考图2,执行电路装置200可以包括通信接口202、系统电路装置204、输入/输出(I/O)接口206、存储装置209和显示器电路装置208,该显示器电路装置208在本地生成机器接口210,或生成用于例如在本地机或远程机上运行的web浏览器中远程显示的机器接口210。机器接口210和I/O接口206可以包括GUI、触摸敏感显示器、语音或面部识别输入、按钮、开关、扬声器和其他用户接口元件。I/O接口206的附加示例包括麦克风、视频和静态图像相机、耳机和麦克风输入/输出插孔、通用串行总线(USB)连接器、存储卡插槽和其他类型的输入端。I/O接口206还可以包括磁性或光学介质接口(例如CD ROM或DVD驱动器)、串行和并行总线接口以及键盘和鼠标接口。显示器电路装置208可以包括人机界面和/或图形用户界面(GUI)。GUI可以用于呈现接口和/或选项以支持模型管理和/或其他任务的执行。

通信接口202可以包括无线传输器和接收器(“收发器”)212和由收发器212的传输和接收电路装置使用的任何天线214。收发器212和天线214可以支持Wi-Fi网络通信,例如在任何版本的IEEE 802.11(例如802.11n或802.11ac)下。通信接口202还可以包括有线收发器216。有线收发器116可以为各种通信协议(诸如任何类型的以太网、电缆数据服务接口规范(DOCSIS)、数字订户线(DSL)、同步光网络(SONET)或其他协议)中的任一者提供物理层接口。附加地或备选地,通信接口202可以支持安全信息交换,诸如安全套接字层(SSL)或用于发送和接收私有数据的基于公钥加密的协议。

存储装置209可以用于存储用于实现图1中的方法100的各种初始数据、中间数据或最终数据。备选地,可以将这些数据语料库存储在数据库中。在一种实现中,计算机系统200的存储装置209可以与数据库形成一体。存储装置209可以是集中式的或分布式的,并且可以位于计算机系统200的本地或远程。例如,存储装置209可以由云计算服务提供方远程托管。

系统电路装置204可以包括呈任何组合的硬件、软件、固件或其他电路装置。系统电路装置204可以例如与一个或多个片上系统(SoC)、专用集成电路(ASIC)、微处理器、分立模拟和数字电路以及其他电路装置一起实现。

系统电路装置204可以支持本公开(包括附图和/或权利要求)中所描述的任务。在一个示例中,可以将系统电路装置204实现为用于实现生成和评估谓语逻辑242的处理电路装置220,该处理电路装置220可以提供软件支持以实现在图1的方法100中执行的各种任务。处理电路装置220可以包括一个或多个处理器221和一个或多个存储器222。存储器222存储例如控制指令226和操作系统224。控制指令226例如可以包括用于实现预测知识图228中的节点到节点链接的任务的指令。在一种实现中,一个或多个处理器221执行控制指令226和操作系统224,以实行本公开中所描述的任何期望的功能性。

参考图2,存储器222还可以包括应用和结构(例如编码对象、模板或一个或多个其他数据结构),以支持模型管理和/或其他任务的执行。

参考图1中的步骤110,方法100可以包括:由设备接收基于知识库的知识图。设备可以是图2中的执行电路装置200,包括存储指令的存储器和与存储器通信的处理器。知识图包括第一节点与第二节点之间的谓语,并且第一节点和第二节点表示相关联宾语。知识库包括存储在与处理器通信的存储器中的基于图的数据集,并且基于图的数据集包括第一结构与第二节点的关联性。

参考图3A,知识图的示例可以包括第一节点310、第二节点320以及第一节点310与第二节点320之间的链接315。链接315可以是谓语。第一节点和第二节点(310和320)可以分别表示相关联宾语。链接或谓语可以具有从与第一节点310相关联的第一宾语指向与第二节点320相关联的第二宾语的方向性。参考图3B,知识图300的另一示例可以包括多个节点(330、340、350、360、370和380)以及在多个节点之间的多个链接或谓语(335、345、355、365和375)。

知识库可以包括一个或多个基于图的数据集。基于图的数据集可以被存储在存储器中并且包括对应的两个节点的关联性,例如,基于图的数据集可以包括第一节点与第二节点的关联性。在一种实现中,基于图的数据集可以包括具有三个参数的数据记录,可以将该数据记录称作三元组:主语、宾语和表示主语与宾语之间的关系的谓语。例如,谓语“导致”可以表示主语与宾语之间的关联性,该主语表示“基因”并且宾语表示“疾病”。可选地,在一些实现中,基于图的数据集可以包括具有附加的第四参数(诸如显著性/重要性参数)的数据记录。该第四参数可以被视为谓语参数的属性。在一些实现中,第四参数可以包括元数据。

参考图3A,知识图可以通过用单向箭头显示由链接315连接的两个节点(310和320)来以视觉方式表示基于图的数据集,链接315表示三元组中的谓语。两个节点可以表示相关联宾语,诸如物理对象或概念。

参考图1中的步骤110,知识库的基于图的数据集可以包括被指派给知识图中的每个三元组的谓语元数据集合。每个集合中的谓语元数据参数的数量可以取决于谓语的类型。可以将显著性参数示出为被指派给单向箭头的值。

在一种实现中,方法100可以包括:由设备基于多个神经网络来生成谓语元数据参数集合。所生成的谓语元数据参数集合可以包括被指派给知识库的每个基于图的数据集的谓语元数据参数集合。

参考图1中的步骤110,知识库的基于图的数据集可以包括被指派给知识图中的每个三元组的显著性参数。

在一个实施例中,由知识图提供的以图形方式表示的数据可以通过经由诸如模式的本体对数据建模来提供知识库的语义含义。知识图可以表示基于图的数据集,该基于图的数据集描述了主语(例如基因)与宾语(例如疾病)之间的关系或谓语。

参考图4,在一种实现中,根据本公开的某些实施例,将知识图模式400描述为在基因、疾病和相关联信息的范围内的示例。模式可以按照各种格式和数据结构来描述特定概念或类别,例如面向对象的数据模型或编程语言中的类。模式可以提供用于使用描述知识库的特定性质来表达关于资源或知识库的语句的方式。例如,资源描述框架(RDF)可以提供以主语-谓语-宾语表达形式表示知识库的数据模型。在一种实现中,知识库可以通过基于图的数据集或三元组表达,该数据库包括一个主语、一个宾语以及链接或谓语。链接或谓语可以包括一个或多个数值属性。

参考图4中的知识图400,节点410可以表示rs1011900变体;节点420可以表示rs1101999变体;节点430可以表示PYHIN1基因;节点440可以表示rs1011997变体;节点450可以表示哮喘;节点460可以表示rsh845782变体;并且节点470可以表示CRCT1基因。

主语可以表示资源,且谓语可以表示资源的特质或方面,并且表达主语与宾语之间的关系。在示例中,可以将RDF模型中的语句“基因导致疾病”表示为三元组:表示“基因”的主语;表示“导致”的谓语;和表示“疾病”的宾语。这种RDF模型中的语句的另一示例可以包括“疾病与基因相关联”,其中三元组可以包括主语“疾病”、谓语“与……相关联”和宾语“基因”。在图4中的示例中,节点450“哮喘”表示疾病,且节点470“CRCT1基因”表示基因。

参考图4,从节点420到节点410的链接或谓语422可以包括“is_linked_to”。链接或谓语422可以包括数值属性作为“连锁不平衡,0.1”。可选地,在一种实现中,可以将“is_linked_to”视作谓语类型。

从节点420到节点430的链接或谓语424可以包括“is_a_variantion of”。链接或谓语424可以包括数值属性作为“距离,0”。可选地,在一种实现中,可以将“is_a_variantion of”视作另一谓语类型。

从节点440到节点420的链接或谓语442可以包括“is_linked_to”。链接或谓语442可以包括数值属性作为“linkage_disequilibrium,0.8”

从节点450到节点420的链接或谓语452可以包括“is_associated with”。链接或谓语452可以包括数值属性作为“p值,1×10-8”。可选地,在一种实现中,可以将“is_associated with”视作另一谓语类型。

从节点450到节点460的链接或谓语454可以包括“is_associated with”。链接或谓语454可以包括数值属性作为“p值,1×10-52”。

从节点460到节点470的链接或谓语462可以包括“is_a_variantion of”。链接或谓语462可以包括数值属性作为“距离,1.075”。

从节点470到节点450的链接或谓语472可以包括“导致”。链接或谓语472可以包括数值属性作为“num_study,10”和“显著性,0.8”。可选地,在一种实现中,可以将“导致”视作另一谓语类型。

在一个实施例中,可以对知识图中的节点之间的链接(也称为,谓语或边)进行加权。在一种实现中,知识图可以包括经标记的有向多图(其表示具有与每个链接相关联的多个数值属性的数据集),该经标记的有向多图可以由变量t指示并且定义为t=(s,ρ,o,w,[δ

将图4中的链接或谓语472视为一个示例,谓语472可以由变量t表示,该变量可以包括作为CRCT1基因的s,作为哮喘的o,作为“导致”的“ρ”,作为0.8的显著性参数的w,和包括10的“num_study”的

在一些实施例中,可以将数值属性分类为两种类型:显著性类型数值属性;以及信息类型数值属性。例如,根据某些显著性类型数值属性,显著性参数w可以表示主语与宾语之间的链接或关系的重要性。这可以通过人类注释者或通过根据带外的外部实验和/或不确定性估计来计算链接的反向频率来指派。根据某些信息类型数值属性,数值属性[δ

参考图5,在一种实现中,方法100可以包括预测知识图500中的节点之间的关联性。可以通过对概念之间的复杂相互作用进行建模的知识图来了解在知识库中表示的信息的发现。可以利用机器学习来预测节点之间的缺失链接,即,概念。关系学习的基本技术和框架可以包括:知识图嵌入(KGE),诸如TransE模型、RESCAL、DistMult、ComplEx和ConvE;图神经网络(GNN),诸如图卷积网络(GCN)、加权图卷积网络(WGCN)和GraphSAGE;以及节点表示学习。

例如,图4中的知识图400中的节点430与节点450之间不存在链接。如图5中所示,可以预测来自节点430和节点450的先前缺失的链接532。链接532可以包括“导致”。

参考图6,在另一实现中,方法100可以包括:将一个或多个谓语元数据参数指派给知识图600中的链接或谓语。图4中的知识图400可以表示将哮喘疾病与CRCT1和PYHIN1基因以及基因的变体链接的RDF语句的类集。RDF语句可以由知识图表示,该知识图具有经标记的顶点或节点和经标记的边(其可以具有可区分的方向)。这种知识图可以是复杂多图,该复杂多图包括多个顶点或节点之间的多个邻接或边,包括自循环。例如,疾病可以与基因或其变体相关联。针对对应知识库的数据结构可以具有性质,可以将这些性质表示为如由知识图模式定义的基于图的数据集的主语或宾语。

例如,如图6中所示,基因-疾病关联性可以包括“in_population_type”信息类型数值属性作为链接或谓语472的谓语元数据参数,并且方法100可以将值3指派给“in_population_type”信息类型数值属性。

在一种实现中,方法100可以包括:基于显著性参数来修改链接的正结构得分,并且还可以包括:基于显著性参数来修改链接的负结构得分。在另一实现中,方法100可以包括:针对知识库的每个基于图的数据集确定正结构得分。方法100还可以包括:基于显著性参数来修改正结构得分。另外,方法100可以包括:生成基于合成负图的数据集的集合。神经网络或机器学习模型可以在正确和错误语句/事实两者上进行训练。

在另一实现中,方法100可以包括:根据对基于图的数据集的随机部分的谓语或关联性的逆转或反转来生成基于合成负图的数据集。方法100可以包括:针对基于合成负图的数据集的集合中的每个基于图的数据集确定负结构得分。方法100还可以包括:基于显著性参数来修改负结构得分。在一种实现中,方法100可以包括:基于修改后的正结构得分和修改后的负结构得分来确定显著性损失值。方法100可以包括:使用被配置为预测或生成谓语元数据参数集合的多个神经网络。方法100可以包括:针对谓语元数据参数集合确定谓语元数据损失值。方法100可以包括:基于显著性损失值和谓语元数据损失值来确定总体损失值。

参考图1中的步骤170,方法100可以包括:基于调整后的正结构得分和调整后的负结构得分来确定显著性损失值。可选地,方法100可以包括步骤180:基于显著性损失值来确定知识图中的第三节点与第四节点之间的链接的似然得分。

在实施例中,由本公开实现的技术改进可以包括:以较高准确度预测知识图中的具有与已知链接相关联的数字值的特定类型的缺失链接。在某些实施例中,系统和方法可以将重点放在仅预测特定谓语类型上。一些存在的技术的缺点包括其宽范围,即,这些技术被设计为完成图。换言之,不论谓语类型如何,这些技术都尝试预测链接。根据某些实施例,期望多关系链接预测将重点放在特定链接类型上。本公开的益处可以包括在更短时间量内的更准确的链接预测。可以执行计算以预测基因与疾病之间的关系,并且使用评分函数对预测进行排名。在某些实施例中,可以基于人类生物学数据和基因变异数据来标识针对疾病的基因。在示例中,本公开可以提供用于新分析的框架,以标识基因与疾病之间的链接的存在概率。

在一些实施例中,本公开可以协助发现科学家在进入临床试验之前回答关于基因-疾病关联性的关键科学问题。这种信息将导致对患者的改进治疗。本公开可以提供用于预测特定谓语类型的新颖框架。在一些实施例中,系统可以包括用于连接可以在各种分析方法中被采用的不同数据源的所定义的模式。这可以包括使用知识图中的加权边来发现新链接。这些权重可以影响所标识的链接的预测得分。

在一些实施例中,图1中的步骤180可以包括以下中的一部分或全部:针对所指派的谓语元数据参数集合确定谓语元数据损失值;以及基于显著性损失值和谓语元数据损失值确定知识图中的第三节点与第四节点之间的链接的似然得分,这可以包括:基于显著性损失值和谓语元数据损失值来确定总体损失值;基于机器学习模型来使总体损失值最小化;以及基于最小化的总体损失值来确定知识图中的第三节点与第四节点之间的链接的似然得分。

在一些实施例中,基于最小化的总体损失值来确定知识图中的第三节点与第四节点之间的链接的似然得分可以包括:基于最小化的总体损失值来确定训练后的模型;接收基于图的数据集的实时用户输入请求;基于训练后的模型和用户输入请求来确定第三节点与第四节点之间的链接的似然得分;以及利用链接更新知识图。

在一些实施例中,知识图的数值属性可以包括以下属性中的一项或多项:属性的重要性分类,其可以包括被指派给基于图的数据集的显著性参数w;以及属性的信息分类,其可以包括基因距其变体的距离的数值属性。

参考图7,输入三元组和重要性值710可以用作重要性模型715的重要性输入;且输入三元组和信息值720可以用作信息模型725的信息输入。在一种实现中,针对图6中的知识图600,重要性输入可以包括以下中的一部分或全部:和<哮喘,is_associated_with,rsh845782变体,1×10-52>。在另一实现中,信息输入可以包括以下中的一部分或全部:。例如,信息输入可以表示十(10)项调查研究教导CRCTI基因导致哮喘疾病。

在一种实现中,可以确定这些模型中的每个模型的损失值。例如,重要性模型可以基于重要性输入来输出显著性损失值718(表示为Lossimp)。信息模型可以基于信息输入来输出谓语元数据损失值728(表示为Lossinfo)。可以根据损失函数730、基于显著性损失值718和谓语元数据损失值728来确定总体损失值738。例如,在一种实现中,损失函数730可以定义为L=α1 Lossinfo+α2 Lossimp,其中α1和α2为可训练的权重。

在实施例中,图1中的方法100可以包括确定模型参数,即,可训练的权重。在一些实现中,可以使损失函数最小化,以便学习最佳地区分肯定语句与否定语句的最佳参数。还可以利用示例性优化器,其包括以下优化算法:随机梯度下降(SGD)、自适应矩估计(Adam)和基于梯度的优化算法(Adagrad)。

方法100可以包括:基于最小化的总体损失值来确定训练后的模型。在某些实施例中,可以经由机器学习模型使总体损失值最小化。方法100可以利用图7中的优化器740来获得优化的模型参数745,并且基于训练后的模型来确定基因与疾病之间的链接的存在概率(或似然得分)750。例如,但不限于,存在概率750可以包括知识图嵌入(KGE)得分。KGE评分算法可以包括TransE、RESCAL、DistMult、ComplEx和/或ConvE中的一项或多项。

在一种实现中,参考图7中的760,方法还可以包括:确定存在概率是否大于预设阈值。响应于存在概率大于预设阈值的确定,方法还可以包括:用链接更新知识图(参考图7中的770)。在另一实现中,响应于存在概率不大于预设阈值的确定,方法还可以包括:用警告消息标记当前链接或移除当前链接(参考图7中的780)。警告消息可以包括对应于链接的存在概率。

参考图8,描述了重要性模型820的实施例。重要模型820可以是对图7中的重要模型715的示例性实现。

重要输入可以包括s、ρ、o和w中的一部分或全部,其中s是资源或知识库的主语,o是宾语,ρ是表示资源的、表达基于图的数据集格式中的主语与宾语之间的关系或链接的特质或方面的谓语,且w是显著性参数。在一种实现中,显著性参数w可以被归一化且缩放为0与1之间的范围,包含性的(即,[0,1])。

基于图的数据集831的s、ρ和o可以用作评分模型833的输入以生成正结构得分。例如,但不限于,评分模型833可以包括KGE评分模型。所生成的正结构得分可以用作非线性函数835(例如sigmoid函数)的输入,以生成归一化的正结构得分。归一化的正结构得分可以用作乘法函数837的输入。乘法函数837还可以将重要输入的显著性参数w 841视作输入,以生成调整后的正结构得分。在一种实现中,例如,可以将调整后的正结构得分计算为(1-w)乘以归一化的正结构得分。

基于合成负图的数据集851的s`、ρ`和o`可以用作评分模型853的输入,以生成负结构得分。例如,但不限于,评分模型853可以包括KGE评分模型。在一种实现中,基于合成负图的数据集可以不是知识图的输入的一部分,并且可以由生成器针对基于合成负图的数据集生成。所生成的负结构得分可以用作非线性函数855(例如sigmoid函数)的输入,以生成归一化的负结构得分。归一化的负结构得分可以用作乘法函数857的输入。乘法函数857还可以将重要输入的显著性参数w841视作输入,以生成调整后的负结构得分。在一种实现中,例如,可以将调整后的负结构得分计算为实际显著性参数(w

损失计算函数860可以基于调整后的正结构得分和调整后的负结构得分来生成显著性损失值862(Loss

参考图9,描述了信息模型920的实施例。信息模型920可以是对图7中的信息模型725的示例性实现。

信息输入可以包括s、ρ、o和γ中的一部分或全部,其中s是资源或知识库的主语,o是宾语,ρ是表示资源的、表达基于图的数据集格式中的主语与宾语之间的关系或链接的特质或方面的谓语,并且γ是数值属性且可以包括[γ

在一些实现中,可以利用谓语ρ来在一组密集网络940当中选择或确定正确的密集网络。在一种实现中,针对每种谓语类型,可以存在一个对应密集网络。图9中的这组密集网络940包括三个密集网络。针对其他实现,这组密集网络可以包括比三个更少或更多的密集网络。

每个密集网络可以包括神经网络950。在一种实现中,针对神经网络,每个节点的链接数量可以接近最大节点数量。每个节点可以被链接至知识图中的几乎所有其他节点。

神经网络950可以生成谓语数值属性(γ

所公开的基于图的数据集格式和模式可以提供以下益处:将知识库智能地集成到结构化模型和数据集中,以实现提供对与某些疾病相关联的基因的改进分析的深度学习过程和系统。RDF格式与关系数据库表不同,关系数据库表的关系是在设计时预定义的,并且在表的行和列中为隐式的。相反,可以将RDF关系存储为性质。在基于图的表示中,这些性质可以与连接知识图中的顶点的边相关联。关系的这种存储提供用于解释基因和疾病的参数或属性的上下文。进一步地,除了参数之外的关系的存储允许在不更改参数的情况下更改关系,反之亦然。对这些因素的独立调整允许逻辑经由调整参数或关系而不是使用单个自由度来支持知识库的扩展或改变。在实施例中,这些存储格式和数据集可以有益于对针对疾病的基因的标识和分析。

在某些实施例中,可以利用知识图所提供的结构化数据的增强水平来标识从自知识库接收到的现有信息中提取到的新基因-疾病关联性。然而,本文中所描述的特征可适用于表示生物学、遗传学和医学的各个领域的数据的知识图。可以从各种数据源中将数据提取到知识图中。

在一些实施例中,数据源可以包括元数据源和原始数据源。元数据源可以包括可以辅助映射原始数据源的数据集。另外,元数据源可以提供信息以有助于注释。在某些实施例中,元数据源可以被设计成允许其他参考本体和模式被映射到该元数据源,并且可以实现对更广泛的关系的确定。例如,根据某些实施例,可以在数据映射过程中利用ChEMBL、Ensembl和实验因素本体(EFO)数据集。可以在训练过程内利用原始数据源。在一些实施例中,可以实现以下数据源:GWAS、StringDB、GeneAtlas、GTEX、NealeLab和/或PheWeb。数据映射过程可以包括目录的生成,其中将跨各种数据源找到的表型本体映射到一个标准疾病本体(SDO)。因此,这可以维持用于将原始数据集合并在一起的各种数据源之间的密钥映射。如上文所描述,数据映射过程可以利用数据库。

除了前述数据源之外,系统可以包括数据工程层、图模式、统一可视化、分析流水线、权重生成流水线、分析模型、推理流水线和结果存储装置。

图10图示了系统1000的实施例,该系统可以按照许多不同的方式、使用各种组件和模块来实现,包括本文中所描述的电路装置的任何组合,诸如硬件、软件、中间件、应用程序接口(API)和/或用于实现电路装置的特征的其他组件,诸如处理器1020和存储器1030。系统1000可以包括,例如:数据源1,其包括原始数据集2和元数据数据集3;数据工程层4,其包括数据映射图5、数据合并流水线6、数据湖模式7和基于图的数据集8;图模式9;统一可视化10;分析流水线11;权重生成流水线12;分析模型13;推理流水线14;以及结果存储装置15。分析模型13可以包括:用于预测基因-疾病关联性的基于知识的模型,诸如KnowGene模型16;非加权模型,诸如非加权AmpliGraph模型17;加权模型,诸如加权AmpliGraph模型18;以及具有图卷积网络的关系数据(R-GCN)模型19。推理流水线14可以包括:针对疾病的靶标基因的优先化列表20、功能关联性得分21、靶标基因与核心基因之间的第一距离22、靶标基因与疾病基因之间的第二距离23以及靶标基因的最近邻居24。

在一些实施例中,数据源1可以包括若干原始数据源和若干元数据源。可以从元数据源中提取元数据数据集3,并且可以从原始数据源中提取原始数据集2。元数据数据集3可以被配置为映射从原始数据源接收到的原始数据集2。例如,一个原始数据集2可以引用通常称为糖尿病(diabetes)的疾病,而另一个原始数据集2可以通过使用该疾病的正式名称“糖尿病(diabetes mellitus)”来提及相同疾病。提取到的元数据数据集3可以将来自两个原始数据集2的密钥标识符相关联。另外,所提取的元数据数据集3可以提供信息以有助于对提取到的原始数据集2进行注释。作为应用本体,元数据数据集3可以被配置为允许将其他参考本体映射到该元数据数据集,并且可以实现更广泛的关系的确定。例如,根据本公开的实施例,可以在数据映射过程中利用ChEMBL、Ensembl和EFO数据集源。ChEMBL是可以提供关于已知药物的信息的数据源1。Ensembl或EQTL数据源1可以提供同基因标识符与基因标记之间的关联性相关的信息。EFO元数据数据集3可以包括与疾病选集相关的信息,其可以用于从原始数据源2接收到的注释和/或映射数据集。原始数据源可以在训练过程中利用。在某些实施例中,可以实现以下原始数据源:全基因组关联性研究(GWAS)、SpringDB、GeneAtlas、基因型组织表达(GTEX)、NealeLab和/或PheWeb。

数据工程层可以包括数据映射知识库、数据合并流水线、数据湖模式和基于图的数据集的生成。数据合并流水线可以包括端到端流水线,该端到端流水线包括数据源的下载、数据源的合并(基于数据映射流水线)以及将这种数据源存储在数据湖中。数据合并流水线可以包括下载可以不同格式接收到的约定数据集。可以处理数据集以清理数据,并将数据重新格式化为可以使用来自目录的密钥映射合并在一起的格式。在映射了数据之后,可以将数据以统一格式存储在数据湖上,在数据湖中,可以对数据进行查询以进行进一步处理。

数据湖模式可以包括以自然/原始格式存储的数据的存储库。在一些实施例中,数据湖可以包含上文所讨论的合并数据集。数据源可以按照统一格式组合在一起,可以使用密钥映射数据源并且将其存储在数据湖上。该数据可以是分析流水线的源,并且可以用于分析流水线中的可视化和分析。

生成基于图的数据集的步骤可以包括:定义从每个数据源请求的列。这种列中的数据可以变为基于图的数据集的主语和宾语,并且定义了将两个实体联系在一起的谓语。在某些实施例中,必须针对每个新数据集执行该步骤。该步骤可以导致在分析模型中使用的基于图的数据集。

图模式可以包括用于生成知识图的蓝图。这可以包括可以在分析模型中使用的实体、概念和数据的定义。数据湖模式可以基于该定义的图模式。在某些实施例中,知识图模式可以包括关于基因和疾病的信息,已知这些基因和疾病与信息相关联。知识图的每个节点可以包括信息,并且每个边可以表示节点中所包括的信息之间的关系。

在实施例中,统一可视化可以包括图形用户界面(GUI)。可视化步骤可以包括或表示基本原理,该基本原理示出了某一基因可以排名很高的原因。可视化可以在距‘核心基因’、嵌入空间中的‘最近邻居’以及图中的连接实体的距离上生成。用于链接预测的推理流水线可以包括或表示:与疾病相关联的基因的优先化列表、功能关联性得分、距核心基因的距离,距疾病基因的距离以及基因的最近邻居。在实施例中,权重生成流水线可以生成用于分析模型的权重。在一些实施例中,权重可以包括:疾病至变体;以及基因至变体。这两个权重都可以从GWAS数据和GTEX数据得出。

在某些实施例中,KnowGene可以包括用于靶标标识的机器学习模型。它可以利用PPI(来自HIPPIE的基因-基因数据)和来自GWAS和OMIM的基因-疾病关系数据,以便预测与给定疾病相关联的基因。KnowGene途径可以为本文中目前的新颖分析途径提供基准。知识图可以表示具有被模型化为实体之间的关系的事实的基于图的知识库。

根据某些实施例,在生成知识图后,可以构建神经架构以生成复杂实体的嵌入。根据这些嵌入,评分函数可以执行任务,诸如链接预测。在一些实施例中,可以实现该逻辑以发现疾病与基因之间的新关系。可以实现非加权模型或加权模型。在训练期间可以使用关于图中的实体之间的链接的附加信息。可以并入该信息,以便更新每个实体的嵌入,以提高预测的准确度。在实施例中,R-GCN模型可以用作用于基于图结构来构建本体的机器学习途径。R-GCN模型可以用于表示图中的遗传信息并且用于发现疾病与基因之间的新关系。

在一些实施例中,模型可以利用经过核实的、经过验证的基因靶标的测试集合,以使得可以评估模型的性能。这可以包括疾病的基因靶标的优先化列表。在与类风湿关节炎的一组经过验证的靶标有关的示例中,可以为分析模型指派预测类风湿关节炎的基因的任务。经过验证的数据集可以与二进制分类和/或按排名学习的度量一起使用,以用于测量模型的性能。

功能关联性得分可以由KnowGene机器学习模型利用。例如,该度量可以考虑查询基因与已知疾病基因的同现(co-occurance)。在实施例中,可以将查询基因和疾病基因在疾病中一起出现的联合概率与这些基因在疾病中独立出现的概率进行比较。功能关联性得分可以定义如下:

,其中

,且其中P(g

另外,距疾病基因的距离也可以由KnowGene模型利用。可以将单位网络距离定义为在相互作用组中从一种蛋白质到另一种蛋白质的具有直接连接的路径。可以从1到10标识查询基因到给定疾病的所有已知基因的最短距离。可以将这种距离归入统计。可以将每个仓同已知与给定疾病相关联的基因的数量归档。例如,考虑到具有∑n

对于给定靶标,在实施例中,可以通过计算靶标的嵌入相对于数据集中的所有其他嵌入的余弦类似度来标识最近邻居。该方法可以添加提供对靶标与疾病之间的关联性的解释的另一层,并且可以允许用户探索嵌入空间。结果存储装置可以包括平台,该平台可以用于存储结果和在分析流水线内创建的训练后的模型。

参考图11,在一些实施例中,数据收集电路装置1110可以被配置为接收人类数据,诸如遗传信息和疾病信息。知识图生成电路装置1120可以被配置为基于接收到的数据集来生成以图形方式表示的数据结构模型。根据某些实施例,知识图生成电路装置1120可以根据接收到的信息构造知识图,将该接收到的信息映射到预定义的图模式。所产生的图形表示可以提供特定格式的结构化数据,其中每个连接边表示节点之间的关系。根据某些实施例,知识图生成电路装置1120可以进一步训练知识图。

系统1000还可以包括嵌入空间生成电路装置1130,该嵌入空间生成电路装置可以被配置为基于知识图来生成嵌入空间。嵌入空间生成电路装置1130可以将在知识图中表示的数据和关系转换为嵌入空间内的节点的绘图。所生成的嵌入空间可以包括向量节点(例如三元组的向量集合),该向量节点表示知识图中所包括的结构化信息。

在一些实施例中,系统1000可以包括用于实现嵌入空间内的计算的计算电路装置1140。例如,计算电路装置1140可以被配置为:确定多个候选语句;基于查询从组合索引(CI)数据库中确定加权;使用知识图的嵌入空间,基于查询并基于加权针对每个候选语句确定得分;分析建模;和/或对靶标与疾病之间的预测链接进行排名。计算电路装置1140可以实现加权建模,以便对靶标与疾病之间的关系的预测进行评分。另外,计算电路装置1140可以标识感兴趣区域内的间隙区域,并且计算最大-最小多维计算,以确定感兴趣区域内的间隙区域的中心。计算电路装置1140还被配置为将中心节点视为原始知识图中不存在的新发现的基因靶标的嵌入。这可以通过在所确定的中心处的嵌入空间内生成具有新发现的靶标的属性的新节点来在技术上实现。总的来说,执行评分过程通过减少搜索空间并通过允许更高效的数据分析以在更短的时间内分析大量数据,而提供对执行该过程的计算机设备的计算能力的改进。

在实施例中,用于预测节点到节点链接的系统可以包括用于存储可执行指令的存储器和适用于访问存储器的处理器。处理器可以适用于执行被存储在存储器中的可执行指令,以执行特定步骤。在一些实施例中,初始步骤可以包括:接收基于知识库的知识图。知识图可以表示基因与疾病之间的链接或谓语。知识库可以包括标识基因与疾病的关联性的数据。可以基于图的数据集格式将数据存储在存储器中。在某些实施例中,初始步骤可以包括:接收知识库,并且基于知识库来生成知识图。

在实施例中,系统可以包括将谓语元数据参数集合指派给知识库的每个基于图的数据集的步骤。每个集合中的谓语元数据参数的数量可以取决于对应的基于图的数据集的谓语类型。在某些实施例中,系统可以包括将显著性参数指派给知识库的每个三元组数据集的步骤。在一些实施例中,接收到的知识库和/或接收到的知识图可以包括被指派给每个三元组数据集的所指派的谓语元数据参数和被指派给每个三元组数据集的所指派的显著性参数。

在实施例中,系统可以包括针对知识库的每个基于图的数据集确定正结构得分、以及基于显著性参数来调整正结构得分的步骤。可以在正确和错误概念上训练神经网络或机器学习模型,这可以分别由基于正图的数据集和基于合成负图的数据集表示。在某些实施例中,系统可以包括以下步骤:生成基于合成负图的数据集的集合;针对基于合成负图的数据集的集合中的每个基于图的数据集确定负结构得分;以及基于显著性参数来调整负结构得分。在一些实施例中,系统可以包括基于调整后的正结构得分和调整后的负结构得分来确定显著性损失值的步骤。在一些实施例中,系统还可以包括基于显著性损失值来确定知识图中的第三节点与第四节点之间的链接的似然得分的步骤。

在实施例中,处理器还可以适用于基于多个神经网络来生成谓语元数据参数集合。所生成的谓语元数据参数集合可以包括被指派给知识库的每个基于图的数据集的谓语元数据参数集合。处理器还可以适用于针对所指派的谓语元数据参数集合确定谓语元数据损失值。

在某些实施例中,处理器可以适用于基于显著性损失值和谓语元数据损失值来确定总体损失值,并且基于机器学习模型来使总体损失值最小化。处理器还可以适用于基于最小化的总体损失值来确定训练后的模型;接收对基于图的数据集的实时用户输入请求;以及基于训练后的模型和用户输入请求来确定至少一个基因与至少一种疾病之间的链接的似然分数。

虽然已经参考本公开的实施例具体示出和描述了本公开,但本领域的技术人员应理解,在不脱离本公开的精神和范围的情况下,可以在本公开的形式和细节上进行各种改变。尽管一些图式以特定顺序图示了若干操作,但可以将与顺序无关的操作重新排序,并且可以组合或分解其他操作。虽然具体地提及了一些重新排序或其他分组,但其他分组对于本领域的普通技术人员而言将是明显的,因此并未呈现详尽的替代方案列表。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号