首页> 中国专利> 基于动态知识图谱的成果被引用量预测方法、介质及设备

基于动态知识图谱的成果被引用量预测方法、介质及设备

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于动态知识图谱的成果被引用量预测方法、介质及设备。本发明通过构建面向科技成果的动态时序知识图谱数据，利用图神经网络、循环神经网络、时序预测函数等算法模块，将成果的特征表示为成果相关多维度属性历史特征的聚合，并以成果历史引用量为标签，对成果未来多年的引用量进行预测。该方法可充分利用成果属性和成果间引用关系所构成的图谱结构信息，可支持对刚发布的成果进行较为准确的预测以解决冷启动问题。此外，该方法将图谱结构与时间序列特征充分融合，在特征表示和特征聚合环节均引入时间维度，训练所得到的模型在误差指标评估方面比同类任务方法有明显的提升。该方法可被用于解决科技创新场景下的多种实际任务。

著录项

公开/公告号CN114817571A

专利类型发明专利
公开/公告日2022-07-29

原文格式PDF
申请/专利权人浙江大学;
展开▼

申请/专利号CN202210530426.2
发明设计人庄越挺;宗畅;邵健;鲁伟明;
展开▼

申请日2022-05-16
分类号G06F16/36;G06N3/04;G06N3/08;
代理机构杭州求是专利事务所有限公司;
代理人傅朝栋;张法高
地址 310058 浙江省杭州市西湖区余杭塘路866号
入库时间 2023-06-19 16:09:34

法律信息

法律状态公告日

法律状态信息

法律状态
2022-07-29

公开

发明专利申请公布

说明书

技术领域

本发明涉及人工智能、知识图谱构建、知识表征推理、时间序列预测等领域，具体涉及一种基于动态知识图谱的成果被引用量预测方法、介质及设备。

背景技术

论文、专利等文献成果的引用率是指其在其他文献中的被引用次数，文献成果的引用率是衡量一个成果拥有者在所在研究领域影响力和被认可度的重要标志之一。对文献成果的引用量进行预测不仅可以帮助快速识别目标领域中有影响力的重要成果，而且有助于了解技术发展趋势、预测技术热点等等。

例如，在现有技术中，申请号为CN202011393595.3的发明专利公开了一种基于注意力机制的论文引用量预测方法与系统，该方案中对于待预测的论文，首先使用深度神经网络来提取特征，然后通过注意模块过滤掉那些不重要的句子，从而将较长的论文简化为较短的文本，再将这个精简的版本输入预测模型，即可在硬件资源有限的情况下充分利用论文信息，来更准确地预测论文引用量。申请号为CN201810474777.X的发明专利公开了一种基于学术大数据的论文影响力预测方法，该方法通过给定一批学术数据，基于点估计的论文影响力预测模型的目的是在已有模型的基础上，通过分析驱动论文引用量演化的因素，扩展已有模型使之能够有效地预测论文未来的引用量。

但是，现有技术中的上述已有方案在预测准确率、冷启动、模型训练等一个或多个方面均存在缺陷，有待于进一步改进。

发明内容

本发明的目的在于解决现有技术中存在的问题，并提供一种基于动态知识图谱的成果被引用量预测方法

本发明具体采用的技术方案如下：

第一方面，本发明提供了一种基于动态知识图谱的成果被引用量预测方法，其包括如下步骤：

S1、针对预先收集的目标类别成果引用数据，通过数据处理和图计算方法，以成果及影响其引用量的属性作为节点，构建出面向目标类别成果的动态知识图谱，并构建用于引用量预测的标签数据集；

S2、构建成果被引用量预测网络模型，模型包括级联的时间增强图神经网络特征表示模块、成果属性时序影响力聚合表示模块和成果未来被引用量曲线计算模块；

所述时间增强图神经网络特征表示模块中，利用融合异构图信息和时间信息的图卷积神经网络算法，对动态知识图谱中的每个节点进行特征向量表示；

所述成果属性时序影响力聚合表示模块中，利用循环神经网络算法对每个成果的所有属性对象的历史特征进行影响力表示，进而聚合到成果对象上用于表示成果的当前影响力特征；

所述成果未来被引用量曲线计算模块中，利用预先选定的被引用量曲线函数，并基于函数中的可学习参数，以成果影响力当前特征为输入，得到成果在未来多个时间点的被引用量；

S3、利用S1中的所述标签数据集对S2中构建的成果被引用量预测网络模型进行迭代训练，每一轮迭代训练过程中需根据选定的误差函数对成果在未来多个时间点的被引用量与实际被引用量进行误差计算，并利用深度学习框架进行误差反向传播，更新整个模型的参数；迭代训练至模型收敛后，利用训练后的成果被引用量预测网络模型进行成果被引用量预测。

作为上述第一方面的优选，所述S1中，动态图谱构建包括历年成果图谱的图邻接矩阵生成、图谱节点特征的高斯分布初始化、图谱节点的ID化三个数据处理步骤，所构建出的动态知识图谱的节点为成果及影响其引用量的属性。

作为上述第一方面的优选，所述S1中，所构建的标签数据集，是针对共N年时长的成果动态图谱，从第N/2+1年的成果节点开始，计算每个成果在未来连续N/2年的被引用量得到的，且成果在待预测年的被引用量预测以待预测年之前连续N/2年的历史被引用量作为输入模型的历史时序。

作为上述第一方面的优选，所述目标类别成果为专利或论文，不同目标类别成果需分别构建不同的动态知识图谱；

若目标类别成果为专利，则对应构建的专利动态知识图谱中的节点为专利以及影响专利引用量的申请人、拥有国、分类号三种属性对象，图中的节点关系类型包含专利与专利间的引用关系、申请人与专利之间的申请关系、拥有国与专利之间的拥有关系以及分类号与专利之间的主题关系；

若目标类别成果为论文，则对应构建的论文动态知识图谱中的节点为论文以及影响论文引用量的学者、期刊、关键词三种属性对象，图中的节点关系类型包括论文与论文间的引用关系、学者与论文间的作者关系、期刊与论文间的刊载关系以及关键词与论文间的主题关系。

作为上述第一方面的优选，所述时间增强图神经网络特征表示模块中，共具有L层图神经网络；第l+1层图神经网络在对每个节点进行邻居特征聚合的同时，将上一个邻近时间图谱中同一个节点及其邻居的特征也聚合进来，以实现时间增强，得到的时间增强图神经网络特征计算公式如下：

其中，

作为上述第一方面的优选，所述成果属性时序影响力聚合表示模块由成果属性时序影响力表示环节和成果属性影响力聚合表示环节组成；

所述的成果属性时序影响力表示环节中，基于所述时间增强图神经网络特征表示模块中最后一层图神经网络输出的特征向量表示结果，将成果的每个属性对象历史每年的特征向量序列输入针对不同关系类型的双向循环神经网络算法，并通过全连接层，得到当前时间点的成果属性对象的特征向量，用于表示属性对象的当前影响力；属性对象的当前影响力计算公式如下：

其中，

所述的成果属性影响力聚合表示环节中，成果在当前时间点的影响力表示为其各个属性对象影响力特征在不同程度上的分解再聚合，即每种属性对象的影响力对于成果的作用程度与其对成果的贡献度和属性类型相关；成果属性影响力当前聚合后的当前影响力计算公式如下：

其中，

作为上述第一方面的优选，所述成果未来被引用量曲线计算模块中，选取通用Logistic函数作为被引用量曲线函数，函数以时间点和另外四个变量为参数，所述四个变量分别表示最大被引用规模、被引用量增长速率、初次被引用滞后度、被引用量曲线平滑度；通用Logistic函数计算公式如下：

其中，f

其中对于每个成果p，所述四个变量参数由该成果当前时间点t

其中，θ

作为上述第一方面的优选，所述S3中，选定的误差函数采用RMLSE(Root MeanSquare Logarithmic Error)或MALE(Mean Absolute Logarithmic Error)。

第二方面，本发明提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，能实现如第一方面任一方案所述的基于动态知识图谱的成果被引用量预测方法。

第三方面，本发明提供了一种基于动态知识图谱的成果被引用量预测设备，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，能实现如第一方面任一方案所述的基于动态知识图谱的成果被引用量预测方法。

相对于现有技术而言，本发明的有益效果如下：

本发明通过构建面向专利、论文等成果的动态时序知识图谱数据，利用图神经网络、循环神经网络、时序预测函数等算法模块，将成果的特征表示为成果相关多维度属性历史特征的聚合，并以成果历史引用量为标签，对成果未来多年的引用量进行预测。该方法可充分利用成果属性和成果间引用关系所构成的图谱结构信息，可支持对刚发布的成果进行较为准确的预测以解决冷启动问题。此外，该方法将图谱结构与时间序列特征充分融合，在特征表示和特征聚合环节均引入时间维度，训练所得到的模型在误差指标评估方面比同类任务方法有明显的性能提升。该方法可被用于解决科技创新场景下的多种实际任务，如潜在影响力成果发现、高影响力学者预测、技术热点预测、技术发展趋势预测等。

附图说明

图1为基于动态知识图谱的成果被引用量预测方法的流程图。

图2为基于动态知识图谱的成果被引用量预测系统的模块示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下，均可进行相应组合。

如图1所示，在本发明的一个较佳实施例中，提供了一种基于动态知识图谱的成果被引用量预测方法，其包括如下步骤：

S1、针对预先收集的目标类别成果引用数据，通过数据处理和图计算方法，以成果及影响其引用量的属性作为节点，构建出面向目标类别成果的动态知识图谱，并构建用于引用量预测的标签数据集。

在本实施例中，上述步骤S1可以通过科技成果动态图谱与数据集构建模块来实现。科技成果动态图谱与数据集构建模块由动态图谱构建环节和标签数据集构建环节组成。

在动态图谱构建环节中，动态图谱构建包括历年成果图谱的图邻接矩阵生成、图谱节点特征的高斯分布初始化、图谱节点的ID化三个数据处理步骤，这三个数据处理步骤所用方法均可通过开源工具包实现。此环节中所构建出的动态知识图谱的节点为成果及影响其引用量的属性。

本发明中的科技成果类型不限，后续实例中分别以专利或论文作为目标类别成果。考虑到不同成果类型的被引用量的影响因素不同，因此不同目标类别成果需分别构建不同的动态知识图谱。以专利或论文为例，若目标类别成果为专利，则对应构建的专利动态知识图谱中的节点为专利以及影响专利引用量的申请人、拥有国、分类号三种属性对象，图中的节点关系类型包含专利与专利间的引用关系、申请人与专利之间的申请关系、拥有国与专利之间的拥有关系以及分类号与专利之间的主题关系；若目标类别成果为论文，则对应构建的论文动态知识图谱中的节点为论文以及影响论文引用量的学者、期刊、关键词三种属性对象，图中的节点关系类型包括论文与论文间的引用关系、学者与论文间的作者关系、期刊与论文间的刊载关系以及关键词与论文间的主题关系。

在本实施例中，两类成果类型数据所构建的动态知识图谱中的节点关系类型表示如表1所示：

表1两种目标类别成果的动态知识图谱的节点关系类型

另外，在标签数据集构建环节中，所构建的标签数据集，是针对共N年时长的成果动态图谱，从第N/2+1年的成果节点开始，计算每个成果在未来连续N/2年的被引用量得到的。对于从第N/2+1年开始的任意一年，将其称为待预测年，则成果在待预测年的被引用量预测以待预测年之前连续N/2年的历史被引用量作为输入模型的历史时序，也就是说以待预测年之前连续N/2年的历史被引用量作为模型输入，通过模型来预测待预测年的被引用量。按照该做法，对N年时长的成果引用数据进行标签设置从而形成一系列带标签的样本，构成标签数据集。

S2、构建成果被引用量预测网络模型，模型包括级联的时间增强图神经网络特征表示模块、成果属性时序影响力聚合表示模块和成果未来被引用量曲线计算模块。下面分别成果被引用量预测网络模型的整体框架中三个进行详细描述。

1)时间增强图神经网络特征表示模块中，其处理流程是利用融合异构图信息和时间信息的图卷积神经网络算法，对动态知识图谱中的每个节点进行特征向量表示。

在本实施例中，所述时间增强图神经网络特征表示模块中，共具有L层图神经网络。该模块是基于开源的R-GCN算法进行优化得到的，具体而言，第l+1层图神经网络在对每个节点进行邻居特征聚合的同时，将上一个邻近时间图谱中同一个节点及其邻居的特征也聚合进来，以实现时间增强，得到的时间增强图神经网络特征计算公式如下：

其中，

最后一层图神经网络输出的各节点的特征向量

2)成果属性时序影响力聚合表示模块中，其处理流程是利用循环神经网络算法对每个成果的所有属性对象的历史特征进行影响力表示，进而聚合到成果对象上用于表示成果的当前影响力特征。

在本实施例中，成果属性时序影响力聚合表示模块由成果属性时序影响力表示环节和成果属性影响力聚合表示环节组成。成果属性时序影响力表示环节和成果属性影响力聚合表示环节的具体做法如下：

2.1)成果属性时序影响力表示环节中，基于所述时间增强图神经网络特征表示模块中最后一层图神经网络输出的特征向量表示结果，将成果的每个属性对象历史每年的特征向量序列输入针对不同关系类型的双向循环神经网络算法，并通过全连接层，得到当前时间点的成果属性对象的特征向量，用于表示属性对象的当前影响力；属性对象的当前影响力计算公式如下：

其中，

2.2)成果属性影响力聚合表示环节中，成果在当前时间点的影响力表示为其各个属性对象影响力特征在不同程度上的分解再聚合，即每种属性对象的影响力对于成果的作用程度与其对成果的贡献度和属性类型相关；成果属性影响力当前聚合后的当前影响力计算公式如下：

其中，

3)成果未来被引用量曲线计算模块中，其处理流程是利用预先选定的被引用量曲线函数，并基于函数中的可学习参数，以成果影响力当前特征为输入，得到成果在未来多个时间点的被引用量。

在本实施例中，成果未来被引用量曲线计算模块中，选取通用Logistic函数作为被引用量曲线函数，函数以时间点和另外四个变量为参数，所述另外四个变量分别表示最大被引用规模、被引用量增长速率、初次被引用滞后度、被引用量曲线平滑度。具体而言，通用Logistic函数计算公式如下：

其中，f

其中对于每个成果p，所述四个变量参数由该成果当前时间点t

其中，θ

上述步骤S3的训练过程可通过成果被引用量误差计算与模型参数学习模块来实现。在进行具体训练过程中，需根据实际选定误差函数作为优化的损失，本实施例中选定的误差函数采用RMLSE(Root Mean Square Logarithmic Error)或MALE(MeanAbsoluteLogarithmic Error)，两者可根据实际需要进行选用。模型的训练属于现有技术，上述标签数据集在训练前可分为训练集和验证集，分别用于模型的参数优化和性能验证。

为了展示上述S1～S3所示的基于动态知识图谱的成果被引用量预测方法在实际数据集上的测试结果。其中，误差函数采用RMLSE(Root Mean Square Logarithmic Error)和MALE(Mean Absolute Logarithmic Error)两种分别进行评估。模型分别针对APS公开数据集(美国物理学会论文数据)和AIPatent自构建数据集(全球人工智能领域专利数据)两个数据集进行训练与评估。其中，APS共有10年的数据，以前5年的图谱来预测后5年的被引用量；AIPatent共有20年的数据，以前10年的图谱来预测后10年的被引用量。模型学习优化器选择Adam，学习率设为0.01，训练迭代轮数为20，训练集与验证集随机取自当前年份的10000条样本。

误差函数如下：

MALE：

RMLSE：

实验结果如下表：

本发明的方法模型所对比的模型中包括同类任务中最先进的模型，HINTS(https://dl.acm.org/doi/10.1145/3442381.3450107)，用RGCN-Static-Log表示，还包括针对HINTS每个环节的部分优化后的多种模型。可以看出，本方法(Our)所构建的模型用更少的迭代轮数获得了更低的预测误差，性能提升比较明显。

需说明的是，上述S1～S3均可以通过计算机程序构建的功能模块来实现，其整体构成的基于动态知识图谱的成果被引用量预测系统如图2所示，各功能模块可以计算机程序形式存储在存储介质上，以实现相应功能。

因此，在本发明的另一实施例中，基于相同的发明构思，还提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，能实现如前述S1～S3所述的基于动态知识图谱的成果被引用量预测方法。

在本发明的另一实施例中，基于相同的发明构思，还提供了一种基于动态知识图谱的成果被引用量预测设备，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，能实现如前述S1～S3所述的基于动态知识图谱的成果被引用量预测方法。

需要注意的是，上述的存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、神经网络处理器(Neural Processor Unit，NPU)等；还可以是数字信号处理器(DigitalSignal Processing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。当然，还装置中还应当具有实现程序运行的必要组件，例如电源、通信总线等等。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于动态知识图谱的成果被引用量预测方法、介质及设备 [P] . 中国专利： CN114817571A . 2022-07-29
2. 知识图谱的关系预测推演方法及知识图谱的动态更新方法 [P] . 中国专利： CN110851614A . 2020-02-28
3. KNOWLEDGE BASE EDITING METHOD, KNOWLEDGE BASE EDITING DEVICE, KNOWLEDGE BASE EDITING PROGRAM AND RECORDING MEDIUM [P] . 日本专利： JP2003044281A . 2003-02-14

机译：基于知识库的编辑方法，基于知识库的编辑设备，基于知识库的编辑程序和记录介质
4. Systems, computing devices, and methods for setting data usage levels among computing devices based on predicted data usage [P] . 美国专利： US10334063B2 . 2019-06-25

机译：用于基于预测的数据使用量在计算设备之间设置数据使用量级别的系统，计算设备和方法
5. SYSTEMS, COMPUTING DEVICES, AND METHODS FOR SETTING DATA USAGE LEVELS AMONG COMPUTING DEVICES BASED ON PREDICTED DATA USAGE [P] . 美国专利： US2018115976A1 . 2018-04-26

机译：基于预测的数据使用量的用于在计算设备之间设置数据使用量级别的系统，计算设备和方法