公开/公告号CN113190694A
专利类型发明专利
公开/公告日2021-07-30
原文格式PDF
申请/专利权人 云知声智能科技股份有限公司;
申请/专利号CN202110622608.8
申请日2021-06-03
分类号G06F16/36(20190101);G06F16/34(20190101);G06F16/383(20190101);
代理机构
代理人
地址 100096 北京市海淀区西三旗建材城内1幢一层101号
入库时间 2023-06-19 12:02:28
技术领域
本发明书一个或多个实施例涉及知识图谱技术领域,尤其涉及一种知识图谱的知识管理平台。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
知识图谱的诞生标志着互联网已经由传统的文档互联网向数据互联网转变,它是实现人工智能的重要基石,通过将人类社会的知识体系、概念以及内容,以“实体-关系-实体”基本三元组的形式存储在计算机中构成语义网,实现了人类知识与计算机所处理数据之间的映射,同时知识图谱还具备知识关联、知识推理、知识学习的能力,帮助计算机更加准确的理解人类语言。
最年来随着知识工程的发展,知识图谱的应用面越来越广,对成熟的知识图谱平台要求也越来越高,现有的知识图谱平台采用的技术方案是:知识图谱包括数据感知层、数据处理层、平台服务层、应用层和管理层,数据感知层对数据进行采集,数据处理层对采集的数据进行处理,采集的数据进行处理包括对采集的数据进行数据清洗和数据对齐,平台服务层基于处理后的数据构建知识图谱模型,应用层基于构建的知识图谱模型向用户提供服务,管理层用于对用户进行管理。该知识图谱平台具有很多优点:实现了从数据采集、处理到知识图谱模型的构建,同时实现了向用户提供服务和实现用户管理,实现了用户的知识可视化,提升了用户的数据智能化管理水平。但其也存在不少不足之处:
(1)缺乏自动化的图谱构建流程;
(2)不支持版本管理;
(3)数据检查和验证机制不健全;
(4)无法满足个性化数据分析的需求。
有鉴于此,现在亟需一种知识图谱的知识管理平台,用以解决上述存在的技术问题。
发明内容
有鉴于此,本说明书一个或多个实施例描述了一种知识图谱的知识管理平台,可解决现有技术中知识图谱平台中存在的缺乏自动化的图谱构建流程、不支持版本管理、数据检查和验证机制不健全及无法满足个性化数据分析需求的问题。
本说明书一个或多个实施例提供的技术方案如下:
为解决上述问题,本发明提供了一种知识图谱的知识管理平台,其特征在于,包括schema构建模块、图谱构建模块、知识管理模块和知识分析模块;其中,
所述schema构建模块,用于创建概念,并定义概念属性、概念属性的约束条件和概念关系;
所述图谱构建模块,用于基于构建的schema,生成实体模式及关系模式文件的表格,完成知识图谱构建;
所述知识管理模块,用于提供构建完成的知识图谱的可视化展示、审核及编辑功能;
所述知识分析模块,用于实现构建完成的知识图谱中关联关系探索、自定义组合搜索和关联关系分析功能。
在一个可能的实现方式中,知识图谱构建模块包括结构化数据录入单元和非结构化数据录入单元,
所述结构化数据录入单元,用于通过填充结构化实体、关系数据到CSV文件,然后上传录入数据的CSV文件,完成知识图谱导入;
所述非结构化数据录入单元,用于利用实体、关系抽取工具预测非结构化文档,并抽取“实体-关系-实体”的三元组及三元组来源,三元组数据经过人工精标审核后,通过python脚本调用导入生成模板,然后上传带数据的模板文件,完成知识图谱的构建。
在一个可能的实现方式中,所述非结构化数据录入单元,具体用于
利用实体、关系抽取工具将生成的概念、关系及属性数据通过python脚本方式形成标签;
在标注工具中上传非结构化原始文档,结合预生成的实体、关系标签,针对原始文档中出现的实体进行实体关系标注;
在标注工具中导出人工预标注文档,并导入算法模型训练工具,选择实体、关系抽取任务后,进行实体挖掘和关系抽取的模型训练;
模型训练迭代收敛完成后,推送到实体、关系抽取工具,预测出更多未标注的文档;
基于预测的未标注文档,实体、关系抽取工具挖掘更多的实体、关系;
在标注工具中,将抽出的三元组标明文档出处,人工精标审核后,通过python脚本调用导入生成模板,然后上传带数据的模板文件,完成知识图谱的构建。
在一个可能的实现方式中,所述知识管理模块,具体用于将知识图谱中的概念图谱和实体图谱分开以力图方式展示,通过选择概念联动查看对应的实体列表。
在一个可能的实现方式中,所述知识管理模块,具体用于对知识图谱中的概念图谱和实体图谱中的节点关系进行新增、编辑和删除操作。
在一个可能的实现方式中,所述知识管理模块,具体用于对知识图谱中的概念图谱进行图谱数据版本管理。
在一个可能的实现方式中,所述知识管理模块,具体用于对知识图谱中的实体图谱进行数据检查和验证。
在一个可能的实现方式中,所述对对知识图谱中的实体图谱进行数据检查和验证,具体为:
针对挖掘出的三元组数据,标注数据来源并审核,审核通过后,知识录入知识图谱。
在一个可能的实现方式中,所述知识分析模块具体用于
通过限定属性、属性值和关系查询对应的实体,搜索支持多条件组合的“与”、“或”、“非”的设定;
当搜索到多个节点时,通过关联查询,分析两实体间关系。
在一个可能的实现方式中,所述知识分析模块,还用于基于查询到的实体,进行路径探索,挖掘出其他与当前实体关联的实体及关系。
本发明提供的技术方案,具有以下优点:
(1)基于现有系统中的图谱构建模块,有效的利用了概率层专家预定义知识,通过python脚本化方式,串联起来了标签生成、数据标注、模型训练、实体关系挖掘等功能;
(2)增强了知识管理的可用性及知识图谱的准确性。通过引入版本管理,审核机制等功能,保证了知识维护的易用性及入库知识的准确;
(3)通过关联关系探索、自定义组合搜索、关联关系分析等功能,提供给用户个性化数据分析的功能。
附图说明
图1为本发明实施例提供的知识图谱的知识管理平台结构示意图;
图2为知识图谱构建模块的结构示意图;
图3为非结构化数据录入流程示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明提供了一种知识图谱的知识管理平台,如图1所示,该知识管理平台包括schema构建模块1、图谱构建模块2、知识管理模块3和知识分析模块4;下面对各模块进行详细描述:
(一)schema构建模块1
所述schema构建模块1,用于创建概念,并定义概念属性、概念属性的约束条件和概念关系。
具体的,通过知识图谱管理平台,领域专家可以通过可视化便捷的快速创建概念、并定义概念属性、定义概念关系,同时可以定义概念属性的约束条件等。在schema构建完成后支持OWL格式导出。
(二)图谱构建模块2
所述图谱构建模块2,用于基于构建的schema,生成实体模式及关系模式文件的表格,完成知识图谱构建。其中,生成的表格以CSV文件存储,其中,表头信息来源于schema定义的概念、关系和属性。
在图谱构建过程中,涉及到结构化数据录入和非结构化数据录入,下面针对两者情况进行详细的说明,具体的,如图2所示,知识图谱构建模块2包括结构化数据录入单元21和非结构化数据录入单元22,
所述结构化数据录入单元21,用于通过填充结构化实体、关系数据到CSV文件,然后上传录入数据的CSV文件,完成知识图谱导入;
所述非结构化数据录入单元22,用于利用实体、关系抽取工具预测非结构化文档,并抽取“实体-关系-实体”的三元组及三元组来源,三元组数据经过人工精标审核后,通过python脚本调用导入生成模板,并上传带数据的模板文件,完成知识图谱的构建。具体的,如图3所示,非结构化数据录入流程包括以下步骤,该过程的执行主体是非结构化数据录入单元22:
步骤10,利用实体、关系抽取工具将生成的概念、关系及属性数据通过python脚本方式形成标签。
具体的,利用实体、关系抽取工具将图谱构建模块中生成的模板中包括的概念、关系及属性数据通过python脚本方式形成标签。
步骤20,在标注工具中上传非结构化原始文档,结合预生成的实体、关系标签,针对原始文档中出现的实体进行实体关系标注。
步骤30,在标注工具中导出人工预标注文档,并导入算法模型训练工具,选择实体、关系抽取任务后,进行实体挖掘和关系抽取的模型训练。
具体的,导出的人工预标注文档会自动按比例拆分成模型训练的训练集、测试集和开发集,将训练集和测试集导入算法模型训练工具,选择实体、关系抽取任务后,配置相应参数后可进行实体挖掘和关系抽取的模型训练,将训练集和测试集导入模型训练工具完成实体关系抽取模型的训练。
步骤30,模型训练迭代收敛完成后,推送到实体、关系抽取工具,预测出更多未标注的文档。
具体的,模型在开发及上验证收敛后,模型发布到实体关系抽取工具中,实体关系抽取工具预测非结构化文档。
步骤40,基于预测的未标注文档,实体、关系抽取工具挖掘更多的实体、关系。
步骤50,在标注工具中,将抽出的三元组标明文档出处,供人工精标审核,确认无问题后通过python脚本调用导入生成模板,然后上传带数据的模板文件,完成知识图谱的构建。
基于现有系统中的图谱构建模块,有效利用了概率层专家预定义知识,通过python脚本化方式,串联起来了标签生成、数据标注、模型训练、实体关系挖掘等功能。
(三)知识管理模块3
所述知识管理模块3,用于提供构建完成的知识图谱的可视化展示、审核及编辑功能。
下面对各功能进行详细描述:
(1)针对可视化展示,概念图谱和实体图谱可以分开以力图方式展开,通过选中概念以联动查看对应的实体列表。
(2)概念图谱和实体图谱中的节点关系,可进行新增、编辑和删除操作。且在概念图谱更新发布后,会自动回到图谱构建模块,实体层数据需要重新上传。
(3)概念图谱支持图谱数据版本管理,概念图谱还原历史版本数据后,实体模板会自动更新,重复(2)中的步骤,实体层数据重新上传。
(4)实体图谱支持数据检查和验证功能,针对每条挖掘出的三元组数据,实体-关系-实体及实体-属性-值,管理平台会标注数据来源,共审核人员审查,同时领域专家手工编辑的数据,也会记录编辑时间和编辑作者。待审核人员审核通过后,编辑的知识才会录入知识图谱。
通过知识管理模块,增加了知识管理的可用性及知识图谱的准确性。通过引入版本管理,审核机制等功能,保证了知识维护的易用性及入库知识的准确性。
(四)知识分析模块4
所述知识分析模块4,用于实现构建完成的知识图谱中关联关系探索、自定义组合搜索和关联关系分析功能。
下面对各功能进行详细描述:
(1)自定义组合搜索功能。可通过限定属性、属性值、关系等查询对应的实体,搜索支持多条件组合的”与”、”或”、”非”的设定。搜索到多个节点时,可以通过关联查询,分析两实体间关系。
(2)支持自定义cypher语言的查询,数据库基于neo4j的图数据库存储,支持自定义cypher语言构建复杂的查询条件,并通过力图展示搜索结果。
(3)通过知识图谱管理平台,数据分析人员能基于搜到的实体,进行路径探索,挖掘出更多与当前实体关联的实体及关系。
通过关联关系探索、自定义组合搜索、关联关系分析等功能,提供给用户个性化数据分析的功能。本发明提供的技术方案,解决了现有的知识图谱平台存在的技术问题,实现了自动化的图谱构建流程,不但支持知识图谱数据的版本管理和校验,且满足了个性化的数据分析和展示需求。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
机译: 一种基于知识图谱的多用户游戏服务提供方法及其装置
机译: 计算机实施的知识管理平台和计算机实现的知识管理方法
机译: 基于本体的知识图谱人工智能学习诊断系统