首页> 中国专利> 一种语义分析搜索方法、装置及存储介质

一种语义分析搜索方法、装置及存储介质

摘要

本发明公开了一种语义分析搜索方法、装置及存储介质,其中方法包括:基于知识图谱,构建用于对用户问题进行语义分析的领域分词模型,对所述领域分词模型得到的实体、算子集合进行意图识别,构造意识图谱,基于搜索条件对所述意识图谱进行优化,得到意图子图,获取用户选择的搜索方式,分别基于所述知识图谱、所述意图子图获取对应回答,并输出给用户。本发明提高了语义分析搜索算法的计算效率和准确性。

著录项

说明书

技术领域

本发明涉及语义分析技术领域,尤其涉及一种语义分析搜索方法、装置及存储介质。

背景技术

目前大量的电力知识数据分布在线上、线下等各类场景,多源异构数据难以融合。当前数据模式动态变迁困难,当客户新需求、业务新认知时程序员需痛苦的修改数据结构及业务逻辑,带来扩展性差、对客户响应慢、维护成本高等不良情况;目前实用化的信息检索系统主要基于人工分类目录或关键词匹配。前者对海量信息资源的揭示效率不高且深度有限;后者在信息的语义和语用的揭示上有局限性。通过建立专业领域的知识体系将降低业务更迭过程中各类工作。建立电力科技知识体系主要是规范化电力科技知识资源的专业领域词汇与业务规则,目前已经有电力百科全书提供的知识分类。根据电力科技知识体系构建电力行业知识图谱,以电力知识图谱为基础实现语义精准搜索。

发明内容

发明目的:本发明提出一种精细化的语义分析搜索方法。本发明的另一目的在于提供基于上述方法的语义分析搜索装置及计算机存储介质。

技术方案:本发明所述的语义分析搜索方法,包括步骤:

(1)基于知识图谱,构建领域分词模型,所述领域分词模型用于对用户问题进行语义分析;

(2)对所述领域分词模型得到的实体、算子集合进行意图识别,构造意识图谱,所述意识图谱包括所述知识图谱中实体、概念、属性、属性值与算子之间的关联关系;

(3)基于搜索条件对所述意识图谱进行优化,得到意图子图;

(4)获取用户选择的搜索方式,分别基于所述知识图谱、所述意图子图获取对应回答,并输出给用户。

进一步地,所述步骤(3)包括:

从源点开始对所述意识图谱进行搜索,当图谱中边的类型不满足搜索条件时,进行搜索树的剪枝,以此访问到实体集合中所有的点。

进一步地,所述访问方法采用广度优先遍历算法,得到的实体集合中由两两实体最短路径,由此得到意图子图。

本发明通过意图识别发现并理解用户意图,从而针对不同的意图进行不同的问题处理从而进行回复。通过广度优先遍历算法优先访问图谱中相邻的点,因此,距离最近的点会最先访问到,记录的距离也就最小,由此得到意图子图。

进一步地,所述搜索方式包括:多字段搜索、语义搜索、模糊搜索、精准搜索。

本发明可支持多种搜索方式,以回答用户的不同提问方式。

进一步地,所述步骤(4)包括:

(41)提取用户问题的实体,判断用户问题的回答类型;

(42)根据所述用户问题的回答类型,相应地在所述知识图谱或所述意图子图中查找回答。

进一步地,所述用户问题的回答类型包括:事实性回答、推理型回答、统计型回答、计算型回答。

进一步地,所述统计型回答是通过将知识图谱中的数据以关系数据的方式存储后,通过统计函数分析得到的回答。

进一步地,所述步骤(42)包括:

基于所述意图子图查找回答时,当识别到多条路径时,若路径中包含算子节点,则对识别到的路径进行检查,判断是否满足算子运行条件,不满足则引导用户输入算子运行条件,满足则执行计算;若路径中不包含算子节点,则在所述知识图谱中进行语义搜索。

所述算子运算的结果根据算子运算规则可能返回数值结果、单一知识卡片、实体列表、子图、图表以及多元素组合。

本发明所述的语义分析搜索装置,包括:

语义分析模块,用于对获取的用户问题进行语义分析;

知识谱图模块,用于获取和/或构建知识谱图;

意识子图模块,用于对所述语义分析识别得到的实体、算子进行意图识别,构造意识图谱,再基于搜索条件对所述意识图谱进行优化,生成意图子图;其中,所述意识图谱包括所述知识图谱中实体、概念、属性、属性值与算子之间的关联关系;

回答模块,用于根据语义分析结果判断所述用户问题的回答类型,根据所述回答类型调用所述知识谱图模块或所述意识子图模块,获取并输出所述知识谱图模块或所述意识子图模块返回的回答。

本发明所述的计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语义分析搜索的程序,所述语义分析搜索的程序被处理器执行时实现上述语义分析搜索方法的部分或全部步骤。

有益效果:本发明提出了一个面向电力行业、基于电力科技知识图谱的交流共享架构,形成了较为成熟的针对知识检索的语义搜索引擎,实现了知识资源的透明化访问和可视化展现;利用语义网技术及自然语言理解技术,通过聚类、分类、时间分析、地图展现、作者关联、实体发现等技术实现对用户搜索的知识挖掘及发现,对产生的有价值的实体进行包装,根据已构建的知识图谱对实体进行搜索,为用户提供更有价值的知识结果反馈。

附图说明

图1是本发明所述语义分析搜索方法的流程示意图;

图2是本实施例搭建的电力知识图谱体系框架。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

请参见图1,其示出了本发明所述的语义分析搜索方法。下面以电力领域的语义分析搜索为例。

(1)构建如图2所示的电力科技知识图谱资源库。电力科技知识数据源主要包括百科-电力百科、三大百科,专利-发明专利、实用新型、外观设计,论文-期刊论文、学位论文、会议论文等,成果-万方成果、国网成果,标准-国标、行标、企标,图书-一般的书籍数据,图片视频-带文本描述的图谱、视频,专家学者-上述数据的作者+专家库,行业机构-上述数据的作者+行业机构库,企业-上述数据的作者+行业企业库。基于电力科技知识数据进行实体抽取和关系抽取,其中实体抽取包含知识资源本体-论文、成果、专利、标准、图书,知识相关本体-研究机构、专家、出版社、企业;关系抽取包含实体间的从属关系和发布时间等。

本发明通过构建电力科技知识体系知识图谱,并在此基础上对电力科技知识中的案例、标准、视频、实验室、图片、图书以及专利的字段进行优化,形成了适用于电力科技知识领域的专业知识字段,进一步扩充了现有的电力科技知识体系。

将所述电力科技知识图谱作为分词算法词库,构建领域分词模型。所述领域分词模型用于:

1)语义检索:利用语义检索文本框在数据库中实现语义检索。

2)待分析语句:在待分析语句的文本框中输入语句,点击分析按钮后,会对文本框中的所有文本展开语义分析,分析结果将在对应功能模块中展示。

3)简繁体&拼音:在简繁体&拼音模块中,切换待分析语句文本框中文本的三种展示形式,包括简体中文、繁体中文和汉语拼音三种方式。

4)分词标注:在分词标注功能中查看检索分析内容的各类性分词,包括NLP分词、精准分词、索引分词、N最短路径分词及crf分词;同时在分词下方提供了词性标注的颜色、新词发现和自定义词汇功能。

5)词频统计:在词频统计功能中查看检索分析内容出现各类型词汇的统计信息。

6)关键词提取:在关键词提取功能中查看检索分析内容的关键词词云表示,其中词汇代销代表词汇出现频率较高。

7)实体抽取:在实体抽取功能中通过图形和列表两种方式查看检所分析内容的实体抽取结果,抽取的实体一般按照时间、地点、任务等指定内容进行划分。

8)文本分类:在文本分类功能中查看检索内容按照预设本体概念设定好的文本实体类别情况。

9)内容摘要:内容摘要功能提供查看检索内容的语句摘要,摘要内容用红色标出。

10)语义关联:语义关联功能提供查看检索内容中和预设内容分类的相关性数据,其中预设分类包括发展、推进、建设、经济及改革五大类。

11)情感分析:情感分析功能提供查看检索内容的正负面情感分析比例。

(2)对所述领域分词模型得到的实体、算子集合进行意图识别,构造意识图谱。所述意识图谱反映的是数据图谱中实体、概念、属性、属性值与算子之间的关联。因此,在构建意图图谱时,定义了实体类型、属性、属性值、算子四类概念,以及文本属性值、整数属性值、浮点数属性值、时间属性值四类二级概念,继承于属性值概念,将数据图谱中的概念、属性、统一转化为实体进行表示,同时本实施例在所述意图图谱中定义的四种关系的边分别是:

1)subClassOf:描述实体类型间的上下位关系。

2)hasProperty:描述实体类型拥有的属性。

3)values:描述属性所拥有的属性值。

4)triggers:描述实体类型可能触发的算子服务。

(3)定义好所述意图图谱中的元素后,首先从源点开始对整个意图图谱进行搜索,当边的类型不满足搜索条件时,进行搜索树的剪枝,采用广度优先遍历算法访问实体集合中所有的点。

对于识别到的多条路径,若路径中包含算子节点,则对识别到的路径进行检查,是否满足算子运行条件(如:路径必须包含两个实体),不满足则引导用户输入算子运行条件,满足则执行计算。算子运算的结果根据算子运算规则可能返回数值结果、单一知识卡片、实体列表、子图、图表以及多元素组合。若路径中不包含算子节点,如“华为有哪些手机”,则进行事实性回答根据知识图谱中的数据进行回答。

(4)通过语义标注和用户意图识别后,对于返回的结果可供电力用户进行基于知识图谱的语义搜索。其中智能搜索功能支持多字段搜索、语义搜索、模糊搜索、精准搜索:

1)多字段搜索:不限制搜索字段,可在输入框内输入多个词语进行关联搜索,搜索结果返回相关案例内包含所搜索关键字的案例。

2)语义搜索:可搜索句子,例如输入“什么是互感器”,结果会返回到互感器的介绍,以及在电网维护案例内互感器的维修检测方法。

3)模糊搜索:类似于近义词搜索,当用户不知道某些器件的准确名词时,可以通过该器件的常用叫法(如开关)进行搜索,结果也会返回到该器件的标准名词叫法(如断路器)所搜索到的结果。

4)精准搜索:当用户需要搜索某一个器件或者故障由某一位工程师检修的记录,可以通过“故障名称+检修人员名字”的方式进行搜索,这样,搜索结果就会返回到该人员参与过的此项故障的维修记录、保养记录等信息。

问题回答包括事实性回答、推理型回答、统计型回答和计算型回答四类。

事实型回答即给定自然语言问题,通过对问题进行语义理解和解析,进而利用知识图谱进行查询、推理得出答案。主要通过查询构建方法(Query Construction)来进行回答,查询构建方法可分为基于模板、基于问题分析中得到的信息、基于机器学习和基于语义信息构建查询语句。基于模板建立查询是建立起实现设计好的查询模板,其中包含一些空槽,需要将相关信息填入后形成一个完整的查询。另外还可以通过语法树分析、依存树分析或语法槽等方法,解构自然语言形成查询。同时也有一些工作通过机器学习的方法建立问句与查询语句之间的映射关系。事实型回答支持四类问题,分别是实体查询、实体属性查询、实体属性的多跳查询以及多属性条件的实体查询。对于这四类问题的查询构建,本发明定义了知识图谱通用查询语言,将前序意图识别的结果进行处理,得到最终的知识图谱查询语句,并将其执行结果返回用户。

推理型回答指针对问题的识别结果不足以完成回答的情况下,通过知识推理的方法得到答案。本次发明中提出的问答系统是针对电力行业进行设计的,所以采用基于符号的知识表示形式,并通过人工构建的推理规则推理出答案。本发明采用Drools规则引擎进行规则的描述,在知识图谱基础知识的基础上,依据行业应用的业务特征进行规则的定义,然后基于图谱中的基础知识与所定义的规则,执行推理过程给出推理结果。

统计型回答是对知识图谱中的知识进行统计分析,由于知识图谱的数据通常是通过RDF或者Nosql图数据库进行存储,不利于统计分析,所以本发明的做法是将知识数据进行重新组织,以关系数据的方式进行存储,利用关系数据库提供的统计函数进行统计型问题的回答。

计算型回答指需要通过图计算的方法得到答案,本发明通过使用Spark GraphX计算框架来实现图的并行计算。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号