首页> 中国专利> 一种基于语义分析技术的专业制度档案问答机器人系统

一种基于语义分析技术的专业制度档案问答机器人系统

摘要

本发明公开了一种基于语义分析技术的专业制度档案问答机器人系统,属于自然语言处理算法技术领域,包括图谱问答模块、阅读理解模块、多轮问答模块和问答对问答模块,图谱问答模块,用于对用户问题进行语义理解和解析,并对知识图谱进行查询并得出答案;阅读理解模块,用于根据用户问题,动态地在文档知识库中寻找答案;多轮问答模块,用于根据用户需求,交互式地获取信息,帮助用户完成一项任务的问答;问答对问答模块,用于根据用户问题,自动在问答对知识库中寻找相关知识。利用图谱问答、阅读理解、多轮问答和问答对问答,让机器能做到关系问答,语义理解,交互问答,同时能够将专家经验以问答对的形式沉淀下来,提高制度查找和检索效率。

著录项

  • 公开/公告号CN112905747A

    专利类型发明专利

  • 公开/公告日2021-06-04

    原文格式PDF

  • 申请/专利权人 国能大渡河流域水电开发有限公司;

    申请/专利号CN202110249521.0

  • 申请日2021-03-08

  • 分类号G06F16/33(20190101);G06F16/332(20190101);G06F16/35(20190101);G06F16/36(20190101);G06F40/295(20200101);G06F40/30(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构51230 成都弘毅天承知识产权代理有限公司;

  • 代理人梁伟东

  • 地址 610041 四川省成都市高新区天韵路7号

  • 入库时间 2023-06-19 11:16:08

说明书

技术领域

本发明属于自然语言处理算法技术领域,涉及一种基于语义分析技术的专业制度档案问答机器人系统。

背景技术

随着一些大型公司业务规模的快速发展,在信息化基础设施逐步建成与完善的过程中,公司内部已经积累了大量的制度文档数据,如何从这些大量制度档案数据中深入分析和挖掘出有价值的知识信息,以帮助大渡河公司开展高效科学的制度管理与建设,有效解决传统通过人工查找制度的方式来获取企业制度资料,流程复杂、获取效率低、人力成本高、获取准确性低等问题。这些规章制度具有知识来源多、涉及方面广、专业性强、更新不定时等特点。

传统的计算机辅助构建问答知识库方案主要是基于分词的全文搜索引擎,基于分词的全文搜索引擎具有以下不足:不能理解文章的含义,搜索靠的是字面相关度,而不是语义相关度;只能定位到搜索的问题,不能准确定位到答案,搜到问题到找到答案之间还需要人工干预;没有沉淀机制。

发明内容

本发明的目的在于:提供了一种基于语义分析技术的专业制度档案问答机器人系统,解决了基于分词的全文搜索引擎不能理解文章的含义,搜索靠的是字面相关度,而不是语义相关度;只能定位到搜索的问题,不能准确定位到答案,搜到问题到找到答案之间还需要人工干预;没有沉淀机制的问题。本发明通过构建制度知识问答分析系统,对公司制度档案知识进行全面统一的管理,从而有效整合企业制度知识,实现对制度管理结构和管理模式的创新,基于阅读理解,辅以图谱问答,多轮问答,问答对问答和搜索的方案,有效解决传统搜索型知识库获取效率低、人力成本高、获取准确性低等问题。

本发明采用的技术方案如下:

一种基于语义分析技术的专业制度档案问答机器人系统,包括图谱问答模块、阅读理解模块、多轮问答模块和问答对问答模块,其中:

所述图谱问答模块,用于对用户问题进行语义理解和解析,并对知识图谱进行查询并得出答案;

所述阅读理解模块,用于根据用户问题,动态地在文档知识库中寻找答案;

所述多轮问答模块,用于根据用户需求,交互式地获取信息,帮助用户完成一项任务的问答;

所述问答对问答模块,用于根据用户问题,自动在问答对知识库中寻找相关知识。

进一步地,所述图谱问答模块基于知识图谱的搜索引擎存储大量的实体以及实体之间的关系,根据用户查询准确地返回答案。

进一步地,所述阅读理解模块通过ES寻找和query相关的文档,形成候选文档集合;在候选文档集合中通过阅读理解模型找出和query相关的答案,并返回按概率排序的前n个答案。

进一步地,所述多轮问答模块通过NLU模块识别用户query中包含的意图及语义槽,通过DM模块根据当前的NLU结果及历史对话数据确定机器人下一步的策略,通过NLG模块根据DM的决策生成回答。

进一步地,所述问答对问答模块通过ES寻找和query相关的问题,形成候选集合,通过比对query的语义向量和候选问题集合中各自问题的语义向量计算出相似度信息,结合相似度信息与ES分数信息进行重新排序,并返回前n个结果。

综上所述,由于采用了上述技术方案,本发明的有益效果是:

本发明一种基于语义分析技术的专业制度档案问答机器人系统,充分利用了各个模块的优势,并通过阈值策略将其有机的整合起来,在保证问答效果的同时保证其整体性;图谱问答擅长于抽取文章中的实体和关系,可以准确地回答出规章制度文档中的事实型问题;传统通过搜索引擎构建的规章制度问答知识库,对操作人员的专业性要求依然很高,普通人很难问出合适的问题,也很难定位到答案的具体位置;引入阅读理解机制,在语义层面理解文章和问题,找出最匹配的具体答案位置;多轮问答提高了问答系统的交互性与连贯性,适合回答逻辑上层层深入的问题;在系统自带的图谱问答和阅读理解答案不准确时,由专家根据经验录入问答对,提高了答案的准确率,而且让问答系统有了沉淀。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图,其中:

图1是本发明的框架示意图;

图2是图谱问答模块的框架示意图;

图3是阅读理解模块的框架示意图;

图4是多轮问答模块的框架示意图;

图5是问答对问答模块的框架示意图;

图6是本发明的流程示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

实施例

如图1所示,本发明较佳实施例提供的一种基于语义分析技术的专业制度档案问答机器人系统,包括图谱问答模块、阅读理解模块、多轮问答模块和问答对问答模块,其中:

所述图谱问答模块,用于对用户问题进行语义理解和解析,并对知识图谱进行查询并得出答案;

所述阅读理解模块,用于根据用户问题,动态地在文档知识库中寻找答案;

所述多轮问答模块,用于根据用户需求,交互式地获取信息,帮助用户完成一项任务的问答;

所述问答对问答模块,用于根据用户问题,自动在问答对知识库中寻找相关知识。

具体地,如图2所示,所述图谱问答模块基于知识图谱的搜索引擎存储大量的实体以及实体之间的关系,根据用户查询准确地返回答案。

具体地,如图3所示,所述阅读理解模块通过ES寻找和query相关的文档,形成候选文档集合;在候选文档集合中通过阅读理解模型找出和query相关的答案,并返回按概率排序的前n个答案。

具体地,如图4所示,所述多轮问答模块通过NLU模块识别用户query中包含的意图及语义槽,通过DM模块根据当前的NLU结果及历史对话数据确定机器人下一步的策略,通过NLG模块根据DM的决策生成回答。

具体地,如图5所示,所述问答对问答模块通过ES寻找和query相关的问题,形成候选集合,通过比对query的语义向量和候选问题集合中各自问题的语义向量计算出相似度信息,结合相似度信息与ES分数信息进行重新排序,并返回前n个结果。

本发明:如图6所示,知识图谱提供了从“关系”的角度去分析问题的能力,是关系表示最有效的方式之一。图谱问答模块对用户问题进行语义理解和解析,并对知识图谱进行查询并得出答案。基于知识图谱的搜索引擎,内部存储了大量的实体以及实体之间的关系,可以根据用户查询准确地返回答案。例如:国电大渡河拥有哪些子公司?在图谱中就会先找到国电大渡河这个实体,再找到和大渡河相连的“拥有”关系,最后找到与这些关系相连的类型为“公司”的实体。图谱问答模块擅长回答关系型问题。阅读理解模块的核心模型是基于self-attention架构的深度神经网络模型,基于大数据量训练,可以直接计算一个自然语言问句在一篇文章中潜在的答案及其概率,并给予阈值提供多个答案反馈。不用人工进行标注,自己理解文章的含义,并给出答案,擅长回答需要对文章进行理解的问题。ES是Elastic Search的缩写,Elastic Search是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口,Elastic Search是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。多轮问答模块基于NLU(Natural Language Understanding)、DM(Dialogue Management)、NLG(Natural LanguageUnderstanding)三级架构,NLU包含意图分类及语义槽提取算法,从自然语言中提取结构化信息,DM包含状态转移及决策,根据任务定义完成机器人状态感知及行为决策,NLG通过任务的要求生成可读的自然语言文本。多轮问答擅长回答交互式问题,层层深入的解决用户的问题。问答对问答模块核心是基于深度神经网络语义编码器模型。此模型将短文本精确编码为语义空间中的向量,以语义空间中的距离来判断两句话是否在语义上相似。基于大数据量训练,语义编码器模型在训练时,采用了互联网上获取的百万级的相似短文本数据。此模块的目的是增加某些特殊问题的答案准确性,往往在系统自带的图谱问答和阅读理解答案不准确时,由专家根据经验录入问答对。综上所述,利用图谱问答、阅读理解、多轮问答和问答对问答,让机器能做到关系问答,语义理解,交互问答,同时能够将专家经验以问答对的形式沉淀下来,提高制度查找和检索效率,促进企业制度高效应用。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明的保护范围,任何熟悉本领域的技术人员在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号