首页> 中国专利> 司法知识图谱构建以及基于司法知识图谱搜索方法与装置

司法知识图谱构建以及基于司法知识图谱搜索方法与装置

摘要

本申请涉及一种上述司法知识图谱构建方法、装置、计算机设备和存储介质,在构建司法知识图谱时,根据模式设计数据有针对性的从预设司法文书数据库中抽取数据,并且对抽取的数据中节点类型数据进行融合,再抽取数据之间的关系数据,准确得到与当前设计需求对应节点数据以及关系数据作为司法知识图谱的基础,确保最终构建的司法知识谱图携带多样有序的数据,支持后续准确搜索,实现司法知识图谱的准确构建。另外本申请还提供一种基于上述司法知识图谱构建方法构建的司法知识图谱搜索方法、装置、计算机设备和存储介质,实现司法文书数据准确搜索。

著录项

  • 公开/公告号CN112749249A

    专利类型发明专利

  • 公开/公告日2021-05-04

    原文格式PDF

  • 申请/专利权人 北京国双科技有限公司;

    申请/专利号CN201911044184.0

  • 发明设计人 戚成琳;冯鸳鹤;

    申请日2019-10-30

  • 分类号G06F16/33(20190101);G06F16/36(20190101);G06F16/9535(20190101);

  • 代理机构11606 北京华进京联知识产权代理有限公司;

  • 代理人乔改利

  • 地址 100083 北京市海淀区北四环中路229号海泰大厦4层南401号

  • 入库时间 2023-06-19 10:51:07

说明书

技术领域

本申请涉及大数据处理技术领域,特别是涉及一种司法知识图谱构建方法、装置、计算机设备和存储介质以及基于司法知识图谱搜索方法、装置、计算机设备和存储介质。

背景技术

互联网时代,人们面对海量信息,依靠搜索引擎,才能迅速找到需要的信息,常规搜索引擎类型越来越多,包括综合搜索、商业搜素、软件搜索等。

在传统基于搜索引擎的搜索过程中,一般是用户输入关键字进行至常规搜索引擎,常规搜索引擎基于使用ES库对数据进行存储,通过关键词进行搜索,并对搜索结果进行排序,从而返回用户想要搜索的信息。

常规搜索引擎虽然可以输出用户关键字对应的数据,但是由于一般基于普通的数据库进行搜索,其搜索结果内容有限,需要从海量数据进行无序搜索,导致搜索过程复杂且结果不准确。

发明内容

基于此,有必要针对上述技术问题,提供一种能够支持准确搜索的司法知识图谱构建方法、装置、计算机设备和存储介质以及能够实现准确搜索的基于司法知识图谱搜索方法、装置、计算机设备和存储介质。

一种司法知识图谱构建方法,所述方法包括:

获取待构建司法知识图谱的模式设计数据;

根据所述模式设计数据从预设司法文书数据库中抽取对应的数据;

对抽取的数据中节点类型对应的数据进行融合,得到节点数据,并获取所述节点数据之间的关系数据;

根据所述节点数据以及所述关系数据,构建司法知识图谱。

在其中一个实施例中,所述对抽取的数据中节点类型数据进行融合,得到节点数据包括:

识别抽取的数据中未携带唯一身份标识的节点类型数据,得到目标数据;

对所述目标数据进行融合,得到节点数据。

在其中一个实施例中,所述对所述目标数据进行融合,得到节点数据包括:

获取抽取的数据中与所述目标数据对应的节点属性数据;

根据所述目标数据中各节点类型对应的节点属性数据,采用杰卡德相似系数,获取所述目标数据中各节点类型的相似度向量;

将所述相似度向量输入至聚类模型,得到融合节点数据。

在其中一个实施例中,所述根据所述节点数据以及所述关系数据,构建司法知识图谱包括:

根据预设数据导入工具支持数据格式,对所述节点数据以及所述关系数据进行格式转换;

通过所述预设导入工具将格式转换后的数据导入至图数据库,构建司法知识图谱。

另外,本申请还提供一种基于司法知识图谱的搜索方法,所述方法包括:

接收用户输入的自然语言问题;

对所述自然语言问题进行搜索意图识别;

根据搜索意图识别结果以及司法知识图谱进行搜索,得到搜索结果,所述司法知识图谱为采用如上述方法构建的司法知识图谱;

反馈所述搜索结果。

在其中一个实施例中,所述对所述自然语言问题进行搜索意图识别包括:

确定当前支持意图类型,设计所述当前支持意图类型对应的意图确认模板;

对所述自然语言问题进行实体识别,并根据所述意图确认模板,确认所述自然语言问题的意图类别,抽取与所述意图类别对应的搜索条件,得到搜索意图识别结果;

所述根据搜索意图识别结果以及司法知识图谱进行搜索,得到搜索结果包括:

解析所述搜索意图识别结果中携带的意图名称、属性以及搜索条件;

针对每种所述意图名称以及所述属性,根据所述搜索条件进行搜索语句生成;

将所述搜索语句输入至所述司法知识图谱进行搜索,得到搜索结果。

另,本申请还提供一种司法知识图谱构建装置,所述装置包括:

数据获取模块,用于获取待构建司法知识图谱的模式设计数据;

数据抽取模块,用于根据所述模式设计数据从预设司法文书数据库中抽取对应的数据;

融合模块,用于对抽取的数据中节点类型对应的数据进行融合,得到节点数据,并获取所述节点数据之间的关系数据;

知识图谱构建模块,用于根据所述节点数据以及所述关系数据,构建司法知识图谱。

另,本申请还提供一种基于司法知识图谱搜索装置,所述装置包括:

接收模块,用于接收用户输入的自然语言问题;

识别模块,用于对所述自然语言问题进行搜索意图识别;

搜索模块,用于根据搜索意图识别结果以及司法知识图谱进行搜索,得到搜索结果,所述司法知识图谱为采用如上述方法构建的司法知识图谱;

反馈模块,用于反馈所述搜索结果。

另,本申请还提供一种计算机设备,包括至少一个处理器、至少一个存储器、以及总线;其中,所述处理器与所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如上述的方法。

另,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的方法的步骤。

上述司法知识图谱构建方法、装置、计算机设备和存储介质,在构建司法知识图谱时,先获取其模式设计数据,根据模式设计数据有针对性的从预设司法文书数据库中抽取数据,并且对抽取的数据中节点类型数据进行融合,再抽取数据之间的关系数据,准确得到与当前设计需求对应节点数据以及关系数据作为司法知识图谱的基础,确保最终构建的司法知识谱图携带多样有序(不同节点类型数据以及清晰表征节点之间关系的关系数据)的数据,可以得到支持后续准确搜索的,司法知识图谱。

上述基于司法知识图谱搜索方法、装置、计算机设备和存储介质,其基于上述构建的司法知识图谱进行搜索,接收用户输入的自然语言问题,对所述自然语言问题进行搜索意图识别,根据搜索意图识别结果以及司法知识图谱进行搜索,得到搜索结果,反馈所述搜索结果。整个过程中,一方面,基于上述准确构建的司法知识图谱,作为搜索的对象(数据源);另一方面,采用意图识别的方式,识别出当前用户自然语言问题对应的真实搜索意图,准确反馈用户所需搜索结果。

附图说明

图1为一个实施例中司法知识图谱构建方法的应用环境图;

图2为一个实施例中基于司法知识图谱搜索方法的应用环境图;

图3为一个实施例中司法知识图谱构建方法的流程示意图;

图4为另一个实施例中司法知识图谱构建方法的流程示意图;

图5为一个实施例中基于司法知识图谱搜索方法的流程示意图;

图6为另一个实施例中基于司法知识图谱搜索方法的流程示意图;

图7为一个实施例中司法知识图谱构建装置的结构框图;

图8为一个实施例中基于司法知识图谱搜索装置的结构框图;

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的司法知识图谱构建方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。用户在终端102侧操作,将司法知识图谱设计参数上传至服务器104,服务器104预先加载有司法文书数据库,服务器104获取待构建司法知识图谱的模式设计数据;根据模式设计数据从预设司法文书数据库中抽取对应的数据;对抽取的数据中节点类型对应的数据进行融合,得到节点数据,并获取节点数据之间的关系数据;根据节点数据以及关系数据,构建司法知识图谱。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在实际应用,本申请司法知识图谱构建方法可以根据用户的请求,检索出对用户最有价值的信息。智能搜索不再基于关键词来进行检索,而是具有智能化和人性化的特征,允许用户使用自然语言进行信息的检索,为用户提供更方便更准确的搜索服务。

另外,本申请还提供一种基于司法知识图谱搜索方法,可以应用于如图2所示的应用环境中,手持终端202通过网络与远程服务器204通过网络进行通信。用户在手持终端202侧操作,将搜索的自然语言问题写入至手持终端202,手持终端202将自然语言问题上传至远程服务器204,远程服务器204加载有基于上述方法构建的司法知识图谱。远程服务器204接收用户输入的自然语言问题;对自然语言问题进行搜索意图识别;根据搜索意图识别结果以及司法知识图谱进行搜索,得到搜索结果,司法知识图谱为采用如上述方法构建的司法知识图谱;反馈搜索结果至手持终端202,用户即可通过手持终端202得到自身所需数据。需要指出的是,手持终端202也可以是其他类型终端,例如计算机、笔记本电脑以及便携式可穿戴设备等,优选的,手持终端202可以为智能手机、平板电脑等,远程服务器204可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图3所示,提供了一种司法知识图谱构建方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:

S220:获取待构建司法知识图谱的模式设计数据。

模式(schema)设计数据包括对待构建的司法知识谱图中节点类型、每种类型节点的属性、节点之间的关系类型、以及每种节点的属性定义。节点类型具体可以包括但不限于案件、案由、城市、公司、法院、日、效力级别、证据、日期、文书类型、审判程序、法律、律所、文书、月、人、省、法条、地区、文书段以及年。节点之间的关系类型包括但不限于适用法条、案由、法院确认段、法院认为段、法院认定段、天、被告陈述段、效力级别、生效日期、证据、拥有法院、包含法条以及文书类型。具体来说,schema设计数据是设计者根据当前情况录入的数据,其具体可以基于当前场景需求写入对应的数据。

S240:根据模式设计数据从预设司法文书数据库中抽取对应的数据。

预设示司法文书数据库是预先构建的数据库,在该数据库中存放有历史记录中大量的司法文书,根据步骤S220确定的模式设计数据从预设司法文书数据库中抽取对应的数据,抽取的数据即可作为本轮司法知识图谱的基础数据。

S260:对抽取的数据中节点类型对应的数据进行融合,得到节点数据,并获取节点数据之间的关系数据。

节点数据之间的关系数据可以直接从schema设计数据获取,在schema设计数据中预先可以定义好这部分数据。知识图谱构建过程中,为了构建准确和高质量的知识图谱,需要进行消歧融合,步骤S260即执行消歧融合的过程。其具体针对节点类型对应的数据进行融合,得到节点数据,以节点类型为实体(当事人)为例,当事人包括法人(公司实体)和自然人(人物实体),当事人可能没有唯一身份标识(ID),其对于服务器而言,就是一个字符串,而字符串相同的公司和人物可能是同名不同实体,也可能是同一个实体,要将这些字符串的名称实体化为带有属性的人和公司,必须要对他们进行数据融合。例如当事人同样都是李XX,可能是湖南同名的李XX,还可能是云南同名的李XX,又或者是其他省份的李XX,或者多个李XX之中,有几个是同一个李XX,所以要进行消歧和融合。另外,在司法知识图谱构建的过程中,还需要明确节点数据之间的关系(即上述实例中的实体之间关系),从还需要从抽取的数据中提取节点数据之间的关系数据。具体来说,在模式设计数据已经设计、约束好了各类型节点之间的关系,消歧融合处理后的节点数据以及模式设计数据中约束的各类型节点之间的关系,即可从抽取的数据中获取到节点数据之间的关系数据。

S280:根据节点数据以及关系数据,构建司法知识图谱。

根据步骤S260得到的节点数据以及关系数据可以构建出合格的司法知识图谱。非必要的,为了实现高效构建司法知识谱图,可以借助数据工具执行导入动作,以实现大规模、高效的数据导入。具体来说,在调用预设数据导入工具时,还需要对节点数据以及关系数据进行格式转换,以使待导入的数据符合预设数据导入工具的要求,高效实现数据导入。

上述司法知识图谱构建方法,在构建司法知识图谱时,先获取其模式设计数据,根据模式设计数据有针对性的从预设司法文书数据库中抽取数据,并且对抽取的数据中节点类型数据进行融合,再抽取数据之间的关系数据,准确得到与当前设计需求对应节点数据以及关系数据作为司法知识图谱的基础,确保最终构建的司法知识谱图携带多样有序(不同节点类型数据以及清晰表征节点之间关系的关系数据)的数据,可以生成支持后续准确搜索的司法知识图谱。

如图4所示,在其中一个实施例中,步骤S280包括:

S282:根据预设数据导入工具支持数据格式,对节点数据以及关系数据进行格式转换。

S284:通过预设导入工具将格式转换后的数据导入至图数据库,构建司法知识图谱。

预设数据导入工具支持数据格式可以根据该数据导入工具性能参数以及相关要求说明中获取。为详细解释上述过程,下面将以batch-importer工具作为实例,详细描述。在具体应用实例中,使用batch-importer工具来进行导入,将节点数据和关系数据组装成符合导入要求的数据格式,节点CSV(Comma-Separated Values,逗号分隔值)文件的数据格式如下:

表格中,l:label是节点类型,id:string:index_name是可以唯一确定实体的属性,其余为节点的属性。关系CSV文件的数据格式如下:

表格中,id:string:strat_id是确定起始节点唯一性的属性,id:string:end_id是确定尾节点唯一性的属性,type是关系类型,其余为关系的属性。根据这个数据格式要求对每种节点及节点之间的关系CSV进行设计,并对数据进行处理,组装成相应的CSV文件,组装完成CSV文件以后,使用batch-importer工具进行导入,完成司法知识图谱构建。

在其中一个实施例中,对抽取的数据中节点类型数据进行融合,得到节点数据包括:识别抽取的数据中未携带唯一身份标识的节点类型数据,得到目标数据;对目标数据进行融合,得到节点数据。

一般来说大部分的节点类型数据都会携带有唯一身份标识,例如案号数据、文书类型数据等,其会有对应的唯一身份标识,还有小部分节点类型数据未携带有唯一身份标识,例如实体类型数据,特别以当事人为代表的实体类型数据,在无论是公司法人实体还是自然人实体时,其都未分配有唯一的身份标识,这就造成“重名”的现象,导致整个司法知识图谱数据存在一定的混乱。而知识图谱构建过程中,为了构建准确和高质量的知识图谱,需要进行消歧融合,但不是所有类型的实体都需要进行消歧,只有那些没有唯一标识的实体需要融合。基于上述情况,需要识别抽取的数据中未携带唯一身份标识的节点类型数据,将识别出的数据作为融合的目标数据,再对目标数据进行融合,得到节点数据。

在其中一个实施例中,对目标数据进行融合,得到节点数据包括:

基于杰卡德相似系数以及聚类模型,对目标数据进行融合,得到融合节点数据。

在本实施例中,针对目标数据的融合过程选择聚类的方式进行融合,其具体基于杰卡德相似系数计算各个未携带唯一身份标识的节点类型数据之间相似度,再进行相似度聚类,实现对目标数据进行融合。

在其中一个实施例中,上述基于杰卡德相似系数以及聚类模型,对目标数据进行融合,得到融合节点数据包括:

获取抽取的数据中与目标数据对应的节点属性数据;根据目标数据中各节点类型对应的节点属性数据,采用杰卡德相似系数,获取目标数据中各节点类型的相似度向量;将相似度向量输入至聚类模型,得到融合节点数据。

下面将继续以实体类型的节点类型为例,详细说明聚类融合的过程。使用公司相关案件的其他当事人、审判人员和代理人作为公司的属性,属性值都是一个集合。因此采用杰卡德相似系数来计算相似度,最终获得一个相似度向量[向量:当事人,向量:审判人员,向量:代理人],将该向量作为特征输入聚类模型,对同名公司进行聚类,从而实现公司实体的消歧融合。

另外,如图5所示,本申请还提供一种基于司法知识图谱的搜索方法,方法包括:

S420:接收用户输入的自然语言问题。

远程服务器接收用户操作手持终端发送的自然语言问题。自然语言问题是指用户自行组织的语言所提出的问题,其一般符合用户个人语言表达习惯以及普通口语文字表达习惯,用户无需自行甄选关键词来执行搜索操作,只需直接输入自身完成的问题到手持终端,手持终端机会将该自然语言问题上传至远程服务器。具体来说,自然语言问题可以为“2015鼓商初字第595号文书涉及到的法律?”。

S440:对自然语言问题进行搜索意图识别。

用户输入要搜索的自然语言问题之后,需要对自然语言问句进行意图识别。用户在不同的搜索意图情况下,针对相同文字的自然语言问题会有不同答复需求。具体来说,搜索意图识别主要包括实体识别、意图识别以及条件抽取。例如针对“2015鼓商初字第595号文书涉及到的法律?”的自然语言问题进行搜索意图识别可以得到搜索意图为“案例文书+案号+适用法律”,搜索条件为“案号”。

S460:根据搜索意图识别结果以及司法知识图谱进行搜索,得到搜索结果,司法知识图谱为采用如上述方法构建的司法知识图谱。

在这里所采用的司法知识图谱基于上述司法知识图谱构建方法构建的司法知识图谱,该司法知识图谱支持高效搜索。

S480:反馈搜索结果。

远程服务器将搜索到的结果反馈至手持终端,手持终端可以将该搜索结果反馈至用户。

上述基于司法知识图谱搜索方法,其基于上述构建的司法知识图谱进行搜索,接收用户输入的自然语言问题,对自然语言问题进行搜索意图识别,根据搜索意图识别结果以及司法知识图谱进行搜索,得到搜索结果,反馈搜索结果。整个过程中,一方面,基于上述准确构建的司法知识图谱,作为搜索的对象(数据源);另一方面,采用意图识别的方式,识别出当前用户自然语言问题对应的真实搜索意图,准确反馈用户所需搜索结果。

如图6所示,在其中一个实施例中,步骤S440包括:

S442:确定当前支持意图类型,设计当前支持意图类型对应的意图确认模板。

S444:对自然语言问题进行实体识别,并根据意图确认模板,确认自然语言问题的意图类别,抽取与意图类别对应的搜索条件,得到搜索意图识别结果。

在获取自然语言问题之后,需要对自然语言问句进行意图识别,首先我们应当确定服务器支持的意图类型有哪些,再基于这些支持的意图类型生成对应的意图确认模板。具体来说,支持意图类型包括法律法规和案例文书,法律法规可以分为法律原文以及法律全文;案例文书可以细分为:案号+使用法律、案号+近似案件、案号+案例正文、法官相关案件、无身份人相关案件、当人相关案件、律师相关案件以及律所相关案件等。确定了服务器支持意图类型之后,需要对意图类型进行细分,比如上述的“案例文书”意图又可以细分为其相关的“适用法律”、“近似案件”、“案例正文”等。针对每一个细分的子意图,设置相应的查询条件。针对用户输入、上传的自然语言问题进行包括实体识别、模板确认意图类别以及抽取相应的查询条件的解析,最后返回相应的json(JavaScript Object Notation,JS对象简谱)搜索意图识别结果数据,用于后续针对性查询。具体来说,上述实体识别可以通过正则表达式对自然语言问题进行实体识别。

如图6所示,在其中一个实施例中,步骤S460包括:

S462:解析搜索意图识别结果中携带的意图名称、属性以及搜索条件。

S464:针对每种意图名称以及属性,根据搜索条件进行搜索语句生成。

S466:将搜索语句输入至司法知识图谱进行搜索,得到搜索结果。

在步骤S440得到返回的结果,需要解析出“intent_name(意图名称)”,“properties(子内容)”以及相应的“conditions(查询条件)”。针对每种“intent_name”和“properties”,根据“conditions”中的条件进行查询语句的设计。以intent_name为“法律法规”和properties为“法条原文”为例,conditions里包含“lawName”(法律名称)和“articleParas”(法条号),于是针对该意图可以设计如下Cypher(译码)语句用于查询类似于“婚姻法第九条是什么?”的问题的答案:MATCH(a:Law)-[HAS_PROVISION]->(n:Provision)WHERE a.name in law_name,toInteger(n.provision_num)in article_parasRETURN n.name。进一步的,针对其他自然语言问题,可以生成如下表1所示的Cypher语句,需要指出的是表1所示内容仅用于示意,并不局限于此。

表1为查询意图、查询条件和查询语句示意表

应该理解的是,虽然图3-6的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图3-6中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图7所示,本申请还提供一种司法知识图谱构建装置,装置包括:

数据获取模块720,用于获取待构建司法知识图谱的模式设计数据;

数据抽取模块740,用于根据模式设计数据从预设司法文书数据库中抽取对应的数据;

融合模块760,用于对抽取的数据中节点类型对应的数据进行融合,得到节点数据,并获取节点数据之间的关系数据;

知识图谱构建模块780,用于根据节点数据以及关系数据,构建司法知识图谱。

上述司法知识图谱构建装置,在构建司法知识图谱时,先获取其模式设计数据,根据模式设计数据有针对性的从预设司法文书数据库中抽取数据,并且对抽取的数据中节点类型数据进行融合,再抽取数据之间的关系数据,准确得到与当前设计需求对应节点数据以及关系数据作为司法知识图谱的基础,确保最终构建的司法知识谱图携带多样有序(不同节点类型数据以及清晰表征节点之间关系的关系数据)的数据,可以得到支持后续准确搜索的司法知识图谱。

在其中一个实施例中,融合模块760还用于识别抽取的数据中未携带唯一身份标识的节点类型数据,得到目标数据;对目标数据进行融合,得到节点数据。

在其中一个实施例中,融合模块760还用于基于杰卡德相似系数以及聚类模型,对目标数据进行融合,得到融合节点数据。

在其中一个实施例中,融合模块760还用于获取抽取的数据中与目标数据对应的节点属性数据;根据目标数据中各节点类型对应的节点属性数据,采用杰卡德相似系数,获取目标数据中各节点类型的相似度向量;将相似度向量输入至聚类模型,得到融合节点数据。

在其中一个实施例中,知识图谱构建模块780,用于根据预设数据导入工具支持数据格式,对节点数据以及关系数据进行格式转换;

通过预设导入工具将格式转换后的数据导入至图数据库,构建司法知识图谱。

上述司法知识图谱构建装置包括处理器和存储器,上述数据获取模块、数据抽取模块、融合模块以及知识图谱构建模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现司法知识图谱准确构建。

如图8所示,本申请还提供一种基于司法知识图谱搜索装置,装置包括:

接收模块820,用于接收用户输入的自然语言问题;

识别模块840,用于对自然语言问题进行搜索意图识别;

搜索模块860,用于根据搜索意图识别结果以及司法知识图谱进行搜索,得到搜索结果,司法知识图谱为采用如上述方法构建的司法知识图谱;

反馈模块880,用于反馈搜索结果。

上述基于司法知识图谱搜索装置,其基于上述构建的司法知识图谱进行搜索,接收用户输入的自然语言问题,对自然语言问题进行搜索意图识别,根据搜索意图识别结果以及司法知识图谱进行搜索,得到搜索结果,反馈搜索结果。整个过程中,一方面,基于上述准确构建的司法知识图谱,作为搜索的对象(数据源);另一方面,采用意图识别的方式,识别出当前用户自然语言问题对应的真实搜索意图,准确反馈用户所需搜索结果。

在其中一个实施例中,识别模块840还用于确定当前支持意图类型,设计当前支持意图类型对应的意图确认模板;对自然语言问题进行实体识别,并根据意图确认模板,确认自然语言问题的意图类别,抽取与意图类别对应的搜索条件,得到搜索意图识别结果。

在其中一个实施例中,识别模块840还用于通过正则表达式对自然语言问题进行实体识别。

在其中一个实施例中,搜索模块860还用于解析搜索意图识别结果中携带的意图名称、属性以及搜索条件;针对每种意图名称以及属性,根据搜索条件进行搜索语句生成;将搜索语句输入至司法知识图谱进行搜索,得到搜索结果。

上述基于司法知识图谱搜索装置包括处理器和存储器,上述接收模块、识别模块、搜索模块以及反馈模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现基于司法知识图谱的准确搜索。关于司法知识图谱构建装置以及基于司法知识图谱搜索装置的具体限定可以参见上文中对于司法知识图谱构建方法以及基于司法知识图谱搜索方法的限定,在此不再赘述。上述司法知识图谱构建装置以及基于司法知识图谱搜索装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

本发明实施例提供了一种设备,设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行上述的司法知识图谱构建方法或基于司法知识图谱搜索方法。本文中的设备可以是服务器、PC、PAD、手机等。在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储历史司法文书数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种司法知识图谱构建方法以及基于司法知识图谱搜索方法。

本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。在一个典型的配置中,设备包括一个或多个处理器(CPU)、存储器和总线。设备还可以包括输入/输出接口、网络接口等。

在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:

获取待构建司法知识图谱的模式设计数据;

根据模式设计数据从预设司法文书数据库中抽取对应的数据;

对抽取的数据中节点类型对应的数据进行融合,得到节点数据,并获取节点数据之间的关系数据;

根据节点数据以及关系数据,构建司法知识图谱。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

识别抽取的数据中未携带唯一身份标识的节点类型数据,得到目标数据;对目标数据进行融合,得到节点数据。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

基于杰卡德相似系数以及聚类模型,对目标数据进行融合,得到融合节点数据。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

获取抽取的数据中与目标数据对应的节点属性数据;根据目标数据中各节点类型对应的节点属性数据,采用杰卡德相似系数,获取目标数据中各节点类型的相似度向量;将相似度向量输入至聚类模型,得到融合节点数据。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

根据预设数据导入工具支持数据格式,对节点数据以及关系数据进行格式转换;通过预设导入工具将格式转换后的数据导入至图数据库,构建司法知识图谱。

在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:

接收用户输入的自然语言问题;

对自然语言问题进行搜索意图识别;

根据搜索意图识别结果以及司法知识图谱进行搜索,得到搜索结果,司法知识图谱为采用如上述方法构建的司法知识图谱;

反馈搜索结果。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

确定当前支持意图类型,设计当前支持意图类型对应的意图确认模板;对自然语言问题进行实体识别,并根据意图确认模板,确认自然语言问题的意图类别,抽取与意图类别对应的搜索条件,得到搜索意图识别结果。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

通过正则表达式对自然语言问题进行实体识别。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

解析搜索意图识别结果中携带的意图名称、属性以及搜索条件;针对每种意图名称以及属性,根据搜索条件进行搜索语句生成;将搜索语句输入至司法知识图谱进行搜索,得到搜索结果。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取待构建司法知识图谱的模式设计数据;

根据模式设计数据从预设司法文书数据库中抽取对应的数据;

对抽取的数据中节点类型对应的数据进行融合,得到节点数据,并获取节点数据之间的关系数据;

根据节点数据以及关系数据,构建司法知识图谱。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

识别抽取的数据中未携带唯一身份标识的节点类型数据,得到目标数据;对目标数据进行融合,得到节点数据。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

基于杰卡德相似系数以及聚类模型,对目标数据进行融合,得到融合节点数据。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

获取抽取的数据中与目标数据对应的节点属性数据;根据目标数据中各节点类型对应的节点属性数据,采用杰卡德相似系数,获取目标数据中各节点类型的相似度向量;将相似度向量输入至聚类模型,得到融合节点数据。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据预设数据导入工具支持数据格式,对节点数据以及关系数据进行格式转换;通过预设导入工具将格式转换后的数据导入至图数据库,构建司法知识图谱。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

接收用户输入的自然语言问题;

对自然语言问题进行搜索意图识别;

根据搜索意图识别结果以及司法知识图谱进行搜索,得到搜索结果,司法知识图谱为采用如上述方法构建的司法知识图谱;

反馈搜索结果。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

确定当前支持意图类型,设计当前支持意图类型对应的意图确认模板;对自然语言问题进行实体识别,并根据意图确认模板,确认自然语言问题的意图类别,抽取与意图类别对应的搜索条件,得到搜索意图识别结果。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

通过正则表达式对自然语言问题进行实体识别。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

解析搜索意图识别结果中携带的意图名称、属性以及搜索条件;针对每种意图名称以及属性,根据搜索条件进行搜索语句生成;将搜索语句输入至司法知识图谱进行搜索,得到搜索结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号