首页> 中国专利> 一种基于语义分析与关键词识别的检索方法和装置

一种基于语义分析与关键词识别的检索方法和装置

摘要

本发明提供一种基于语义分析与关键词识别的检索方法和装置,包括以下步骤:通过Textrank算法对专利文本提取专利关键词,获取专利关键词数据集,并根据Elmo动态词向量转换算法进行向量转换,获取专利关键词向量集;通过层次分析法对专利文本的标题、摘要、首项权利要求和技术功效句确定权重,并根据待检索关键词从高权重到低权重对指标信息中的关键词进行匹配,获取匹配关键词向量集,并将匹配关键词向量集输入权重模型,计算对应专利文本的权重值,根据权重值进行TOP‑K排序,形成检索结果并呈现至用户端。本发明能够扩大相关专利的覆盖面,对专利文本中的内容进行语义分析和关键词识别,从而提高检索结果的相关性。

著录项

  • 公开/公告号CN112507109A

    专利类型发明专利

  • 公开/公告日2021-03-16

    原文格式PDF

  • 申请/专利号CN202011442031.4

  • 申请日2020-12-11

  • 分类号G06F16/335(20190101);G06F16/338(20190101);G06F40/30(20200101);G06F40/205(20200101);G06F40/284(20200101);G06N3/04(20060101);G06N3/08(20060101);

  • 代理机构50234 重庆智慧之源知识产权代理事务所(普通合伙);

  • 代理人高彬

  • 地址 400023 重庆市江北区五江路18号1-1号、附1号1-8室6号

  • 入库时间 2023-06-19 10:16:30

说明书

技术领域

本发明涉及专利信息技术领域,尤其涉及一种基于语义分析与关键词识别的检索方法和装置。

背景技术

专利检索的任务是根据用户提供的条件,匹配出最符合用户需求的专利信息。随着大数据时代的到来,专利检索已经成为信息检索领域的一项重要研究热点。专利检索的特殊性在于其检索对象是专利文本,不同于传统的的信息检索任务,专利文本具有特殊性。专利文本的属性是多种多样的,如常见的ipc分类号、权利要求数、技术功效、法律状态、发明类型等等,这往往需要较为专业的人员才能合理利用这些数据;专利文本还具有集多种信息为一体、技术敏感化、学科范围广、地区范围覆盖广泛等特点,在构建专利检索模型的过程中要充分考虑专利文本的特性,模型的构建可以提高检索的效率,对科学研究、社会经济活动等提供重要的帮助,对于学科发展与科学技术的进步提供推动作用。

目前存在的主流专利检索方式,主要是以下几种:

(1)基于主题模型与语言模型的专利检索方法,首先要构建一个候选集,里面装的是初始查询查到的相关专利,然后基于语言模型与主题模型(LDA和DMR)对筛选出的候选专利进行排序,排序的依据是提出的权重评价标准;

(2)基于引用关系的专利检索方法,合理运用引用关系可以看出对象之间相互的关联,技术路线的发展脉络等,例如Fujii利用专利间的引用信息,在引用关系的基础上,计算专利文档间的相关关系,从而来扩大专利检索结果。Mahdabi和Crestani也从专利引用关系入手,构建专利引用网络,以该网络为基础提出了基于时间感知的Pagerank算法;

(3)基于查询扩展的专利检索方法,查询扩展是专利检索领域中最常用的方法,它主要用于解决初始查询模糊或不明确导致的查全率低的问题,例如,基于位置最近邻的查询扩展方法使用IPC描述作为扩展字典来扩展查询词,其主要思想是通过文本中候选词与查询词之间的距离来计算候选词与查询词之间的贴近度;

(4)基于本体的专利检索方法,基于本体建模的思想,将本体建模方法应用于专利信息本体的描述,通过建立专利检索信息关联本体,解决了专利信息数据库中同一概念的多个描述问题,然后,将专利信息本体、专利数据库中的实例和数据关联起来,结合本体的自组织演化过程和方法,实现专利检索信息的自组织优化和专利资源的排序。

但是,方式(1)和(2)很难覆盖所有相关的专利,原因有以下几点:[1]不同的申请人可能使用不同的术语来描述同一项技术,甚至专家也可能使用不同的术语;[2]申请专利时,有时希望保持低调,为了避免过多地关注自己的专利,他们往往会选择一些稀罕的词语来描述自己的技术;[3]一项不成熟的技术在发展过程中没有标准化,没有统一的名称;[4]在翻译过程中,不同国家的专利没有统一的标准;

方式(3)只处理专利文献的文本信息,但专利文献的内容远远多于文本,往往包含一些图纸、图表等非文本信息,但是,由于涉及的领域广泛,这部分信息目前无法处理,只能选择忽略,这些信息对于理解专利文献的内容也具有重要意义,而且由于ICPC分类方法过于复杂,有些专利分类不够彻底,偶尔会遇到无法分类或交叉分类的专利文档,而对训练集和分类算法的要求也很高,这都大大增加了纠正这些问题的难度;

方式(4)提出的领域本体快速构建方法依赖于现成的、完善的关系语料库,不过,专利数据涵盖了当今社会的各个行业,在各个领域都存在着很大的差异,找到每个领域对应的语料库几乎是不可能的任务,因此,探索一种合适的本体构建方法和各个领域的相互集成仍然是一项艰巨的任务。

发明内容

基于此,有必要针对上述技术问题,提供一种基于语义分析与关键词识别的检索方法和装置。

一种基于语义分析与关键词识别的检索方法,包括以下步骤:

获取搜索信息,所述搜索信息中包含有待检索关键词;在专利数据库中获取专利文本,根据Textrank算法对专利文本提取专利关键词,获取专利关键词数据集;通过Elmo动态词向量转换算法对所述专利关键词数据集进行向量转换,获取专利关键词向量集;通过层次分析法对专利文本的各指标信息确定相关权重,并根据所述待检索关键词从高权重到低权重对指标信息中的关键词进行匹配,获取匹配关键词向量集,所述指标信息包括:标题、摘要、首项权利要求和技术功效句;将所述匹配关键词向量集输入权重模型,计算出所述匹配关键词向量集对应的专利文本的权重值;根据所述专利文本的权重值进行TOP-K排序,形成检索结果并呈现。

在其中一个实施例中,所述根据Textrank算法对专利文本提取专利关键词,获取专利关键词数据集,具体包括:对所述专利文本进行切分并过滤掉停止词,获取候选关键词;构造一个候选关键词图G=(V,e),其中V为节点集,所述节点集由所述候选关键词组成;利用共现关系构造任意两节点之间的边;根据权重更新公式迭代更新各个节点的权重值,直至节点的权重值收敛至一个范围内时停止,即最后一次更新获得的权重值认定为该节点的权重值;对各个节点的权重值进行反序排序,排在预设次序内的节点对应的关键词即为重要关键词;将所述重要关键词在对应的专利文本中进行标注,并通过所述重要关键词构建专利关键词数据集。

在其中一个实施例中,所述权重更新公式为:

其中,V

在其中一个实施例中,所述通过Elmo动态词向量转换算法对所述专利关键词数据集进行向量转换,获取专利关键词向量集,具体包括:通过双层biLSTM结构构建词向量转换模型;在数据集中对所述词向量转换模型进行训练;将所述专利关键词数据集输入所述词向量转换模型,根据所述专利关键词输出对应的专利关键词的词向量,获取专利关键词向量集。

在其中一个实施例中,所述将所述专利关键词数据集输入所述词向量转换模型,根据所述专利关键词输出对应的专利关键词向量,获取专利关键词向量集,具体包括:给定一个句子,句子中包含有对应的关键词数据集;根据所述关键词数据集从静态的关键词向量表中查找对应关键词的词向量E(1),...,E(N),用于输入所述词向量转换模型,所述词向量转换模型包括有第一层前向LSTM、第一层后向LSTM、第二层前向LSTM和第二层后向LSTM;将关键词词向量E(1),...,E(N)分别输入第一层前向LSTM和第一层后LSTM,得到前向输出h(1,1,→),...,h(N,1,→),和后向输出h(1,1,←),...,h(N,1,←);将前向输出h(1,1,→),...,h(N,1,→)传入到第二层前向LSTM,得到第二层前向输出h(1,2,→),...,h(N,2,→);将后向输出h(1,1,←),...,h(N,1,←)传入到第二层后向LSTM,得到第二层后向输出h(1,2,←),...,h(N,2,←);则关键词i最终可以得到的词向量包括E(i)、h(N,1,→)、h(N,1,←)、h(N,2,→)和h(N,2,←)。

在其中一个实施例中,所述将所述匹配关键词向量集输入权重模型,计算出所述匹配关键词向量集对应的专利文本的权重值,具体包括:预设关键词相似度阈值U;将关键词检索到的次数记为n,并将x,y,z,h用来统计关键词相似度大于U的词汇数量;根据权重计算公式计算对应的关键词的权重值;所述权重计算公式为:

其中,w

一种基于语义分析与关键词识别的检索装置,包括:

信息获取模块,用于获取搜索信息,所述搜索信息中包含有待检索关键词;关键词提取模块,用于在专利数据库中获取专利文本,根据Textrank算法对专利文本提取专利关键词,获取专利关键词数据集;向量转换模块,用于通过Elmo动态词向量转换算法对所述专利关键词数据集进行向量转换,获取专利关键词向量集;关键词匹配模块,用于通过层次分析法对专利文本的各指标信息确定相关权重,并根据所述待检索关键词从高权重到低权重对指标信息中的关键词进行匹配,获取匹配关键词向量集,所述指标信息包括:标题、摘要、首项权利要求和技术功效句;权重计算模块,用于将所述匹配关键词向量集输入权重模型,计算出所述匹配关键词向量集对应的专利文本的权重值;文本排序模块,用于根据所述专利文本的权重值进行TOP-K排序,形成检索结果并呈现至用户端。

相比于现有技术,本发明的优点及有益效果在于:首先获取用户的搜索信息,搜索信息中包含有待检索关键词,在专利数据库中获取专利文本,根据Textrank算法对专利文本提取专利关键词,获取专利关键词数据集,通过Elmo动态词向量转换算法对所述专利关键词数据集进行向量转换,获取专利关键词向量集,通过层次分析法对专利文本的各指标信息确定相关权重,即判断标题、摘要、首项权利要求和技术功效句对应的权重,并根据权重值由高到低用于待检索关键词的匹配,获取匹配关键词向量集,将匹配关键词向量集输入权重模型,计算出匹配关键词向量集对应的专利文本相对于待检索关键词的权重值,根据权重值由高到低进行TOP-K排序,形成检索结果并呈现至用户端,能够扩大相关专利的覆盖面,对专利文本中的内容进行语义分析和关键词识别,从而提高检索结果的相关性。

附图说明

图1为一个实施例中一种基于语义分析与关键词识别的检索方法的流程示意图;

图2为一个实施例中词向量转换模型的结构示意图;

图3为一个实施例中一种基于语义分析与关键词识别的检索装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,下面通过具体实施方式结合附图对本发明做进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

在一个实施例中,如图1所示,提供了一种基于语义分析与关键词识别的检索方法,包括以下步骤:

步骤S101,获取搜索信息,搜索信息中包含有待检索关键词。

具体地,用户可以在网页或者应用中输入用于检索专利的搜索信息,搜索信息中包括有待检索关键词。

步骤S102,在专利数据库中获取专利文本,根据Textrank算法对专利文本提取专利关键词,获取专利关键词数据集。

具体地,在专利数据库中获取专利文本,该专利数据库可以是现有网站中的专利数据库或者经过汇编之后的高价值专利数据库,根据Textrank算法对专利文本提取专利关键词,获取专利关键词数据集。

其中,Textrank算法,即文本排序算法,用于为文本生成关键字和摘要。

步骤S103,通过Elmo动态词向量转换算法对专利关键词数据集进行向量转换,获取专利关键词向量集。

具体地,Elmo(Embeddings from Language Models,来自于语言模型的词向量表示)动态词向量转换算法,能够将上述获取的专利关键词数据集进行向量转化,获取对应的专利关键词向量集。

步骤S104,通过层次分析法对专利文本的各指标信息确定相关权重,并根据待检索关键词从高权重到低权重对指标信息中的关键词进行匹配,获取匹配关键词向量集,指标信息包括:标题、摘要、首项权利要求和技术功效句。

具体地,通过层次分析法确定专利文本中的标题、摘要、首项权利要求和技术功效句对该专利文本的相关权重;并根据待检索关键词从高权重到低权重对专利文本的标题、摘要、首项权利要求和技术功效句中存在的关键词进行匹配,获取匹配关键词向量集。

步骤S105,将匹配关键词向量集输入权重模型,计算出匹配关键词向量集对应的专利文本的权重值。

具体地,可以根据层次分析法构建权重模型,将匹配关键词向量集输入权重模型,计算出匹配关键词向量集对应的专利文本的权重值。

步骤S106,根据专利文本的权重值进行TOP-K排序,形成检索结果并呈现至用户端。

具体地,根据专利文本的权重值进行TOP-K排序,其中,K值可以根据用户需要对其进行设定,将排序后的专利文本作为检索结果,呈现至用户的检索页面。

在本实施例中,首先获取用户的搜索信息,搜索信息中包含有待检索关键词,在专利数据库中获取专利文本,根据Textrank算法对专利文本提取专利关键词,获取专利关键词数据集,通过Elmo动态词向量转换算法对所述专利关键词数据集进行向量转换,获取专利关键词向量集,通过层次分析法对专利文本的各指标信息确定相关权重,即判断标题、摘要、首项权利要求和技术功效句对应的权重,并根据权重值由高到低用于待检索关键词的匹配,获取匹配关键词向量集,将匹配关键词向量集输入权重模型,计算出匹配关键词向量集对应的专利文本相对于待检索关键词的权重值,根据权重值由高到低进行TOP-K排序,并将排序结果呈现出来,作为检索结果,能够提高相关专利的覆盖性,对专利文本中的内容进行语义分析和关键词识别,从而提高检索结果的相关性。

在一个实施例中,还可以通过构建专利知识图谱获取专利间的关系,进行查询拓展等。

其中,步骤S102具体包括:对专利文本进行切分并过滤掉停止词,获取候选关键词;构造一个候选关键词图G=(V,e),其中V为节点集,节点集由候选关键词组成;利用共现关系构造任意两节点之间的边;根据权重更新公式迭代更新各个节点的权重值,直至节点的权重值收敛至一个范围内时停止,即最后一次更新获得的权重值认定为该节点的权重值;对各个节点的权重值进行反序排序,排在预设次序内的节点对应的关键词即为重要关键词;将重要关键词在对应的专利文本中进行标注,并通过重要关键词构建专利关键词数据集。

具体地,当节点的权重值一直处在一个范围内进行波动时,即可将该范围认定为预设范围,此时停止对该节点的权重更新,将最后一次更新的权重值作为该节点的权重值。

其中,反序排列是指将权重值按照从大到小的顺序进行排序,排在预设顺序内的节点对应的关键词即为重要关键词,预设顺序可以根据实际需要进行设定,例如,可以设定前五,即获取节点权重值排序在前五的关键词作为重要关键词。

具体地,将重要关键词在专利文本中进行标注后,在将检索结果呈现至用户时,能够便于用于对专利文本进行查看,加快专利文件阅读速度。

其中,权重更新公式为:

其中,V

其中,步骤S103具体包括:通过双层biLSTM结构构建词向量转换模型;在数据集中对词向量装换模型进行训练;将专利关键词数据集输入词向量转换模型,根据专利关键词输出对应的专利关键词的词向量,获取专利关键词向量集。

如图2所示,为词向量转换模型的结构示意图,其中,10为前向语言模型(LSTM),20为后向语言模型(LSTM),T

具体地,biLSTM(bidirectional language model,双向语言模型)同时具有前向LSTM和后向LSTM,能够同时学习得到保存上文信息和下文信息的词向量。biLSTM中不同层得到的词向量侧重点不同,输入层采用的CNN-BIG-LSTM词向量可以比较好编码词性信息,第一层LSTM可以比较好编码句法信息,第二层LSTM可以比较好编码单词语义信息;通过多层词向量的融合得到最终词向量,最终词向量可以兼顾多种不同层次的信息。

其中,将专利关键词数据集输入所述词向量转换模型,根据专利关键词输出对应的专利关键词向量,获取专利关键词向量集,具体包括:给定一个句子,句子中包含有对应的关键词数据集;根据所述关键词数据集从静态的关键词向量表中查找对应关键词的词向量E(1),...,E(N),用于输入所述词向量转换模型,所述词向量转换模型包括有第一层前向LSTM、第一层后向LSTM、第二层前向LSTM和第二层后向LSTM;将关键词词向量E(1),...,E(N)分别输入第一层前向LSTM和第一层后LSTM,得到前向输出h(1,1,→),...,h(N,1,→),和后向输出h(1,1,←),...,h(N,1,←);将前向输出h(1,1,→),...,h(N,1,→)传入到第二层前向LSTM,得到第二层前向输出h(1,2,→),...,h(N,2,→);将后向输出h(1,1,←),...,h(N,1,←)传入到第二层后向LSTM,得到第二层后向输出h(1,2,←),...,h(N,2,←);则关键词i最终可以得到的词向量包括E(i)、h(N,1,→)、h(N,1,←)、h(N,2,→)和h(N,2,←)。

具体地,静态的关键词向量表可以通过静态词向量算法获取,例如Word2Vec(wordto vector,神经概率化语言模型)算法和Glove(潜在语义分析)算法。

具体地,如果采用L层的biLSTM则最终可以得到2L+1个词向量。

其中,步骤S105具体包括:预设关键词相似度阈值U;将关键词检索到的次数记为n,并将x、y、z和h用来统计关键词相似度大于U的词汇数量,根据权重计算公式计算对应关键词的权重值。

具体地,权重计算公式为:

其中,w

在一个实施例中,如图3所示,提供了一种基于语义分析与关键词识别的检索装置30,包括:信息获取模块31、关键词提取模块32、向量转换模块33、关键词匹配模块34、权重计算模块35和文本排序模块36,其中:

信息获取模块31,用于获取搜索信息,搜索信息中包含有待检索关键词;

关键词提取模块32,用于在专利数据库中获取专利文本,根据Textrank算法对专利文本提取专利关键词,获取专利关键词数据集;

向量转换模块33,用于通过Elmo动态词向量转换算法对所述专利关键词数据集进行向量转换,获取专利关键词向量集;

关键词匹配模块34,用于通过层次分析法对专利文本的各指标信息确定相关权重,并根据所述待检索关键词从高权重到低权重对指标信息中的关键词进行匹配,获取匹配关键词向量集,所述指标信息包括:标题、摘要、首项权利要求和技术功效句;

权重计算模块35,用于将所述匹配关键词向量集输入权重模型,计算出所述匹配关键词向量集对应的专利文本的权重值;

文本排序模块36,用于根据所述专利文本的权重值进行TOP-K排序,形成检索结果并呈现至用户端。

在一个实施例中,关键词提取模块32还用于:对专利文本进行切分并过滤掉停止词,获取候选关键词;构造一个候选关键词图G=(V,e),其中V为节点集,节点集由所述候选关键词组成;利用共现关系构造任意两节点之间的边;根据权重更新公式迭代更新各个节点的权重值,直至节点的权重值收敛至一个范围内时停止,即最后一次更新获得的权重值认定为该节点的权重值;对各个节点的权重值进行反序排序,排在预设次序内的节点对应的关键词即为重要关键词;将重要关键词在对应的专利文本中进行标注,并通过重要关键词构建专利关键词数据集。

在一个实施例中,向量转换模块33还用于:通过双层biLSTM结构构建词向量转换模型;在数据集中对所述词向量转换模型进行训练;将所述专利关键词数据集输入所述词向量转换模型,根据所述专利关键词输出对应的专利关键词的词向量,获取专利关键词向量集。

以上内容是结合具体的实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号