首页> 中国专利> 一种领域词汇的确定方法、装置、设备以及存储介质

一种领域词汇的确定方法、装置、设备以及存储介质

摘要

本申请公开了一种领域词汇的确定方法、装置、设备以及存储介质,涉及人工智能领域,尤其涉及大数据、自然语言处理和深度学习领域。具体实现方案为:从待分析文本中提取候选领域词,并确定所述候选领域词间的拓扑关系和权重系数;根据所述拓扑关系和权重系数,确定所述候选领域词间的目标词距离;根据所述候选领域词间的目标词距离和领域核心词,从所述候选领域词中选择目标领域词。为领域词汇的确定提供了一种新思路。

著录项

  • 公开/公告号CN112926319A

    专利类型发明专利

  • 公开/公告日2021-06-08

    原文格式PDF

  • 申请/专利权人 北京百度网讯科技有限公司;

    申请/专利号CN202110220287.9

  • 发明设计人 许顺楠;甘露;陈亮辉;罗程亮;

    申请日2021-02-26

  • 分类号G06F40/289(20200101);G06F40/284(20200101);

  • 代理机构11332 北京品源专利代理有限公司;

  • 代理人孟金喆

  • 地址 100085 北京市海淀区上地十街10号百度大厦2层

  • 入库时间 2023-06-19 11:19:16

说明书

技术领域

本申请涉及计算机技术领域,尤其涉及人工智能领域,具体涉及大数据、自然语言处理和深度学习领域。

背景技术

随着计算机技术的发展,各领域的新造词汇不断增加,给领域词汇的更新带来了极大的困难。目前,现有技术通常是基于词汇中相邻字间的信息熵的来预测词汇所属领域,很难精准且全面的预测领域词汇,尤其对于网络用语中的新造词汇,如脏脏包、马卡龙和慕斯等,基于相邻字间的信息熵很难预测出其属于甜品领域。亟需改进。

发明内容

本申请提供了一种领域词汇的确定方法、装置、设备以及存储介质。

根据本申请的第一方面,提供了一种领域词汇的确定方法,包括:

从待分析文本中提取候选领域词,并确定所述候选领域词间的拓扑关系和权重系数;

根据所述拓扑关系和权重系数,确定所述候选领域词间的目标词距离;

根据所述候选领域词间的目标词距离和领域核心词,从所述候选领域词中选择目标领域词。

根据本申请的第二方面,提供了一种领域词汇的确定装置,包括:

词汇提取分析模块,用于从待分析文本中提取候选领域词,并确定所述候选领域词间的拓扑关系和权重系数;

词距离确定模块,用于根据所述拓扑关系和权重系数,确定所述候选领域词间的目标词距离;

领域词筛选模块,用于根据所述候选领域词间的目标词距离和领域核心词,从所述候选领域词中选择目标领域词。

根据本申请的第三方面,提供了一种电子设备,该电子设备包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任一实施例所述的领域词汇的确定方法。

根据本申请的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行本申请任一实施例所述的领域词汇的确定方法。

根据本申请的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本申请任一实施例所述的领域词汇的确定方法。

本申请实施例的技术方案,为领域词汇的确定提供了一种新思路。

应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1是根据本申请实施例提供的一种领域词汇的确定方法的流程图;

图2A是根据本申请实施例提供的另一种领域词汇的确定方法的流程图;

图2B-2C是根据本申请实施例提供的候选领域词对应的无向图;

图3A是根据本申请实施例提供的另一种领域词汇的确定方法的流程图;

图3B是根据本申请实施例提供的候选领域词优化后的无向图;

图4A是根据本申请实施例提供的另一种领域词汇的确定方法的流程图;

图4B-4C是本申请实施例提供的候选领域词的聚类词集的示意图;

图5是根据本申请实施例提供的另一种领域词汇的确定方法的流程图;

图6是根据本申请实施例提供的另一种领域词汇的确定方法的流程图;

图7是根据本申请实施例提供的一种领域词汇的确定装置的结构示意图;

图8是用来实现本申请实施例的领域词汇确定方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请实施例提供的一种领域词汇的确定方法的流程图。本实施例适用于从文本中提取某个领域的领域词汇的情况。尤其适用于从网络用语对应的文本(如互联网中针对某一目标领域搜索词的搜索结果)中提取该领域的领域词汇的情况。该实施例可以由电子设备中配置的领域词汇的确定装置来执行,该装置可以采用软件和/或硬件来实现。如图1所示,该方法包括:

S101,从待分析文本中提取候选领域词,并确定候选领域词间的拓扑关系和权重系数。

其中,待分析文本可以是本申请实施例提取某一目标领域的词汇(即领域词)时所依据的文字内容。例如,可以是互联网上关于某一目标领域的搜索词对应的搜索结果,还可以是关于某领域产品的相关资料等。本申请实施例的待分析文本可以是一个文本,也可以是多个文本。优选的,本申请实施例的待分析文本为包含网络用语的相关文本。候选领域词可以是从待分析文本中提取出的可能属于某一目标领域的词汇。该候选领域词的数量为至少一个,且提取的候选领域词汇可能是某一目标领域的新词汇,也可能是该领域的已知词汇,还可能不是该领域的词汇(即误判为本领域的词汇)。候选领域词间的拓扑关系可以是指提取的各候选领域词之间的连接关系,如该连接关系包括有连接和无连接两种,对于有连接的情况,又进一步可以分为直接连接和间接连接。该连接关系可以表征各候选领域词之间的关联程度,如,关联程度高的两候选领域词之间具有连接关系;关联程度低的两候选领域词之间无连接关系。针对每个具有连接关系的两候选领域词都对应有一个权重系数,该权重系数表征一个候选领域词相对于另一个候选领域词的重要程度值。

可选的,本申请实施例中,候选领域词间的拓扑关系和权重系数可以是通过无向带权图的形式进行表征,例如,可以是将各候选领域词作为无向带权图中的一个节点,通过节点间的边关系(即连接关系)来表征候选领域词间的拓扑关系,通过边关系的数值来表征该边关系连接的两个候选领域词间的权重系数。还可以是通过表格形式表征候选领域词间的拓扑关系和权重系数,例如,在一个表格中记录具有连接关系的候选领域词组,以及各候选领域词组间的权重系数。还可以通过其他方式来表征,对此不进行限定。

可选的,本申请实施例从待分析文本中提取候选领域词的方式有很多,对此本实施例不进行限定,例如,可以是对待分析文本进行自然语言处理,提取其中包含的可能属于某一目标领域的词汇(即候选领域词汇);还可以是直接对待分析文本进行分词处理,并将得到的各分词作为候选领域词汇;也可以是基于预先设定的候选领域词提取格式,对待分析文本中的文字内容进行格式匹配,并将待分析文本中满足该格式的文字作为候选领域词。

可选的,本申请实施例中,候选领域词间的拓扑关系和权重系数可以根据候选领域词在待分析文本中的共现关系,和/或候选领域词间的相似程度来确定。具体的,方式一、根据共现关系来确定候选领域词间的拓扑关系和权重系数时,可以是为待分析文本中同时出现的两候选领域词之间建立直接连接关系,并根据这两个候选领域词的共现次数为两候选领域词确定权重系数。方式二、根据相似程度来确定候选领域词间的拓扑关系和权重系数时,可以是计算两两候选领域词之间的相似程度,若相似程度大于相似度阈值,则为两候选领域词之间建立连接关系,并将该相似程度作为两候选领域词间的权重系数。方式三、还可以同时考虑候选领域词在待分析文本中的共现次数以及候选领域词间的相似程度,来确定候选领域词间的拓扑关系和权重系数。如若上述方式一和方式二中任一方式确定(或两方式都确定)两候选领域词之间具有连接关系,则认为这两个候选领域词间具有连接关系,且将方式一和方式二确定的两个权重系数进行融合(如求和或者求均值等),得到最终的权重系数。需要说明的,本申请实施例中,候选领域词间的相似程度可以是候选领域词间的语义相似程度,和/或距离相似程度(如编辑距离)。

另外,还需要说明的是,本申请实施例只需按照上述方式为满足要求的两两候选领域词之间建立连接关系,即可实现确定各候选领域词间的拓扑关系。

S102,根据拓扑关系和权重系数,确定候选领域词间的目标词距离。

其中,本申请实施例中的目标词距离可以是通过候选领域词间的拓扑关系和权重系数计算的,用于表征候选领域词之间的相似性与差异性的参数,目标词距离对应的数值越大,则说明两候选领域词间的差异性越大。

可选的,本申请实施例确定候选领域词间的目标领域词距离时,不但要考虑候选领域词间的拓扑关系,还要考虑候选领域词间的权重系数,具体的,不同的拓扑关系对候选领域词间的目标词距离的影响是不同,例如,相比于有连接关系的候选领域词,无连接关系的候选领域词之间关联性相对较小,所以本步骤可以为无连接关系的候选领域词确定的目标词距离大于为有连接关系的候选领域词确定的目标词距离。对于有连接关系的候选领域词,相比于有直接连接关系的候选领域词,有间接连接关系的候选领域词之间关联性相对较小,所以本步骤可以为具有间接连接关系的候选领域词确定的目标词距离大于为有直接连接关系的候选领域词确定的目标词距离。不同的权重关系对候选领域词间的目标词距离的影响也不同,例如,两候选领域词间的权重关系值越高,说明两候选领域词间的关联性越大,即两候选领域词间的相似性越高,所以本步骤在根据权重关系确定候选领域词间的目标词距离时,可以是两候选领域词间的权重系数越高对应的这两个候选领域词间的目标词距离越小。

可选的,本申请实施例可以基于上述原理,预先设计关于拓扑关系和权重系数确定目标词距离的计算公式,此时本步骤可以将S101确定出的各候选领域词间的拓扑关系和权重系数对应的参数值输入到预先设计的公式中,即可得到候选领域词间的目标词距离。

S103,根据候选领域词间的目标词距离和领域核心词,从候选领域词中选择目标领域词。

其中,本申请实施例的领域核心词即为一个领域的词原,对于一个领域而言,其领域词汇可以基于领域核心词(即词原)来构建。所以领域核心词也属于该领域的词汇。本申请实施例中的领域核心词可以是从该领域的大量词汇中提取出来的,例如,针对甜品领域,属于该领域的领域词汇可以有:波波奶茶、巧克力奶茶、珍珠奶茶等,其中都包含词原“奶茶”,则此时可以是将“奶茶”作为甜品领域的一个领域核心词。本申请实施例中的目标领域词可以是从候选领域词中确定的属于某一目标领域的词汇。该目标领域词可能是该领域的已有词汇,也可能是该领域的新造词汇。

可选的,在本申请实施例中,根据候选领域词间的目标词距离和领域核心词,从候选领域词中选择目标领域词的方式有很多,对此本实施例不进行限定。例如,可以先查找候选领域词中的领域核心词,然后分析每个核心领域词与其他各候选领域词之间的目标词距离是否满足小于词距离阈值的条件,并将满足该条件的各候选领域词作为目标领域词。还可以是根据候选领域词间的目标词距离,对候选领域词进行聚类处理,如将目标词距离相差在一定范围的候选领域词聚类为一组(即得到一个聚类词集),然后判断每个聚类词集中包含的核心领域词的数量或占比是否达到数量阈值或占比阈值,若是,则将该组聚类结果中包含的各候选领域词作为目标领域词。也可以采用其他方式进行确定,对此本实施例不进行限定。

可选的,本申请实施例在从候选领域词中确定出目标领域词后,可以是基于该目标领域词更新该领域的领域词典,具体的,可以判断各目标领域词是否已记录到了该领域的领域词典中,若没有,则将其添加到该领域的领域词典中。

本申请实施例的方案,为待分析文本中提取的候选领域词确定拓扑关系和权重系数,基于该拓扑关系和权重系数确定候选领域词间的目标词距离,进而根据目标词距离和该领域的领域核心词来从候选领域词中筛选目标领域词。本申请实施例的方案,基于候选领域词间的拓扑关系和权重关系确定的词距离筛选领域词汇,相比于现有技术基于单个词汇的信息熵来确定领域词汇,本申请利用词汇间的关联关系,能够更准确且全面的筛选出候选领域中的领域词汇,对于本领域的新造词汇,也可以精准的筛选出来,为领域词汇的确定提供了一种新思路。

可选的,在本申请实施例中,待分析文本优选为包含网络用语的相关文本。考虑到互联网语言的结构特点,如网络语言通常包含话题标签词hashtag结构,该话题标签词通常表征是该段文字的核心内容。且该话题标签通常与预设词边界一同出现。例如,预设词边界可以包括:##、[]和【】等形式。所以本实施例在从待分析文本中提取候选领域词时,可以根据预设词边界,从待分析文本中提取话题标签词,作为候选领域词。具体的,可以是查找待分析文本中是否包含预设词边界,若包含,则获取预设词边界中包含的文字内容(即话题标签词)作为候选领域词。例如,若待分析文本为一条论坛的博文信息:#iphone 12#美国时间2020年6月20日,苹果公司发布新一代苹果手机。此时本实施例可以将词边界“##”中包含的内容“iphone 12”作为从该博文信息中提取的候选领域词。本实施例这样设置的好处是,结合了互联网语言的结构特点,利用词边界提取话题标签词作为候选领域词,在待分析文本的数量较多(如为针对某个搜索词的大量搜索结果)时,能够更快速准确的从待分析文本中提取出候选领域词。

图2A是根据本申请实施例提供的另一种领域词汇的确定方法的流程图;图2B-2C是根据本申请实施例提供的候选领域词对应的无向图。本实施例在上述实施例的基础上,给出了根据所述拓扑关系和权重系数,确定所述候选领域词间的目标词距离的具体情况介绍。如图2A-2C所示,该方法包括:

S201,从待分析文本中提取候选领域词,并确定候选领域词间的拓扑关系和权重系数。

S202,根据候选领域词间的拓扑关系和权重系数,确定候选领域词间的初始词距离。

其中,本申请实施例的初始词距离可以是为候选领域词确定的初始的词距离,而目标词距离可以是对初始领域词进行优化后,为候选领域词确定的最终的词距离。

可选的,本申请实施例在初次为候选领域词确定词距离,即初始词距离时,可以是根据候选领域词间的拓扑关系,确定每个候选领域词直接连接的候选领域词集合,然后根据候选领域词间的权重系数,以及各候选领域词直接连接的候选领域词集合,按照如下公式(1),来计算候选领域词间的初始词距离。

其中,d(u,v)为候选领域词u和候选领域词v间的初始词距离;w(,)候选领域词间的权重系数,例如,w(u,x)为候选领域词u和候选领域词x间的权重系数;Γ()为候选领域词直接连接的候选领域词集合,例如,Γ(u)为候选领域词u直接连接的候选领域词集合。

S203,根据候选领域词间的初始词距离和拓扑关系,确定候选领域词间的距离影响值。

其中,距离影响值可以是针对不同拓扑关系中候选领域词间的相互作用,确定的影响候选领域词间词距离的因素值。本申请实施例中考虑的拓扑关系包括:两候选领域词直接连接的情况、两候选领域词通过第三候选领域词连接的情况,以及两候选领域词无连接关系的情况。可选的,在本申请实施例中,不同拓扑关系对应的距离影响值的确定方式不同。本步骤可以是针对每种拓扑关系对应的候选领域词间的相互作用,构建不同的函数来衡量该相互作用对距离的影响程度,从而实现对候选领域词间的词距离在初始词距离的基础上进行微调,得到最终的目标词距离。

具体的,情况一、针对拓扑关系为直接连接关系的两候选领域词,如候选领域词u和候选领域词v。它们的紧密程度显然是比间接连接关系或无直接连接关系的两候选领域词的紧密程度更大,对应的,它们之间的词距离也应该调整到更小。因此可以通过下述方式来量化此种作用对候选领域词之间距离影响值。即可以根据每个候选领域词直接连接的候选领域词数量,和两候选领域词间的初始词距离,按照如下公式(2)确定两候选领域词间的距离影响值。

其中,DI为直接连接关系的候选领域词间的距离影响值;f()为预设的耦合函数,例如,可以为三角函数sin();d()为候选领域词间的初始词距离,例如,d(u,v)为候选领域词u和候选领域词v间的初始词距离;deg()为候选领域词直接连接的候选领域词数量,例如deg(u)为候选领域词u直接连接的候选领域词数量。其中,参数deg()主要是为了进行归一化,避免候选领域词u和候选领域词v直接连接的候选领域词数量不同,对距离影响值DI的确定造成干扰。

情况二、针对拓扑关系为间接连接关系,即通过第三候选领域词连接的两候选领域词,如候选领域词u和候选领域词v。它们之间的紧密程度显然比无连接关系的两候选领域词的紧密程度更大,但没有直接连接关系的两候选领域词的紧密程度大,它们之间的词距离应该比直接连接关系的两候选领域词的词距离调节程度小,但是大于无连接关系的两候选领域词汇的词距离调节程度。因此可以通过下述方式来量化此种作用对候选领域词之间距离影响值。即可以根据每个候选领域词直接连接的候选领域词数量,以及每个候选领域词与第三候选领域词间的初始词距离,按照如下公式(3)确定两候选领域词间的距离影响值。

其中,CI为通过第三候选领域词连接的两候选领域词间的距离影响值;f()为预设的耦合函数,d()为候选领域词间的初始词距离;deg()为候选领域词直接连接的候选领域词数量;CN即公共邻居节点common neighbor,其表征候选领域词u和候选领域词u共同的连接的第三候选领域词。

情况三、针对拓扑关系为无连接关系的两候选领域词,如候选领域词u和候选领域词v。它们之间的紧密程度较低,如果与候选领域词u直接连接的候选领域词x与候选领域词v的相似度较高,那么候选领域词x与候选领域词v的紧密程度较高,此时候选领域词u和候选领域词v之间的词距离也应该适当的减小,因此可以通过下述方式来量化此种作用对候选领域词之间距离影响值。即先根据预设凝聚度参数,以及每个候选领域词与其直接连接的候选领域词间的初始距离,按照下述公式(4)和(5)确定每个候选领域词的调节系数;再根据每个候选领域词的调节系数、每个候选领域词直接连接的候选领域词数量,以及每个候选领域词与其直接连接的候选领域词间的初始距离,按照下述公式(6)确定所述两候选领域词间的距离影响值。

其中,EI为无连接关系的两候选领域词间的距离影响值;f()为预设的耦合函数,d()为候选领域词间的初始词距离;deg()为候选领域词直接连接的候选领域词数量;EN1为候选领域词u区别于候选领域词v的直接连接的候选领域词集合;EN2为候选领域词v区别于候选领域词u的直接连接的候选领域词集合;ρ(,)为候选领域词对应的调节系数,例如,ρ(x,u)为候选领域词u对应候选领域词x的调节系数。λ为预设凝聚度参数,通过调整λ可以改变距离变化的强度,从而调节目标词距离的紧密度。

S204,根据候选领域词间的距离影响值和初始词距离,确定候选领域词间的目标词距离。

可选的,本步骤可以是基于下述公式(7),对两两候选领域词在上述介绍的三种情况下对应的距离影响值,以及这两个候选领域词间的初始词距离进行求和处理,得到这两个候选领域词间的目标词距离。

d(u,v)′=d(u,v)+DI+CI+EI; (7)

其中,d(u,v)′为候选领域词间的目标词距离,d(u,v)为这两个候选领域词间的初始词距离;DI、CI和EI分别为三种不同拓扑关系对应的距离影响值。

示例性的,图2B示出的候选领域词对应的无向图中,两两候选领域词的边关系上标注的数值为通过S202计算出的这两个候选领域词间的初始词距离;例如,词1和词2之间的初始词距离为0.79。图2C示出的候选领域词对应的无向图中,两两候选领域词的边关系上标注的数值为通过S203-S204计算出的这两个候选领域词间的目标词距离,例如,词1和词2之间的目标词距离为0.3。本申请实施例通过考虑不同领域词之间的相互作用,对初始确定的词距离进行微调,提高了候选领域词间的词距离的精准性。

S205,根据候选领域词间的目标词距离和领域核心词,从候选领域词中选择目标领域词。

本申请实施例的技术方案,为待分析文本中提取的候选领域词确定拓扑关系和权重系数,基于该拓扑关系和权重系数确定候选领域词间的初始词距离,根据初始词距离和拓扑关系确定候选领域词间的距离影响因素,进而基于该距离影响因素更新候选领域词间的词距离,并根据更新后的词距离(即目标词距离)和该领域的领域核心词来从候选领域词中筛选目标领域词。本申请实施例的方案,先初步确定候选领域词间的初始词距离,然后在考虑不同拓扑关系下候选领域词间的影响因素,来更新候选领域词间的词距离,保证词距离确定的精准性,为后续基于该词距离精准且全面筛选领域词汇提供了保障。

图3A是根据本申请实施例提供的另一种领域词汇的确定方法的流程图;图3B是根据本申请实施例提供的候选领域词优化后的无向图。本实施例在上述实施例的基础上,对确定候选领域词间的目标词距离的过程进行了进一步的优化,如图3A-3B所示,该方法包括:

S301,从待分析文本中提取候选领域词,并确定候选领域词间的拓扑关系和权重系数。

S302,根据候选领域词间的拓扑关系和权重系数,确定候选领域词间的初始词距离。

S303,根据候选领域词间的初始词距离和拓扑关系,确定候选领域词间的距离影响值。

S304,根据候选领域词间的距离影响值和初始词距离,确定候选领域词间的目标词距离。

S305,判断候选领域词间的目标词距离是否满足基准词距离,若否,则执行S306,若是,则执行S307。

其中,基准词距离可以是预先设置好的两个作为词距离基准的数值,即一个最大词距离基准和一个最小词距离基准,例如,可以是0和1。

可选的,本步骤可以是判断S304确定的各候选领域词间的目标词距离是否为预设的基准词距离,如0或者1,若是,则说明该目标词距离满足基准要求,可以基于该目标词距离继续执行后续S307的操作。否则说明该目标词距离还不满足基准要求,需要执行S306的操作继续对目标词距离进行优化更新,直到其满足基准词距离为止。

S306,将目标词距离作为候选领域词间的初始词距离。

可选的,在本实施例中,若S304确定的候选领域词间的目标词距离不满足基准词距离,则将S304本次确定的目标词距离作为下一次候选领域词间的初始词距离,然后返回重新执行S303-S305的操作,即根据下一次的候选领域词间的初始词距离和拓扑关系,确定下一次的候选领域词间的距离影响值,进而根据下一次的候选领域词间的距离影响值和下一次的初始词距离,确定下一次的候选领域词间的目标词距离,若下一次的候选领域词间的目标词距离满足基准词距离,则基于下一次的候选领域词间的目标词距离执行后续S307的操作,否则将下一次的候选领域词间的目标词距离作为下下次的候选领域词间的初始词距离,按照上述类似的方法返回S303-S305重新确定下下次的候选领域词间的目标词距离。

需要说明的是,本申请实施例可以是通过多次调节候选领域词间的词距离,来确定候选领域词间的目标词距离。具体的,在执行S304的操作时,可以基于公式d(u,v,t+1)=d(u,v,t)+DI(t)+CI(t)+EI(t);来对目标词距离进行迭代更新。其中,t为对目标词距离的调节次数,即执行S302确定初始词距离时,t=0,第一次执行S303-S305对初始词距离进行第一次微调后得到的目标词距离为t=1时对应的词距离。每微调一次,两候选领域词间的词距离就会变化一次,两候选领域词间的距离变化主要由它们是否直接连接、是否有公共且直接连接的候选领域词或是否有唯一且直接连接的候选领域词来决定。

示例性的,通过本申请实施例多次逐步对候选领域词间的词距离进行微调,可以使得相似度较高的候选领域词间的词距离逐渐趋近于0,相似度较低的候选领域词间的词距离逐渐趋近于1,图3B所示的候选领域词的无向图就是对图2A或2B所示的无向图进行多次词距离微调,优化后的无向图,图3B中各候选领域词间的词距离已经满足不是0就是1的基准词距离条件,此时可以认为目标词距离确定的操作已经完成,可以基于该目标词距离执行后续从候选领域词中选择目标领域词的操作。

S307,根据候选领域词间的目标词距离和领域核心词,从候选领域词中选择目标领域词。

本申请实施例的方案,为待分析文本中提取的候选领域词确定拓扑关系和权重系数,基于该拓扑关系和权重系数确定候选领域词间的初始词距离,根据初始词距离,结合候选领域词间的拓扑关系对距离的影响因素,通过多次迭代操作来不断调整目标词距离,直到目标词距离满足基准词距离,进而根据最终的目标词距离和该领域的领域核心词来从候选领域词中筛选目标领域词。本申请实施例的方案,考虑候选领域词间的拓扑关系对距离的影响因素,通过多次迭代将候选领域词间的词距离调整到基准数值,如0或1,标准的词距离更便于后续精准且快速的提取目标领域词汇,例如在通过对候选领域词进行聚类来确定目标领域词时,基准数值的词距离便于更块且精准的对候选领域词进行聚类。

图4A是根据本申请实施例提供的另一种领域词汇的确定方法的流程图;图4B-4C是本申请实施例提供的候选领域词的聚类词集的示意图。本实施例在上述实施例的基础上,给出了根据所述候选领域词间的目标词距离和领域核心词,从所述候选领域词中选择目标领域词的具体情况介绍。如图4A-4C所示,该方法包括:

S401,从待分析文本中提取候选领域词,并确定候选领域词间的拓扑关系和权重系数。

S402,根据拓扑关系和权重系数,确定候选领域词间的目标词距离。

S403,根据候选领域词间的目标词距离,对候选领域词进行聚类,得到至少一个聚类词集。

可选的,在本申请实施例中,根据候选领域词间的目标词距离,将相互之间目标词距离相似的各候选领域词聚类到一起,即得到至少一个聚类词集。优选的,本实施例在对候选领域词进行聚类时,采用的聚类算法可以是异常检测的社区探测算法,以将不同候选领域词聚类成不同的社区,每个社区即为一个聚类词集。示例性的,如图4B-4C所示,可以将相互之间目标词距离较小的各候选领域词聚为一类,即将词1、词2和词3作为聚类词集S1;将词4和词5作为聚类词集S2;将词6单独作为聚类词集S3。

S404,根据至少一个聚类词集中包含的领域核心词的数量,确定至少一个聚类词集关联的领域合并词集。

其中,领域合并词集是至少一个聚类词集中满足领域核心词的数量要求的聚类词集进行合并得到的。

在本申请实施例中,领域核心词的数量要求可以是聚类词集中包含的领域核心词的数量达到预设数量值,还可以是聚类词集中包含的领域核心词在该聚类词集的词汇占比大于预设比例值(如20%)等。本申请实施例可以是针对S403聚类得到每个聚类词集,判断其中包含的核心领域词的数量是否满足领域词的数量要求,若满足,则将该聚类词集中的各候选领域词添加到领域合并词集中,即将满足领域词的数量要求的各聚类词集进行合并,得到领域合并词集。

示例性的,假设领域核心词的数量要求是聚类词集中包含的领域核心词在该聚类词集的词汇占比大于20%,且图4B和图4C中的词1和词4为领域核心词,则此时聚类词集S1和聚类词集S2中领域核心词占比都达到了20%,可以将聚类词集S1和聚类词集S2进行合并,得到领域合并词集,即该领域合并词集中包括词1-词5。

S405,将领域合并词集输入到领域分类器中,得到目标领域词。

其中,领域分类器可以是预先基于大量的样本数据,训练好的用于判断一个词汇是否属于某一目标领域的神经网络模型。该领域分类器可以基于HAN(HierarchicalAttention Networks for classification)、WordCNN、DPCNN、Bi-GRU或BERT等网络模型构建。

可选的,在本申请实施例中,可以将S404对聚类词集合并得到的领域合并词集中的各候选领域词输入到预先训练好的领域分类器中,该领域分类器就会基于训练时的算法对输入的各候选领域词进行是否属于某一目标领域的分析,并输出该候选领域词是否属于该目标领域的标签标注结果。例如,若该候选领域词属于该目标领域,则该候选领域词的标注标签为1,否则为0。本申请实施例可以将标注标签为1的各候选领域词作为目标领域词。

可选的,在本申请实施例中,为了防止目标领域词被遗漏,还可以是对领域分类器输出的标签为0的各候选领域词,通过人工方式进行复核,判断标签为0的各候选领域词中是否存在遗漏掉的目标领域词汇。优选的,可以是每隔一段时间,执行一次人工复核的操作,将遗漏掉的属于目标领域的候选领域词添加到目标领域词中。

本申请实施例的方案,为待分析文本中提取的候选领域词确定拓扑关系和权重系数,基于该拓扑关系和权重系数确定候选领域词间的目标词距离,根据目标词距离和领域词核心词对候选领域词进行聚类及合并处理,进而再采用领域分类器对合并结果进行分析,确定目标领域词。本申请实施例的方案,通过聚类、合并处理能够尽可能实现初步对目标领域词的筛选,然后再引入领域分类器精准对目标领域词进行筛选,极大的提高了目标领域词确定的准确性。

可选的,本申请上述实施例是基于聚类词集中包含的领域核心词的数量确定领域合并词集,但是考虑到有些新造领域词汇比较特殊,其可能被单独聚类到一个聚类词集,如图4B和4C中的聚类词集S3。为了避免这类新造领域词汇被遗漏,本申请实施例在确定领域合并词集时,可以在上述实施例基于聚类词集中包含的领域核心词的数量确定领域合并词集的基础上,判断S403得到的各聚类词集中是否存在仅包含一个候选领域词的聚类词集,若存在,则将该聚类词集中包含的候选领域词添加到领域合并词集中。这样设置的好处是保证领域合并词集中尽可能涵盖所有可能属于目标领域的候选领域词,为后续全面提取候选领域词中的目标领域词提供了保障。

图5是根据本申请实施例提供的另一种领域词汇的确定方法的流程图。本实施例在上述实施例的基础上,给出了确定候选领域词间的拓扑关系的具体情况介绍。如图5所示,该方法包括:

S501,从待分析文本中提取候选领域词。.

S502,确定候选领域词间的拓扑关系和权重系数。

优选的,本申请实施例可以根据候选领域词在待分析文本中的共现关系,确定候选领域词间的拓扑关系。根据候选领域词间的相似度和/或共现次数特征,确定候选领域词间的权重系数。其中,该相似度包括语义相似度特征和/或距离相似度。

S503,根据候选领域词间的拓扑关系和权重系数,确定候选领域词间的初始词距离。

可选的,本步骤根据候选领域词间的拓扑关系和权重系数,确定候选领域词间的初始词距离的过程与上述实施例S202介绍的具体实现方式一样,基于公式(1)来确定候选领域词间的初始词距离。在此不进行赘述。

S504,根据初始词距离和词距离阈值,更新候选领域词间的拓扑关系。

其中,词距离阈值可以是预先设置的,用于衡量是否保留候选领域词间的直接连接关系的判断基准。

可选的,本申请实施例可以是针对S502确定的候选领域词间的拓扑关系,分析具有直接连接关系的各组候选领域词(即两两具有直接连接关系的候选领域词),判断S503计算的这两个候选领域词的初始词距离是否大于词距离阈值(如0.8),若是,则说明这两个候选领域词的差异性较大,即这两个候选领域词之间不应该建立直接连接关系,需要将该直接连接关系在拓扑关系中删除,否则在拓扑关系中保留这两个候选领域词间的直接连接关系。

S505,根据候选领域词间的权重系数和更新后的拓扑关系,确定候选领域词间的目标词距离。

S506,根据候选领域词间的目标词距离和领域核心词,从候选领域词中选择目标领域词。

本申请实施例的技术方案,为待分析文本中提取的候选领域词确定拓扑关系和权重系数后,根据该拓扑关系和权重系数确定候选领域词间的初始词距离,并基于该初始词距离和词距离阈值对确定的拓扑关系进行更新,再基于更新后的拓扑关系和权重系数确定候选领域词间的目标词距离,进而根据目标词距离和该领域的领域核心词来从候选领域词中筛选目标领域词。本申请实施例的方案在初步确定候选领域词间的拓扑关系后,还需要通过候选领域词间的初始词距离对候选领域词间的拓扑关系进行优化,保证拓扑关系的精准性,为候选基于该拓扑关系提取目标领域词提供了保障。

图6是根据本申请实施例提供的另一种领域词汇的确定方法的流程图。本实施例在上述实施例的基础上,给出了将互联网搜索结果作为待分析文本,来确定目标领域词的优选施例介绍,如图6所示,该方法包括:

S601,根据已知领域词和辅助搜索词,确定领域搜索词。

其中,本申请实施例的已知领域词可以是某一目标领域中,当前已知的领域词,如可以是该目标领域的领域词典中已包含的领域词。还可以是从互联网中爬取的该目标领域的领域词,和/或从所爬取的领域词中提取的领域核心词。可选的,从互联网中爬取目标领域的领域词的过程可以是通过爬虫或其他方式从互联网中获取属于目标领域的领域词。具体的,可以从应用程序提供的产品或服务中爬取,还可以从搜索日志中的关键词中收集等。例如,针对甜品领域,可以从大众点评、美团等应用程序上爬取面包店、甜品店的产品名称集合,作为甜品领域的领域词,即甜品领域的已知领域词。针对医疗领域,可以从搜索日志的关键词中去收集,如关键词“新冠”与“疫苗”和“非典”等医疗领域的词汇共现次数比较多,则将“新冠”作为医疗领域的领域词,即医疗领域的已知领域词。从所爬取的领域词中提取领域核心词的过程可以是针对爬取的领域词,采用快速自动关键字提取RAKE算法,从爬取的领域词中提取目标领域的核心词,例如,若爬取的领域词为“奶茶波波葡萄干”,则采用RAKE算法从该领域词中提取的领域核心词可以为“奶茶”和“葡萄干”。可选的,本申请实施例可以在明确了想要确定的词汇领域后,可以按照上述介绍的方法,先收集该领域下的已知领域词。

本申请实施例中的辅助搜索词可以是与已知领域词所属领域无关,仅用于辅助搜索的词汇。例如,可以是当前网络中的热门关键词,如“网红”和“人气”等。

可选的,本申请实施例可以是将已知领域词和辅助搜索词按照一定的方式进行组合,如将辅助搜索词作为已知领域词的前缀,生成包含辅助搜索词和已知领域词的领域搜索词。例如,若已知领域词为“奶茶”,辅助搜索词为“网红”,则可以将“网红奶茶”作为本实施例的甜品领域的领域搜索词。

S602,将领域搜索词关联的搜索结果作为待分析文本。

可选的,本申请实施例可以将S601确定的领域搜索词输入到互联网搜索引擎(如百度搜索引擎),或者应用程序(如微博)的搜索功能栏中,然后将互联网搜索引擎或应用程序给出的至少一个搜索结果作为待分析文本。

S603,从待分析文本中提取候选领域词,并确定候选领域词间的拓扑关系和权重系数。

优选的,本申请实施例可以根据预设词边界,从待分析文本,即各搜索结果中提取话题标签词,作为候选领域词,然后根据候选领域词在各搜索结果中共现关系和/或各候选领域词间的相似度关系,来确定候选领域词间的拓扑关系和权重系数。

S604,根据拓扑关系和权重系数,确定候选领域词间的目标词距离。

S605,根据候选领域词间的目标词距离和领域核心词,从候选领域词中选择目标领域词。

本申请实施例的方案,根据已知领域词和辅助领域词确定领域搜索词,以该领域搜索词关联的搜索结果为待分析文本,提取候选领域词,并确定候选领域词间的拓扑关系和权重系数,基于该拓扑关系和权重系数确定候选领域词间的目标词距离,进而根据目标词距离和该领域的领域核心词来从候选领域词中筛选目标领域词。本申请实施例的方案,根据已知领域词和辅助领域词,搜索相关文本来提取候选领域词,尽可能的保证提取的候选领域词属于目标领域,且提取的候选领域词更为全面,为后续确定出更多的目标领域词提供了保障。

图7是根据本申请实施例提供的一种领域词汇的确定装置的结构示意图,本实施例适用于从文本中提取某个领域的领域词汇的情况。尤其适用于从网络用语对应的文本(如互联网中针对某一目标领域搜索词的搜索结果)中提取该领域的领域词汇的情况。该装置可实现本申请任意实施例所述的领域词汇的确定方法。该装置700具体包括如下:

词汇提取分析模块701,用于从待分析文本中提取候选领域词,并确定所述候选领域词间的拓扑关系和权重系数;

词距离确定模块702,用于根据所述拓扑关系和权重系数,确定所述候选领域词间的目标词距离;

领域词筛选模块703,用于根据所述候选领域词间的目标词距离和领域核心词,从所述候选领域词中选择目标领域词。

本申请实施例的方案,为待分析文本中提取的候选领域词确定拓扑关系和权重系数,基于该拓扑关系和权重系数确定候选领域词间的目标词距离,进而根据目标词距离和该领域的领域核心词来从候选领域词中筛选目标领域词。本申请实施例的方案,基于候选领域词间的拓扑关系和权重关系确定的词距离筛选领域词汇,相比于现有技术基于单个词汇的信息熵来确定领域词汇,本申请利用词汇间的关联关系,能够更准确且全面的筛选出候选领域中的领域词汇,对于本领域的新造词汇,也可以精准的筛选出来,为领域词汇的确定提供了一种新思路

进一步的,所述词距离确定模块702包括:

初始距离确定单元,用于根据所述候选领域词间的拓扑关系和权重系数,确定所述候选领域词间的初始词距离;

影响值确定单元,用于根据所述候选领域词间的初始词距离和所述拓扑关系,确定所述候选领域词间的距离影响值;

目标距离确定单元,用于根据所述候选领域词间的距离影响值和所述初始词距离,确定所述候选领域词间的目标词距离。

进一步的,若两候选领域词直接连接,则所述影响值确定单元用于:

根据每个候选领域词直接连接的候选领域词数量,和所述两候选领域词间的初始词距离,确定所述两候选领域词间的距离影响值。

进一步的,若两候选领域词通过第三候选领域词连接,则所述影响值确定单元用于:

根据每个候选领域词直接连接的候选领域词数量,以及每个候选领域词与所述第三候选领域词间的初始词距离,确定所述两候选领域词间的距离影响值。

进一步的,若两候选领域词无连接关系,则所述影响值确定单元用于:

根据预设凝聚度参数,以及每个候选领域词与其直接连接的候选领域词间的初始距离,确定每个候选领域词的调节系数;

根据每个候选领域词的调节系数、每个候选领域词直接连接的候选领域词数量,以及每个候选领域词与其直接连接的候选领域词间的初始距离,确定所述两候选领域词间的距离影响值。

进一步的,所述词距离确定模块702还用于:

若所述候选领域词间的目标词距离不满足基准词距离,则将所述目标词距离作为所述候选领域词间的初始词距离,重新确定所述候选领域词间的目标词距离。

进一步的,所述领域词筛选模块703用于:

根据所述候选领域词间的目标词距离,对所述候选领域词进行聚类,得到至少一个聚类词集;

根据所述至少一个聚类词集中包含的领域核心词的数量,确定至少一个聚类词集关联的领域合并词集;

将所述领域合并词集输入到领域分类器中,得到目标领域词。

进一步的,所述领域词筛选模块703还用于:

若存在包含一个候选领域词的聚类词集,则将所述聚类词集中包含的候选领域词添加到所述领域合并词集中。

进一步的,所述词汇提取分析模块701包括:

词汇提取单元,用于根据预设词边界,从待分析文本中提取话题标签词,作为候选领域词。

进一步的,所述装置还包括

拓扑关系更新模块,用于根据所述候选领域词间的拓扑关系和权重系数,确定所述候选领域词间的初始词距离;根据所述初始词距离和词距离阈值,更新所述候选领域词间的拓扑关系。

进一步的,所述装置,还包括:

搜索词确定模块,用于根据已知领域词和辅助搜索词,确定领域搜索词;

待分析文本确定模块,用于将所述领域搜索词关联的搜索结果作为所述待分析文本。

上述产品可执行本申请任意实施例所提供的方法,具备执行方法相应的功能模块和有益效果。

根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本申请的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如领域词汇的确定方法。例如,在一些实施例中,领域词汇的确定方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的领域词汇的确定方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行领域词汇的确定方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号