首页> 中国专利> 基于加权正负规则前件与相关反馈的跨语言查询扩展方法

基于加权正负规则前件与相关反馈的跨语言查询扩展方法

摘要

一种基于加权正负规则前件与相关反馈的跨语言查询扩展方法,先使用翻译工具将源语言查询翻译为目标语言查询,对目标语言文档进行检索得到初检文档,提取前列初检文档经用户相关性判断后构建目标语言初检相关文档集;再采用面向跨语言查询扩展的加权正负关联模式挖掘技术对初检相关文档集挖掘含有查询词项的特征词加权正负关联规则模式,构建特征词正负关联规则库;从规则库中提取其规则后件是查询词项的加权正负关联规则模式,将正关联规则前件特征词作为正扩展词,负关联规则前件作为负扩展词,正扩展词中去除负扩展词后得到最终前件扩展词实现跨语言查询译后前件扩展。本发明能提高和改善跨语言信息检索性能,有较好的应用价值和推广前景。

著录项

  • 公开/公告号CN107609095A

    专利类型发明专利

  • 公开/公告日2018-01-19

    原文格式PDF

  • 申请/专利权人 广西财经学院;

    申请/专利号CN201710807540.4

  • 发明设计人 黄名选;

    申请日2017-09-08

  • 分类号G06F17/30(20060101);

  • 代理机构45106 广西南宁明智专利商标代理有限责任公司;

  • 代理人黎明天

  • 地址 530003 广西壮族自治区南宁市西乡塘区明秀西路100号

  • 入库时间 2023-06-19 04:21:55

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-07-09

    授权

    授权

  • 2018-02-13

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20170908

    实质审查的生效

  • 2018-01-19

    公开

    公开

说明书

技术领域

本发明属于互联网信息检索领域,具体是一种基于加权正负规则前件与相关反馈的跨语言查询扩展方法,适合于跨语言信息检索领域。

背景技术

跨语言信息检索(Cross-Language Information Retrieval,CLIR)指的是以一种语言的查询式检索其他语言信息资源的技术,其表达用户查询的语言称为源语言(SourceLanguage),被检索的文档所用的语言称为目标语言(Target Language)。跨语言查询扩展技术是一种能改善和提高跨语言检索性能的核心技术之一,其旨在解决跨语言信息检索领域长期困扰的、严重的查询主题漂移和词不匹配等问题。跨语言查询扩展按照其扩展发生在检索过程的不同阶段,分为译前查询扩展、译后查询扩展和混合式查询扩展(即同时发生在译前与译后的查询扩展)三种。随着跨语言信息检索研究的兴起,跨语言查询扩展越来越受到国内外学者的关注和讨论,成为一个研究热点。

跨语言信息检索是信息检索与机器翻译结合的技术,比单语言检索更为复杂,面临的问题比单语言检索更为严重。这些问题一直是制约跨语言信息检索技术发展的瓶颈,也是当前国际上急需解决的跨语言信息检索中普遍存在的难题,主要表现为:查询主题严重漂移、词不匹配以及查询项翻译歧义和多义性,等等。跨语言查询扩展是解决上述问题的核心技术之一。近10年来,跨语言查询扩展模型与算法得到了广泛关注和深入研究,取得了丰富的理论成果,但还没有最终完全解决上述问题。

发明内容

本发明将加权正负关联模式挖掘应用于跨语言查询译后扩展,提出了基于加权正负规则前件与相关反馈的跨语言查询扩展方法,应用于跨语言信息检索领域,能解决跨语言信息检索中长期存在的查询主题漂移和词不匹配问题,提高跨语言信息检索性能,也可以应用于跨语言搜索引擎,提高搜索引擎的查全率和查准率等检索性能。

本发明采取的技术方案是:

1.一种基于加权正负规则前件与相关反馈的跨语言查询扩展方法,其特征在于,包括如下步骤:

1.1使用机器翻译系统将源语言查询翻译为目标语言查询;

1.2目标语言查询检索目标语言原始文档集得到目标语言初检文档;

1.3构建目标语言初检相关文档集:即将前列n篇目标语言初检文档进行用户相关性判断得到初检相关文档,由此构建目标语言初检相关文档集;

1.4对目标语言初检相关文档集挖掘含有原查询词项的加权频繁项集和负项集;

具体步骤:

1.4.1对目标语言初检相关文档集进行预处理,构建文档索引库和总特征词库;

1.4.2挖掘频繁1_项集L1

即从总的特征词库得到特征词候选1_项集C1,计算1_项集C1的支持度awSup(C1),如果awSup(C1)≥支持度阈值ms,则候选1_项集C1为频繁1_项集L1,并将L1添加到加权频繁项集集合PIS;所述的awSup(C1)计算公式如式(1)所示:

其中,n和W为分别目标语言初检相关文档集中文档总篇数和所有特征词权值的总和,为C1在目标语言初检相关文档集中出现的频度,为C1在目标语言初检相关文档集中的项集权值,β∈(0,1)为调节系数,其值不能取0或1;

1.4.3挖掘含有查询词项的频繁k_项集Lk和负k_项集Nk,所述的k≥2

具体步骤:

(1)挖掘候选k_项集Ck:通过频繁(k-1)_项集Lk-1进行Aproiri连接而得到;

(2)当k=2时,剪除不含查询词项的候选2_项集C2,保留含有查询词项的候选2_项集C2

(3)计算候选k_项集Ck的支持度awSup(Ck):

如果awSup(Ck)≥支持度阈值ms,再计算Ck的加权频繁项集关联度awPIR(Ck),若awPIR(Ck)≥频繁项集关联度阈值minPR,则k_候选项集Ck为加权频繁k_项集Lk,添加到加权频繁项集集合PIS;

若awSup(Ck)<ms,则计算加权负项集关联度awNIR(Ck),如果awNIR(Ck)≥负项集关联度阈值minNR,那么,Ck为加权负k_项集Nk,并添加到加权负项集集合NIS;所述的awSup(Ck)计算公式如式(2)所示:

其中,为Ck在目标语言初检相关文档集中出现的频度,为Ck在目标语言初检相关文档集中的项集权值,k为Ck的项目个数;

awPIR(Ck)的计算公式分两种情况:m=2和m>2情况,即如式(3)和式(4)所示,

其中,候选加权正项集Ck=(t1,t2,…,tk),k≥2,tmax(1≤max≤m)是Ck的所有项目中其支持度最大的单项目,Iq为Ck的所有2_子项集至(m-1)_子项集中其支持度最大的子项集;

awNIR(Ck)的计算公式分两种情况:r=2和r>2情况,即如式(5)和式(6)所示,

其中,候选加权负项集Ck=(t1,t2,…,tr),r≥2,tmax(1≤max≤r)是Ck的所有项目中其支持度最大的单项目,Ip为Ck的所有2_子项集至(r-1)_子项集中其支持度最大的子项集;

(4)若k_项集Lk为空集,则项集挖掘结束,转到步骤1.5,否则,转到步骤(1),继续挖掘;

1.5从加权频繁项集集合PIS中挖掘加权强正关联规则:对于特征词加权频繁项集集合PIS中每一个频繁k_项集Lk,所述的k≥2,挖掘Lk中前件是扩展词项集I而后件是查询词项集qt的关联规则I→qt,所述的qt和I的并集为Lk,qt和I的交集为空集,qt为查询词项集,I为扩展词项集,具体挖掘步骤如下:

(1)求出正项集Lk的所有真子集,得到Lk真子集项集集合;

(2)从Lk真子集集合中任意取出两个子项集qt和I,且qt∪I=Lk其中;

(3)计算加权关联规则I→qt置信度awARConf(I→qt)及其提升度awARL(I→qt);若awARL(I→qt)>1,且awARConf(I→qt)>=mc,则得到加权强关联规则I→qt,并加入到加权强正关联规则集合PAR;所述的awARConf(I→qt)和awARL(I→qt)的计算公式如式(7)和式(8)所示:

(4)返回步骤(2)再顺序进行,直到Lk真子集项集集合中每个真子集当且仅当被取出一次,然后从PIS集合中重新取出新的正项集Lk,转入步骤(1)步进行新一轮加权关联规则挖掘,直到PIS中每一个正项集Lk都已经被取出为止,这时转入步骤1.6;

1.6从负项集集合NIS中挖掘加权强负关联规则:对于负项集集合NIS中每一个负项集Nk,k>=2,挖掘Nk中前件是查询词项集qt而后件是负扩展词项集I的加权负关联规则I→﹁qt和﹁I→qt,所述的qt和I的并集为Lk,qt和I的交集为空集,具体挖掘步骤如下:

(1)找出负项集Nk的所有真子集,得到Nk真子集集合;

(2)从Nk真子集集合中任意取出两个子项集qt和I,且qt∪I=Nk其中qt为查询项集;

(3)计算提升度awARL(I→qt),若awARL(I→qt)<1:

计算负关联规则I→﹁qt置信度awARConf(I→﹁qt),若awARConf(I→﹁qt)>=mc,则得到加权强负关联规则I→﹁qt,并加入到加权强负关联规则集合NAR;

计算负关联规则﹁I→qt置信度awARConf(﹁I→qt),若awARConf(﹁I→qt)>=mc,则得到加权强负关联规则﹁I→qt,并加入到NAR;所述的awARConf(I→﹁qt)和awARConf(﹁I→qt)的计算公式如式(9)和式(10)所示:

awARConf(I→﹁qt)=1-awARconf(I→qt) (9)

(4)返回步骤(2)再顺序执行,直到Nk真子集集合中每个真子集当且仅当被取出一次为止,这时转入步骤(5);

(5)从NIS集合中重新取出新的负项集Nk,转入步骤(1)进行新一轮加权负关联规则挖掘,如果NIS集合中每个负项集都当且仅当已经被取出一次,则加权强负关联规则挖掘结束,转入步骤1.7;

1.7从加权强正关联规则集合PAR中提取其规则后件是查询词项的加权正关联规则模式I→qt,将该正关联规则前件特征词作为候选扩展词,构建候选前件扩展词库;

1.8从加权强负关联规则集合NAR中提取其规则后件是查询词项的加权负关联规则模式I→﹁qt和﹁I→qt,将负关联规则前件I作为前件负扩展词,构建前件负扩展词库;

1.9对于候选前件扩展词库中每一个候选前件扩展词,与前件负扩展词库的负扩展词比较,在候选前件扩展词库中删除与负扩展词相同的候选扩展词,候选前件扩展词库中余下的候选前件扩展词即为最终前件扩展词;

2.0最终前件扩展词与目标语言原查询词组合为新查询再次检索,实现跨语言查询译后前件扩展。

以上所述,加权强负关联规则I→﹁qt和﹁I→qt等符号“﹁”表示负相关符号,“﹁I”表示在目标语言初检相关文档集中不出现特征词项集I的情况,即属于负相关情况。

“I→﹁qt”表示扩展词项集I和查询词项项集qt呈现负相关关系,在目标语言初检相关文档集中扩展词项集I的出现使得查询词项项集qt不会出现。

“﹁I→qt”表示扩展词项集I和查询词项项集qt呈现负相关关系,在目标语言初检相关文档集中扩展词项集I的不出现使得查询词项项集qt会出现。

加权强正关联规则I→qt的含义是在目标语言初检相关文档集中扩展词项集I的出现会促使查询词项项集qt也会出现。

本发明与现有技术相比,具有以下有益效果:

(1)本发明提出一种基于加权正负规则前件与相关反馈的跨语言查询扩展方法。该方法采用基于加权支持度-关联度-提升度-置信度评价框架的正负模式挖掘技术对跨语言初检相关文档集挖掘加权正负关联规则模式,提取加权正负关联规则模式的前件作为原查询词项相关的前件扩展词实现跨语言查询译后前件扩展,使得跨语言信息检索性能有了较好的提升。

(2)选择日本情报信息研究所主办的多国语言处理国际评测会议上的跨语言信息检索标准数据测试语料NTCIR-5 CLIR的英文文本数据集作为本发明实验语料,以越南语和英语为语言对象,进行本发明方法的实验。实验对比基准方法是:没有实行查询扩展技术的越英跨语言检索(Vietnamese-English Cross-Language Retrieval,VECLR)基准方法和基于文献(吴丹,何大庆,王惠临.基于伪相关的跨语言查询扩展[J].情报学报,2010,29(2):232-239.)的伪相关反馈查询译后扩展(Query Post-Translation Expansion Based onPseudo Relevance Feedback,QPTE_PRF)的越英跨语言检索方法。实验结果表明,与对比基准方法VECLR和QPTE_PRF比较,本发明方法的TITLE查询类型的越英跨语言检索结果的R-Prec和P@5值得到了较大的提高,比VECLR方法的提高幅度最大可以达到91.28%,比QPTE_PRF基准方法的提高幅度最高达到了265.88%;本发明方法的DESC查询类型的越英跨语言检索结果的R-Prec和P@5值比基准方法VECLR和QPTE_PRF的也有了较大的提高,最大的提高幅度分别为137.38%和238.75%。

(3)实验结果表明,本发明方法是有效的,能提高跨语言信息检索性能,主要原因分析如下:跨语言信息检索受词不匹配和查询翻译质量的双重影响,常常导致严重的初检查询主题漂移等问题,本发明将加权正负关联模式挖掘应用于越英跨语言查询扩展,提出一种基于加权正负关联模式与用户相关反馈的跨语言查询译后前件扩展方法,获得与原查询相关的前件扩展词实现跨语言查询译后前件扩展,能有效地减少跨语言信息检索中长期存在的查询主题漂移和词不匹配问题,提高和改善跨语言检索性能,具有重要的应用价值和广阔的推广前景。

附图说明

图1为本发明所述的基于加权正负规则前件与相关反馈的跨语言查询扩展方法框图。

图2为本发明所述的基于加权正负规则前件与相关反馈的跨语言查询扩展方法总体流程示意图。

具体实施方式

为了更好地说明本发明的技术方案,下面将本发明涉及的相关概念介绍如下:

1.跨语言查询译后前件扩展

跨语言查询译后前件扩展是指:在跨语言查询扩展中,从目标语言初检相关文档挖掘得到的关联规则模式后,提取与目标语言原查询相关的关联规则模式前件作为扩展词,扩展词与目标语言原查询词项组合为新查询。

2.加权支持度

假设DS={d1,d2,…,dn}是跨语言目标语言初检相关文档集(Document>i(1≤i≤n)是文档集DS中的第i篇文档,di={t1,t2,…,tm,…,tp},tm(m=1,2,…,p)为文档特征词项目,简称特征项,一般是由字、词或词组构成,di中对应的特征项权值集合Wi={wi1,wi2,…,wim,…,wip},wim为第i篇文档di中第m个特征项tm对应的权值,TS={t1,t2,…,tk}表示DS中全体特征项集合,TS的各个子集均称为特征项项集,简称项集。

针对现有技术的缺陷,本发明充分考虑了特征词项目频度及其权值,给出一种新的加权支持度(All-weighted Support,awSup)awSup(I)计算方法。所述的awSup(I)计算公式如式(11)所示。

其中,wI为加权项集I在跨语言目标语言初检相关文档集DS中项集权值总和,nI为加权项集I在跨语言目标语言初检相关文档集DS中出现的项集频度,n是跨语言目标语言初检相关文档集DS中的总文档篇数;W为跨语言目标语言初检相关文档集DS中所有特征词权值总和;k为项集I的项目个数(即项集长度),β∈(0,1)为调节系数,其值不能取0或1,主要作用是调节项目频度和项目权值综合对加权支持度的影响。

假设最小加权支持度阈值为ms,若awSup(I1∪I2)≥ms,则加权项集(I1∪I2)是正项集(即频繁项集),否则,(I1∪I2)为负项集。

本发明方法只关注如下三类加权负项集:(﹁I),(I1∪﹁I2)和(﹁I1∪I2),给出加权负项集支持度awSup(﹁I)、awSup(I1∪﹁I2)和awSup(﹁I1∪I2)计算公式如式(12)-式(14)所示。

awsup(﹁I)=1-awSup(I) (12)

awSup(I1∪﹁I2)=awSup(I1)-awSup(I1∪I2)>

awSup(﹁I1∪I2)=awSup(I2)-awSup(I1∪I2)>

本发明方法只关注如下两类加权负关联规则:(I1→﹁I2)和(﹁I1→I2),加权正负关联规则置信度(All-weighted>1→I2)、awARConf(I1→﹁I2)和awARConf(﹁I1→I2)的计算公式如式(15)至式(17)所示。

3.加权正负项集关联度

加权项集关联度是指加权项集中任意两个单项目之间以及子项集之间关联强度的度量。项集关联度越高,表明该项集中的子项集之间关系越密切,越受到关注。本发明改进现有的关联度,给出了加权正负项集的关联度计算方法,既考虑项集中任意两个单项目的关联程度,同时也考虑了项集中两个子项集之间存在的关联性。

加权正项集关联度(All-weighted Positive Itemset Relevancy,awPIR):对于加权特征词正项集Ck=(t1,t2,…,tm),m为正项集Ck的长度,m≥2,设tmax(1≤max≤m)是Ck的所有项目中其支持度最大的单项目,Iq为Ck的所有2_子项集至(m-1)_子项集中其支持度最大的子项集,给出加权正项集关联度awPIR(Ck)的计算公式如式(18)和式(19)所示。

其中,候选加权正项集Ck=(t1,t2,…,tk),k≥2,tmax(1≤max≤m)是Ck的所有项目中其支持度最大的单项目,Iq为Ck的所有2_子项集至(m-1)_子项集中其支持度最大的子项集。

式(18)和式(19)表明,加权正项集Ck关联度等于支持度最大的单项目tmax和子项集Iq(即Iq为2_子项集至(m-1)_子项集之一)分别出现时该正项集出现的条件概率的总和。

加权负项集关联度(All-weighted Negative Itemset Relevancy,awNIR):对于加权特征词负项集Ck=(t1,t2,…,tr),r为负项集Ck的长度,r≥2,设tmax(1≤max≤r)是负项集Ck的所有项目中其支持度最大的单项目,Ip为负项集Ck的所有2_子项集至(r-1)_子项集中其支持度最大的子项集,给出加权负项集关联度awNIR(Ck)的计算公式如式(20)和式(21)所示。

其中,候选加权负项集Ck=(t1,t2,…,tr),r≥2,tmax(1≤max≤r)是Ck的所有项目中其支持度最大的单项目,Ip为Ck的所有2_子项集至(r-1)_子项集中其支持度最大的子项集。

式(20)和式(21)表明,加权负项集Ck关联度等于支持度最大的单项目tmax和子项集Ip(即Ip为2_子项集至(r-1)_子项集之一)分别不出现时该负项集出现的条件概率的总和。

实例:假若Ck=(t1∪t2∪t3∪t4)(支持度为0.65),其单项目t1,t2,t3和t4的支持度分别为0.82,0.45,0.76和0.75,其2_子项集和3_子项集(t1∪t2),(t1∪t3),(t1∪t4),(t2∪t3),(t2∪t4),(t1∪t2∪t3),(t1∪t2∪t4),(t2∪t3∪t4)支持度分别为0.64,0.78,0.75,0.74,0.67,0.,66,0.56,0.43,则其支持度最大(值为0.82)的单项目是t1,其2_子项集和3_子项集中其支持度最大(值为0.78)的子项集为(t1∪t3),那么,使用式(14)计算正项集(t1∪t2∪t3∪t4)的关联度为0.81。

4.加权关联规则提升度

传统的关联规则评价框架(支持度-置信度)的局限性是忽略了规则后件中出现的项集支持度,使得高置信度的规则有时可能出现误导。提升度(Lift)是解决该问题的一个有效的相关性度量。关联规则X→Y提升度Lift(X→Y)指的是含有X的条件下同时含有Y的概率与Y总体发生的概率之比,即规则的置信度Confidence(X→Y)与后件Y的支持度sup(Y)之比。基于传统的提升度概念,给出加权关联规则I1→I2提升度(All-weighted>1→I2)的计算公式如式(22)所示。

根据相关性理论,提升度能够评估关联规则前件和后件的相关性,可以评估一方的出现提升(或降低)另一方出现的程度。即,当awARL(I1→I2)>1时,I1→I2是正关联规则,项集I1和I2中,一方的出现会提升另一方出现的可能性;当awARL(I1→I2)<1时,I1→I2则是负关联规则,一方的出现会降低另一方出现的可能性;当awARL(I1→I2)=1时,项集I1和I2是相互独立,不相关,此时关联规则I1→I2是虚假规则。很容易证明awARL(I1→I2)具有如下的性质1。

性质1②awARL(﹁I1→I2)<1;③awARL(﹁I1→﹁I2)>1.⑤awARL(﹁I1→I2)>1;⑥awARL(﹁I1→﹁I2)<1。

根据性质1,当awARL(I1→I2)>1时,可以挖掘出加权正关联规则I1→I2。当awARL(I1→I2)<1时,能挖掘出加权负关联规则I1→﹁I2和﹁I1→I2

假设最小加权置信度阈值为mc,结合性质1,给出加权强正负关联规则定义如下:

对于加权正项集(I1∪I2),若awARL(I1→I2)>1,且awARConf(I1→I2)≥mc,则加权关联规则I1→I2是强关联规则。

对于负项集(I1∪I2),若awARL(I1→I2)<1,且awARConf(I1→﹁I2)≥mc,awARConf(﹁I1→I2)≥mc,则I1→﹁I2和﹁I1→I2是强负关联规则。

本发明一种基于加权正负规则前件与相关反馈的跨语言查询扩展方法,包括如下步骤:

1.1使用机器翻译系统将源语言查询翻译为目标语言查询;

所述的机器翻译系统可以是:微软必应机器翻译接口Microsoft Translator API,谷歌机器翻译接口,等等。

1.2目标语言查询检索目标语言原始文档集得到目标语言初检文档,具体使用的检索模型是经典的基于向量空间模型的检索模型。

1.3构建目标语言初检相关文档集:即将前列n篇目标语言初检文档进行用户相关性判断得到初检相关文档,由此构建目标语言初检相关文档集;

1.4对目标语言初检相关文档集挖掘含有原查询词项的加权频繁项集和负项集;

具体步骤:

1.4.1对目标语言初检相关文档集进行预处理,构建文档索引库和总特征词库;

预处理步骤是:

(1)对于目标语言是汉语,则进行中文分词,去除停用词,提取中文特征词,中文分词程序采用中国科学院计算技术研究所研制编写的汉语词法分析系统ICTCLAS;对于目标语言是英语,则采用Porter程序(详细见网址:http://tartarus.org/~martin/PorterStemmer)进行词干提取,去除英文停用词;

(2)计算特征词权值,特征词权值表明该特征词对于其所在文档的重要程度,本发明采用经典的和流行的tf-idf特征词权值wij计算方法。所述的wij计算公式如式(23)所示:

其中,wij表示文档di中特征词tj的权值,tfj,i表示特征词tj在文档di中的出现次数,dfj表示含有特征词tj的文档数量,N表示文档集合中总的文档数量。

(3)构建文档索引库和总特征词库。

1.4.2挖掘频繁1_项集L1:即从总的特征词库得到特征词候选1_项集C1,计算1_项集C1的支持度awSup(C1),如果awSup(C1)≥支持度阈值ms,则候选1_项集C1为频繁1_项集L1,并将L1添加到加权频繁项集集合PIS;所述的awSup(C1)计算公式如式(24)所示:

其中,n和W为分别目标语言初检相关文档集中文档总篇数和所有特征词权值的总和,为C1在目标语言初检相关文档集中出现的频度,为C1在目标语言初检相关文档集中的项集权值,β∈(0,1)为调节系数,其值不能取0或1。

1.4.3挖掘含有查询词项的加权频繁k_项集Lk和负k_项集Nk,所述的k≥2。

具体步骤:

(1)挖掘候选k_项集Ck:通过频繁(k-1)_项集Lk-1进行Aproiri连接而得到;

Aproiri连接方法详见文献:Agrawal R,Imielinski T,Swami A.Mining associationrules between sets of items in large database[C]//Proceedings of the 1993 ACMSIGMOD International Conference on Management of Data,Washington D C,USA,1993:207-216。

(2)当k=2时,剪除不含查询词项的候选2_项集C2,保留含有查询词项的候选2_项集C2

(3)计算候选k_项集Ck的支持度awSup(Ck):

如果awSup(Ck)≥支持度阈值ms,再计算Ck的加权频繁项集关联度awPIR(Ck),若awPIR(Ck)≥频繁项集关联度阈值minPR,则k_候选项集Ck为加权频繁k_项集Lk,添加到加权频繁项集集合PIS;

若awSup(Ck)<ms,则计算加权负项集关联度awNIR(Ck),如果awNIR(Ck)≥负项集关联度阈值minNR,那么,Ck为加权负k_项集Nk,并添加到加权负项集集合NIS。所述的awSup(Ck)计算公式如式(25)所示:

其中,为Ck在目标语言初检相关文档集中出现的频度,为Ck在目标语言初检相关文档集中的项集权值,k为Ck的项目个数。

awPIR(Ck)的计算公式分两种情况:m=2和m>2情况,即如式(26)和式(27)所示,

其中,候选加权正项集Ck=(t1,t2,…,tk),k≥2,tmax(1≤max≤m)是Ck的所有项目中其支持度最大的单项目,Iq为Ck的所有2_子项集至(m-1)_子项集中其支持度最大的子项集。

awNIR(Ck)的计算公式分两种情况:r=2和r>2情况,即如式(28)和式(29)所示,

其中,候选加权负项集Ck=(t1,t2,…,tr),r≥2,tmax(1≤max≤r)是Ck的所有项目中其支持度最大的单项目,Ip为Ck的所有2_子项集至(r-1)_子项集中其支持度最大的子项集。

(4)若k_项集Lk为空集,则项集挖掘结束,转到步骤1.5,否则,转到步骤(1),继续挖掘。

1.5从加权频繁项集集合PIS中挖掘加权强正关联规则:对于特征词加权频繁项集集合PIS中每一个频繁k_项集Lk,所述的k≥2,挖掘Lk中前件是扩展词项集I而后件是查询词项集qt的关联规则I→qt,所述的qt和I的并集为Lk,qt和I的交集为空集,qt为查询词项集,I为扩展词项集,具体挖掘步骤如下:

(1)求出正项集Lk的所有真子集,得到Lk真子集项集集合;

(2)从Lk真子集集合中任意取出两个子项集qt和I,且qt∪I=Lk

(3)计算加权关联规则I→qt置信度awARConf(I→qt)及其提升度awARL(I→qt)。若awARL(I→qt)>1,且awARConf(I→qt)>=mc,则得到加权强关联规则I→qt,并加入到加权强正关联规则集合PAR。所述的awARConf(I→qt)和awARL(I→qt)的计算公式如式(30)和式(31)所示:

(4)返回步骤(2)步再顺序进行,直到Lk真子集项集集合中每个真子集当且仅当被取出一次,然后从PIS集合中重新取出新的正项集Lk,转入步骤(1)步进行新一轮加权关联规则挖掘,直到PIS中每一个正项集Lk都已经被取出为止,这时转入步骤1.6。

1.6从负项集集合NIS中挖掘加权强负关联规则:对于负项集集合NIS中每一个负项集Nk,k>=2,挖掘Nk中前件是查询词项集qt而后件是负扩展词项集I的加权负关联规则I→﹁qt和﹁I→qt,所述的qt和I的并集为Lk,qt和I的交集为空集,具体挖掘步骤如下:

(1)找出负项集Nk的所有真子集,得到Nk真子集集合。

(2)从Nk真子集集合中任意取出两个子项集qt和I,且qt∪I=Nk

(3)计算提升度awARL(I→qt),若awARL(I→qt)<1:

计算负关联规则I→﹁qt置信度awARConf(I→﹁qt),若awARConf(I→﹁qt)>=mc,则得到加权强负关联规则I→﹁qt,并加入到加权强负关联规则集合NAR;

计算负关联规则﹁I→qt置信度awARConf(﹁I→qt),若awARConf(﹁I→qt)>=mc,则得到加权强负关联规则﹁I→qt,并加入到NAR。所述的awARConf(I→﹁qt)和awARConf(﹁I→qt)的计算公式如式(32)和式(33)所示:

awARconf(I→﹁qt)=1-awARConf(I→qt) (32)

(4)返回步骤(2)再顺序执行,直到Nk真子集集合中每个真子集当且仅当被取出一次为止,这时转入步骤(5);

(5)从NIS集合中重新取出新的负项集Nk,转入步骤(1)进行新一轮加权负关联规则挖掘,如果NIS集合中每个负项集都当且仅当已经被取出一次,则加权强负关联规则挖掘结束,转入步骤1.7。

1.7从加权强正关联规则集合PAR中提取其规则后件是查询词项的加权正关联规则模式I→qt,将该正关联规则前件特征词作为候选扩展词,构建候选前件扩展词库。

1.8从加权强负关联规则集合NAR中提取其规则后件是查询词项的加权负关联规则模式I→﹁qt和﹁I→qt,将负关联规则前件I作为前件负扩展词,构建前件负扩展词库。

1.9对于候选前件扩展词库中每一个候选前件扩展词,与前件负扩展词库的负扩展词比较,在候选前件扩展词库中删除与负扩展词相同的候选扩展词,候选前件扩展词库中余下的候选前件扩展词即为最终前件扩展词。

2.0最终前件扩展词与目标语言原查询词组合为新查询再次检索,实现跨语言查询译后前件扩展。

实验设计与结果:

为了说明本发明方法的有效性,以越南语和英语为语言对象开展基于本发明方法和对比方法的越英跨语言信息检索实验。

实验数据集:

选择NTCIR-5 CLIR的英文文本数据集作为本文实验语料。该语料是日本情报信息研究所主办的多国语言处理国际评测会议上的跨语言信息检索标准数据测试语料,来源于Mainichi Daily News新闻媒体2000、2001年(简称mdn00、mdn01)和Korea Times2001年(简称ktn01)的新闻文本,共26224篇英文文本信息(即mdn00有6608篇,mdn01有5547篇,ktn01有14069篇)。该数据集有文档测试集、结果集和查询集,结果集有Rigid标准(即与查询高度相关,相关)和Relax标准(即与查询高度相关、相关和部分相关)等两种,查询集包括50个查询主题,分别有日文、韩文、中文和英文等四个版本以及TITLE、DESC、NARR和CONC等4种查询主题类型,TITLE查询类型以名词和名词性短语简要描述查询主题,属于短查询,而DESC查询类型以句子形式简要描述查询主题查询,属于长查询。本文采用TITLE和DESC查询类型进行检索实验。

本发明实验中,由于NTCIR-5 CLIR语料没有提供越南语查询版本,故我们特请翻译机构东盟语言专业翻译人员将NTCIR-5 CLIR中50个中文版查询主题语料人工翻译为越南语查询作为本文实验的源语言查询。

对比基准方法:

(1)越英跨语言检索(Vietnamese-English Cross-Language Retrieval,VECLR)基准方法:指越英跨语言首次检索的结果,即将源语言越南语查询经过机器翻译为英文后检索英文文档得到的检索结果,在检索过程中没有采用查询扩展技术。

(2)基于伪相关反馈查询译后扩展(Query Post-Translation Expansion Basedon Pseudo Relevance Feedback,QPTE_PRF)的越英跨语言检索方法:QPTE_PRF基准算法是基于文献(吴丹,何大庆,王惠临.基于伪相关的跨语言查询扩展[J].情报学报,2010,29(2):232-239.)的跨语言查询扩展方法实现越英跨语言查询译后扩展的检索结果。其实验方法及参数:源语言越南语查询机器翻译为英文查询检索英文文档,提取跨语言初检前列英文文档20篇构建初检英文相关文档集,提取英文特征词项并计算其权值,按权值降序排列将前列20个特征词项作为为英文扩展词实现越英跨语言查询译后扩展。

采用R-查准率(R-Prec)和P@5作为本发明的跨语言检索评价指标。R-查准率是指当R个文档被检索后所计算的查准率,其中R是指对应于某个查询在文档集合中相关文档数,不强调文档结果集中文档的排序情况。

实验结果如下:

编写了本发明方法和基准方法的源程序,通过实验分析和比较本发明方法和对比基准方法的越英跨语言信息检索性能,对50个越南语TITLE和DESC查询进行越英跨语言信息检索,对跨语言初检前列50篇英文文档进行用户相关性判断后得到初检用户相关反馈文档(为了简便,本文实验中,将初检前列50篇文档中含有已知结果集中的相关文档视为初检相关文档)进行实验,得到越英跨语言检索结果的R-Prec和P@5的平均值,分别如表1至表2所示,公共的实验参数设置如下:α=0.3,minPR=0.1,minNR=0.01,挖掘到3_项集。

表1 本文发明方法与对比基准方法的检索性能比较(TITLE查询)

本表实验参数:mc=0.8,ms∈{0.2,0.25,0.3,0.35,0.4,0.45}(mdn00),ms∈{0.2,0.23,0.25,0.28,0.3}(mdn01和ktn01).

表1实验结果表明,与对比基准方法VECLR和QPTE_PRF基准方法比较,本发明方法的TITLE查询类型的越英跨语言检索结果的R-Prec和P@5值得到了较大的提高,比VECLR方法的提高幅度最大可以达到91.28%,比QPTE_PRF基准方法的提高幅度最高达到了265.88%。

表2 本文发明方法与基准方法的检索性能比较(DESC查询)

本表实验参数:mc=0.8,ms∈{0.2,0.23,0.25,0.28,0.3}

从表2实验结果可知,本发明方法的DESC查询类型的越英跨语言检索结果的R-Prec和P@5值比基准方法VECLR和QPTE_PRF的也有了较大的提高,最大的提高幅度分别为137.38%和238.75%。

实验结果表明,本发明方法是有效的,确实能提高跨语言信息检索性能。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号