首页> 中国专利> 基于聚类和查询行为的检索结果排序方法

基于聚类和查询行为的检索结果排序方法

摘要

本发明涉及一种基于聚类和查询行为的检索结果排序方法,包括如下步骤:计算文档与查询的相关度,选取候选文档集合;对候选文档集合进行聚类分析,计算每个聚类与查询的相关度;根据文档的相关度和文档所在聚类的相关度,计算文档的排序Rank(d

著录项

  • 公开/公告号CN103902694A

    专利类型发明专利

  • 公开/公告日2014-07-02

    原文格式PDF

  • 申请/专利权人 哈尔滨工程大学;

    申请/专利号CN201410122930.4

  • 发明设计人 杨静;刘宁;张健沛;

    申请日2014-03-28

  • 分类号G06F17/30;

  • 代理机构

  • 代理人

  • 地址 150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室

  • 入库时间 2023-12-17 00:01:10

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-04-12

    授权

    授权

  • 2014-07-30

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20140328

    实质审查的生效

  • 2014-07-02

    公开

    公开

说明书

技术领域

本发明涉及一种信息检索领域的方法,特别是涉及一种基于聚类 和查询行为的检索结果排序方法。

背景技术

搜索引擎在用户输入一个查询后,返回一个“相关”结果的列表, 然而这个检索结果列表往往不能让用户满意。一方面由于用户查询的 不确定性,例如查询词有多义性,存在多种解释,搜索引擎无法确定 用户的需求;另一方面,对于搜索引擎返回的大量结果,用户通常只 选择浏览Top10的检索结果,由于检索结果没有进行合理的总结与组 织,而仅仅是简单的罗列,Top10的检索结果可能是不全面的,因此 用户获取到的信息可能是不全面的。

目前有一些研究通过采用对检索结果聚类来解决上面所阐述的 问题,一方面对于有歧义的查询,通过检索结果聚类,可以按照不同语 义将检索结果聚成不同类别;另一方面,检索结果聚类能够对检索结 果进行全面的分析处理,可以给出一个全面的关于被查询对象的介 绍。但是现有的检索结果聚类排序方法大多是对文档的查询相关度与 文档间的相似性的线性组合优化问题进行求解。这类相对静态的方法 是从系统的角度对用户意图进行挖掘,无法真正把握用户的查询意 图。

发明内容

本发明的目的在于提供一种基于聚类和查询行为的检索结果排 序方法,根据用户点击文档的反馈信息进行在线学习,可以动态的调 整类别的排列顺序以及类别内文档的选择,能够更好地满足用户的多 样化需求。

实现本发明目的的技术方案:

一种基于聚类和查询行为的检索结果排序方法,其特征在于:

步骤1:计算文档与查询的相关度Sim(q,di),并根据相关度选取 候选文档集合;

步骤2:对候选文档集合进行聚类分析,计算每个聚类与查询的 相关度Sim(q,Clui);

步骤3:根据步骤1中获得的文档的相关度Sim(q,di)和步骤2中 获得的文档所在聚类的相关度Sim(q,Clui),计算文档的排序Rank(di);

步骤4:根据用户点击文档的反馈信息更新文档的相关度Sim(q,di) 和聚类的相关度Sim(q,Clui):

步骤5:根据步骤4中更新的文档的相关度Sim(q,di)和文档所在 聚类的相关度Sim(q,Clui),更新计算文档的Rank(di)。

步骤4中,如果用户点击文档,则文档的相关度Sim(q,di)= Sim(q,di)+β,文档所在聚类的Sim(q,Clui)=Sim(q,Clui)+β;如果用户没 有点击文档,文档的相关度Sim(q,di)=Sim(q,di)-β,文档所在聚类的 Sim(q,Clui)=Sim(q,Clui)-β;式中β为参数,0<β<1。

通过如下公式计算文档的排序Rank(di):

Rank(di)=λ*Sim(q,di)+(1-λ)Sim(q,Clui)

式中,λ=0.7。

本发明的有益效果:

本发明根据文档的相关度Sim(q,di)和文档所在聚类的相关度 Sim(q,Clui),计算文档的排序Rank(di);对于有歧义的查询,能够对 检索结果进行全面的分析处理,可以给出一个全面的关于被查询对象 的介绍。

本发明根据用户点击文档的反馈信息更新文档的相关度Sim(q,di) 和聚类的相关度Sim(q,Clui),继而更新文档的排序Rank(di),能够根 据用户的点击行为,挖掘用户查询所蕴含的各种潜在意图,可以动态 的调整文档的排列顺序,从而更好地满足了用户的多样化需求。

附图说明

图1为本发明基于聚类和查询行为的检索结果排序方法的流程 图。

具体实施方式

下面结合附图和具体实施方式对本发明的实施过程作进一步详 细的描述。

参照图1,本发明提出了一种基于聚类和查询行为的检索结果排 序方法,该方法包括下述几个步骤:

步骤1:计算文档与查询的相关度Sim(q,di),并根据相关度选取 候选文档集合,具体包括以下步骤:

步骤1.1:对整个文档集进行去停用词、词干化等预处理,构建 基于向量空间模型的文本数据库和整个文档集的总特征词库。

步骤1.2:将输入的查询内容进行去停用词、词干化等预处理, 剩下的词构成查询的向量形式Q。

步骤1.3:采用余弦函数来代表两个向量数据的相关度,即 式中di,dj是两个文档的向量表示,Sim(di,dj) 代表两个文档di,dj的相关度。α代表两个文档向量的夹角。该余弦 值越大表示两个向量的夹角越小,两个文档就越相关。

步骤1.4:按照文档的相关度Sim(q,di)大小依次排序,并选取候 选文档集合Coll。

步骤2:对候选文档集合Coll进行聚类分析,计算每个聚类与查 询的相关度Sim(q,Clui):

步骤2.1:在文档集合Coll中随机选取K个文档,其中每个文档 k初始代表一个簇中心op,p=1,…,k。

步骤2.2:计算剩余的每个文档xi与各个簇中心的欧氏距离op。

Σi=1m(yi-zi)2

式中,yi和zi分别代表文档y和z向量形式中第i个坐标。

步骤2.3:根据所述剩余的每个文档xi与各个簇中心的欧式距离 op,把所剩余的文档xi分给最近的簇中心。

步骤2.4:利用平均值方法重新计算簇中心。

重复步骤2.2至步骤2.4,直到簇中心值不变。

步骤2.5:计算每个聚类与查询的相关度Sim(q,Clui)。

(q,Clui)=cos(q,ck)=q*ck|q||ck|

式中,q为查询向量,ck表示各个聚类的中心向量。

步骤3:计算文档的排序Rank(di):

Rank(di)=λ*Sim(q,di)+(1-λ)Sim(q,Clui)

式中,λ=0.7。

步骤4:根据用户点击文档的反馈信息更新文档的相关度和聚类 的相关度:

如果用户点击文档,文档的相关度Sim(q,di)=Sim(q,di)+β,文档所 在聚类的Sim(q,Clui)=Sim(q,Clui)+β,式中β为参数,0<β<1。

如果用户没有点击文档,文档的相关度Sim(q,di)=Sim(q,di)-β, 文档所在聚类的Sim(q,Clui)=Sim(q,Clui)-β,式中β为参数,0<β<1。

步骤5:更新文档的排序Rank(di)。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号