首页> 中国专利> 基于聚类和查询行为的检索结果排序方法

基于聚类和查询行为的检索结果排序方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种基于聚类和查询行为的检索结果排序方法，包括如下步骤：计算文档与查询的相关度，选取候选文档集合；对候选文档集合进行聚类分析，计算每个聚类与查询的相关度；根据文档的相关度和文档所在聚类的相关度，计算文档的排序Rank(d

著录项

公开/公告号CN103902694A

专利类型发明专利
公开/公告日2014-07-02

原文格式PDF
申请/专利权人哈尔滨工程大学;
展开▼

申请/专利号CN201410122930.4
发明设计人杨静;刘宁;张健沛;
展开▼

申请日2014-03-28
分类号G06F17/30;
代理机构
代理人
地址 150001 黑龙江省哈尔滨市南岗区南通大街145号哈尔滨工程大学科技处知识产权办公室
入库时间 2023-12-17 00:01:10

法律信息

法律状态公告日

法律状态信息

法律状态
2017-04-12

授权

授权
2014-07-30

实质审查的生效 IPC(主分类):G06F17/30 申请日:20140328

实质审查的生效
2014-07-02

公开

公开

说明书

技术领域

本发明涉及一种信息检索领域的方法，特别是涉及一种基于聚类和查询行为的检索结果排序方法。

背景技术

搜索引擎在用户输入一个查询后，返回一个“相关”结果的列表，然而这个检索结果列表往往不能让用户满意。一方面由于用户查询的不确定性，例如查询词有多义性，存在多种解释，搜索引擎无法确定用户的需求；另一方面，对于搜索引擎返回的大量结果，用户通常只选择浏览Top10的检索结果，由于检索结果没有进行合理的总结与组织，而仅仅是简单的罗列，Top10的检索结果可能是不全面的，因此用户获取到的信息可能是不全面的。

目前有一些研究通过采用对检索结果聚类来解决上面所阐述的问题，一方面对于有歧义的查询,通过检索结果聚类,可以按照不同语义将检索结果聚成不同类别;另一方面,检索结果聚类能够对检索结果进行全面的分析处理,可以给出一个全面的关于被查询对象的介绍。但是现有的检索结果聚类排序方法大多是对文档的查询相关度与文档间的相似性的线性组合优化问题进行求解。这类相对静态的方法是从系统的角度对用户意图进行挖掘，无法真正把握用户的查询意图。

发明内容

本发明的目的在于提供一种基于聚类和查询行为的检索结果排序方法，根据用户点击文档的反馈信息进行在线学习，可以动态的调整类别的排列顺序以及类别内文档的选择，能够更好地满足用户的多样化需求。

实现本发明目的的技术方案：

一种基于聚类和查询行为的检索结果排序方法，其特征在于：

步骤1：计算文档与查询的相关度Sim(q,d_i)，并根据相关度选取候选文档集合；

步骤2：对候选文档集合进行聚类分析，计算每个聚类与查询的相关度Sim(q,Clu_i)；

步骤3：根据步骤1中获得的文档的相关度Sim(q,d_i)和步骤2中获得的文档所在聚类的相关度Sim(q,Clu_i)，计算文档的排序Rank(d_i)；

步骤4：根据用户点击文档的反馈信息更新文档的相关度Sim(q,d_i) 和聚类的相关度Sim(q,Clu_i)：

步骤5：根据步骤4中更新的文档的相关度Sim(q,d_i)和文档所在聚类的相关度Sim(q,Clu_i)，更新计算文档的Rank(d_i)。

步骤4中，如果用户点击文档，则文档的相关度Sim(q,d_i)= Sim(q,d_i)+β,文档所在聚类的Sim(q,Clu_i)=Sim(q,Clu_i)+β；如果用户没有点击文档，文档的相关度Sim(q,d_i)=Sim(q,d_i)-β，文档所在聚类的 Sim(q,Clu_i)=Sim(q,Clu_i)-β；式中β为参数，0<β<1。

通过如下公式计算文档的排序Rank(d_i)：

Rank(d_i)=λ*Sim(q,d_i)+（1-λ）Sim(q,Clu_i)

式中，λ=0.7。

本发明的有益效果：

本发明根据文档的相关度Sim(q,d_i)和文档所在聚类的相关度 Sim(q,Clu_i)，计算文档的排序Rank(d_i)；对于有歧义的查询,能够对检索结果进行全面的分析处理,可以给出一个全面的关于被查询对象的介绍。

本发明根据用户点击文档的反馈信息更新文档的相关度Sim(q,d_i) 和聚类的相关度Sim(q,Clu_i)，继而更新文档的排序Rank(d_i)，能够根据用户的点击行为，挖掘用户查询所蕴含的各种潜在意图，可以动态的调整文档的排列顺序，从而更好地满足了用户的多样化需求。

附图说明

图1为本发明基于聚类和查询行为的检索结果排序方法的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明的实施过程作进一步详细的描述。

参照图1，本发明提出了一种基于聚类和查询行为的检索结果排序方法，该方法包括下述几个步骤：

步骤1：计算文档与查询的相关度Sim(q,d_i)，并根据相关度选取候选文档集合，具体包括以下步骤：

步骤1.1:对整个文档集进行去停用词、词干化等预处理，构建基于向量空间模型的文本数据库和整个文档集的总特征词库。

步骤1.2：将输入的查询内容进行去停用词、词干化等预处理，剩下的词构成查询的向量形式Q。

步骤1.3：采用余弦函数来代表两个向量数据的相关度，即式中di,dj是两个文档的向量表示，Sim(d_i,d_j) 代表两个文档d_i,d_j的相关度。α代表两个文档向量的夹角。该余弦值越大表示两个向量的夹角越小，两个文档就越相关。

步骤1.4：按照文档的相关度Sim(q,d_i)大小依次排序，并选取候选文档集合Coll。

步骤2：对候选文档集合Coll进行聚类分析，计算每个聚类与查询的相关度Sim(q,Clu_i)：

步骤2.1：在文档集合Coll中随机选取K个文档，其中每个文档 k初始代表一个簇中心o_p,p=1,…,k。

步骤2.2：计算剩余的每个文档x_i与各个簇中心的欧氏距离op。

$\sqrt{Σ_{i = 1}^{m} {(y_{i} - z_{i})}^{2}}$

式中，y_i和z_i分别代表文档y和z向量形式中第i个坐标。

步骤2.3：根据所述剩余的每个文档x_i与各个簇中心的欧式距离 op，把所剩余的文档x_i分给最近的簇中心。

步骤2.4：利用平均值方法重新计算簇中心。

重复步骤2.2至步骤2.4，直到簇中心值不变。

步骤2.5：计算每个聚类与查询的相关度Sim(q,Clu_i)。

$(q, {Clu}_{i}) = \cos (q, c_{k}) = \frac{q * c_{k}}{| q | | c_{k} |}$

式中，q为查询向量，c_k表示各个聚类的中心向量。

步骤3：计算文档的排序Rank(d_i)：

Rank(d_i)=λ*Sim(q,d_i)+（1-λ）Sim(q,Clu_i)

式中，λ=0.7。

步骤4：根据用户点击文档的反馈信息更新文档的相关度和聚类的相关度：

如果用户点击文档，文档的相关度Sim(q,d_i)=Sim(q,d_i)+β,文档所在聚类的Sim(q,Clu_i)=Sim(q,Clu_i)+β,式中β为参数，0<β<1。

如果用户没有点击文档，文档的相关度Sim(q,d_i)=Sim(q,d_i)-β，文档所在聚类的Sim(q,Clu_i)=Sim(q,Clu_i)-β,式中β为参数，0<β<1。

步骤5：更新文档的排序Rank(d_i)。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于聚类和查询行为的检索结果排序方法 [P] . 中国专利： CN103902694B . 2017.04.12
2. 一种基于用户行为特征的司法检索结果自动学习排序方法 [P] . 中国专利： CN107092681A . 2017-08-25
3. System and method for behavioral model clustering in television usage, targeted advertising via model clustering, and preference programming based on behavioral model clusters [P] . 美国专利： US8495680B2 . 2013-07-23

机译：用于电视使用中的行为模型聚类，通过模型聚类进行有针对性的广告以及基于行为模型聚类的偏好编程的系统和方法
4. System and method for behavioral model clustering in television usage, targeted advertising via model clustering, and preference programming based on behavioral model clusters [P] . 美国专利： US2003101449A1 . 2003-05-29

机译：用于电视使用中的行为模型聚类，通过模型聚类进行有针对性的广告以及基于行为模型聚类的偏好编程的系统和方法
5. System, method, and software application for targeted advertising via behavioral model clustering, and preference programming based on behavioral model clusters [P] . 美国专利： US9277264B2 . 2016-03-01

机译：通过行为模型聚类以及基于行为模型聚类的偏好编程进行定向广告的系统，方法和软件应用