首页> 中国专利> 生成共现关键词的方法、提供关联搜索词的方法以及系统

生成共现关键词的方法、提供关联搜索词的方法以及系统

摘要

提供一种生成共现关键词的方法、提供关联搜索词的方法以及系统。一种生成共现关键词的方法包括:获取预定时间段的搜索日志,所述搜索日志包括用户使用搜索词进行搜索的搜索记录;根据各个用户的搜索记录,为每个用户计算至少一个搜索词簇,每个搜索词簇包括彼此之间的相似度高于预定阈值的至少两个搜索词或者与任何其他搜索词都不相似的一个搜索词;从计算的每个搜索词簇选择权重值超过权重阈值的至少一个实词作为所述搜索词簇的代表关键词;通过对代表关键词进行配对形成多个代表关键词对,并且计算每个代表关键词对出现的次数;选择出现的次数最高的代表关键词对作为共现关键词对,并且将选择的共现关键词对存储在共现词典中。

著录项

  • 公开/公告号CN103258025A

    专利类型发明专利

  • 公开/公告日2013-08-21

    原文格式PDF

  • 申请/专利权人 百度在线网络技术(北京)有限公司;

    申请/专利号CN201310165690.1

  • 发明设计人 阮星华;

    申请日2013-05-08

  • 分类号G06F17/30(20060101);

  • 代理机构11286 北京铭硕知识产权代理有限公司;

  • 代理人罗延红;王秀君

  • 地址 100085 北京市海淀区上地十街10号百度大厦三层

  • 入库时间 2024-02-19 19:46:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-08-31

    授权

    授权

  • 2013-09-18

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130508

    实质审查的生效

  • 2013-08-21

    公开

    公开

说明书

技术领域

本申请涉及一种生成共现关键词的方法、提供关联搜索词的方法以及系 统,尤其涉及一种通过对搜索日志进行分析,从而找出用户通常会一同搜索 的话题的技术。

背景技术

搜索引擎的“相关检索词”功能是体现搜索引擎智能性的一个重要方面。 “相关检索词”功能能够根据用户的搜索词为用户推荐N个(一般是10个) 相关的搜索词,对用户的搜索行为起到一个提示和引导的作用,帮助用户更 便捷地找到所需要的信息。例如,当用户搜索“万有引力”的时候,不同的 用户可能有不同的需求:

(1)查找万有引力定律或者公式;

(2)查找2011年赵天宇导演的电影《万有引力》;

(3)查找汪苏泷的歌曲《万有引力》。

当然,也可能还有其他与“万有引力”相关的需求。总体说来,用户的 需求是多元化的,同样一个搜索词对于不同的用户来说可能有不同的需求。 在这种情况下,搜索引擎在满足主要需求的前提下,还需要尽量满足多元化 的次要需求。更进一步,如果搜索引擎还能够推荐出用户可能存在“潜在需 求”的相关检索词,则更能够体现搜索引擎的智能性,提高用户体验吸引用 户进行更多的检索查询。

发明内容

本发明的目的在于提供一种生成共现关键词的方法、提供关联搜索词的 方法以及系统,通过对搜索日志进行分析,挖掘出一般用户通常会一同检索 的话题,以扩展用户的检索入口。

根据本发明的一方面,提供一种一种生成共现关键词的方法,包括:a) 获取预定时间段的搜索日志,所述搜索日志包括用户使用搜索词进行搜索的 搜索记录;b)根据各个用户的搜索记录,为每个用户计算至少一个搜索词簇, 每个搜索词簇包括彼此之间的相似度高于预定阈值的至少两个搜索词或者与 任何其他搜索词都不相似的一个搜索词;c)从计算的每个搜索词簇选择权重 值超过权重阈值的至少一个实词作为所述搜索词簇的代表关键词;d)通过对 代表关键词进行配对形成多个代表关键词对,并且计算每个代表关键词对出 现的次数;e)选择出现的次数最高的代表关键词对作为共现关键词对,并且 将选择的共现关键词对存储在共现词典中。

优选地,步骤b)包括,对用户的搜索记录执行以下操作:对所述搜索 记录中的搜索词进行切词,并且计算分词的权重;针对每两个搜索词,根据 同时出现在所述两个搜索词中的各个分词的权重,计算所述两个搜索词之间 的相似度;选取计算的彼此之间的相似度高于预定阈值的至少两个搜索词或 者与任何其他搜索词都不相似的一个搜索词作为搜索词簇。

优选地,步骤b)还包括:在对搜索词进行切词的处理中,从所述搜索 记录中去除重复出现的搜索词。

优选地,通过以下公式计算两个搜索词之间的相似度β:

β=∑min(w1i,w2i

其中,w1i和w2i分别是两个搜索词中共同出现的第i个分词的权重值,i≤ n,n为所述共同出现的分词的个数。

优选地,在步骤d)中,使用包括配对的两个代表关键词以及其出现次 数的三元组,累积计算在为各个用户形成的全部代表关键词对当中,每个代 表关键词对出现的次数。

优选地,所述的方法还包括:将在步骤b)中计算出的全部搜索词簇存 储到搜索词簇词典。

优选地,所述的方法还包括:通过将共现关键词对出现的次数与代表关 键词对的个数相除计算所述共现关键词对的共现率,并且在共现词典中还存 储所述共现关键词对的共现率。

优选地,所述的方法还包括:如果接收到包括共现关键词对中的一个代 表关键词的搜索词,则从搜索词簇词典找出包括共现关键词对中的另一个代 表关键词的搜索词簇,并且作为响应,发送找出的搜索词簇中的一个或多个 搜索词。

根据本发明的另一方面,提供一种生成共现关键词的系统,包括:日志 获取模块,用于获取预定时间段的搜索日志,所述搜索日志包括用户使用搜 索词进行搜索的搜索记录;搜索词簇计算模块,用于根据用户的搜索记录, 为用户计算至少一个搜索词簇,每个搜索词簇包括彼此之间的相似度高于预 定阈值的至少两个搜索词或者与任何其他搜索词都不相似的一个搜索词;共 现关键词对确定模块,用于从计算的每个搜索词簇选择权重值超过权重阈值 的至少一个实词作为所述搜索词簇的代表关键词,通过对代表关键词进行配 对形成多个代表关键词对,计算每个代表关键词对出现的次数,并且选择出 现的次数最高的代表关键词对作为共现关键词对;词典存储模块,用于将选 择的共现关键词对存储在共现词典中。

优选地,搜索词簇计算模块对用户的搜索记录执行以下操作:对所述搜 索记录中的搜索词进行切词,并且计算分词的权重;针对每两个搜索词,根 据同时出现在所述两个搜索词中的各个分词的权重,计算所述两个搜索词之 间的相似度;选取计算的彼此之间的相似度高于预定阈值的至少两个搜索词 或者与任何其他搜索词都不相似的一个搜索词作为搜索词簇。

优选地,搜索词簇计算模块在对每个搜索词进行切词的处理中,从所述 搜索记录中去除重复出现的搜索词。

优选地,搜索词簇计算模块通过以下公式计算两个搜索词之间的相似度 β:

β=∑min(w1i,w2i

其中,w1i和w2i分别是两个搜索词中共同出现的第i个分词的权重值,i≤ n,n为所述共同出现的分词的个数。

优选地,共现关键词对确定模块使用包括配对的两个代表关键词以及其 出现次数的三元组,累积计算在为各个用户形成的全部代表关键词对当中, 每个代表关键词对出现的次数。

优选地,词典存储模块还将搜索词簇计算模块计算出的全部搜索词簇存 储到搜索词簇词典。

优选地,共现关键词对确定模块还通过将共现关键词对出现的次数与代 表关键词对的个数相除计算所述共现关键词对的共现率,并且词典存储模块 在共现词典中还存储所述共现关键词对的共现率。

根据本发明的另一方面,提供一种提供关联搜索词的方法,包括:接收 第一搜索词;从第一搜索词提取第一关键词;从共现关键词词典查找包括所 述第一关键词的共现关键词对,所述共现关键词词典包括至少一对共现关键 词;如果找到所述共现关键词对,则从包括多个搜索词簇的搜索词簇词典查 找包括所述共现关键词对中的第二关键词的搜索词簇,其中,每个搜索词簇 包括彼此之间的相似度高于预定阈值的至少两个搜索词,从所述搜索词簇选 择一个或多个搜索词作为第二搜索词,并且作为响应,发送选择的第二搜索 词。

优选地,所述第一关键词是第一搜索词中权重最高的关键词。

优选地,每个搜索词簇还包括至少一个代表关键词。

优选地,所述从包括多个搜索词簇的搜索词簇词典查找包括所述共现关 键词对中的第二关键词的搜索词簇的操作包括:从所述搜索词簇词典查找以 所述共现关键词对中的第二关键词作为代表关键词的搜索词簇。

优选地,所述的方法还包括:从包括多个搜索词簇的搜索词簇词典查找 包括所述第一关键词的搜索词簇,并且作为响应,还发送找到的所述搜索词 簇中的一个或多个搜索词。

根据本发明的另一方面,提供一种提供关联搜索词的系统,包括:词典 存储模块,用于存储包括至少一对共现关键词的共现关键词词典,以及包括 多个搜索词簇的搜索词簇词典,其中,每个搜索词簇包括彼此之间的相似度 高于预定阈值的至少两个搜索词;信息收发模块,用于接收第一搜索词,并 且发送第二搜索词;关键词提取模块,用于从第一搜索词提取第一关键词; 关联查询模块,从共现关键词词典查找包括所述第一关键词的共现关键词对, 如果找到所述共现关键词对,则从搜索词簇词典查找包括所述共现关键词对 中的第二关键词的搜索词簇,从所述搜索词簇选择一个或多个搜索词作为第 二搜索词,并且作为响应,通过信息收发模块发送选择的第二搜索词。

优选地,所述第一关键词是第一搜索词中权重最高的关键词。

优选地,每个搜索词簇还包括至少一个代表关键词。

优选地,关联查询模块从所述搜索词簇词典查找以所述共现关键词对中 的第二关键词作为代表关键词的搜索词簇。

优选地,关联查询模块还从包括多个搜索词簇的搜索词簇词典查找包括 所述第一关键词的搜索词簇,并且作为响应,通过信息收发模块还发送找到 的所述搜索词簇中的一个或多个搜索词。

根据本发明的生成共现关键词和/或提供关联搜索词的方法和系统可通 过对搜索日志中的用户搜索记录进行挖掘分析,找到用户搜索行为的相互关 联,生成用户通常会一同检索的共现关键词。在此基础上,可在用户通过一 个话题的搜索词进行搜索时,将一般用户通常一同检索的其他话题的搜索词 也推荐给用户,从而扩展用户的检索入口,改善用户体验。

附图说明

通过下面结合附图进行的描述,本发明的上述和其他目的和特点将会变 得更加清楚,其中:

图1是示出根据本发明的示例性实施例的生成共现关键词的方法的流程 图;

图2是示出根据本发明的示例性实施例为不同用户生成的搜索词簇的全 部代表关键词的示意图;

图3是示出根据本发明的示例性实施例的提供关联搜索词的方法的流程 图;

图4是示出根据本发明的示例性实施例的生成共现关键词和/或提供关联 搜索词的系统的逻辑框图。

具体实施方式

以下,将参照附图来详细说明本发明的实施例。

用户每天查找的信息之间有一定的关联关系,也就是说,用户的搜索词 簇之间存在一定的联系。例如,查找“天气”的用户在一次搜索中搜索“旅 游”的概率会高一些。再有一个著名的例子就是,通过对沃尔玛超市销售记 录的分析,发现购买尿布的客户一般同时都会购买啤酒,因此沃尔玛超市根 据这个规律将啤酒放得离尿布近一些,从而提高整体的商品销量。

本发明在充分分析现有搜索引擎相关检索词策略的基础上,提出一种通 过对用户的检索日志进行挖掘分析,进而获取搜索引擎相关检索词的方法和 系统。将用户在搜索引擎中的搜索行为看作一个消费行为,其消费过程就是 使用搜索词获取信息的过程。在大部分用户在查询A信息后一般都会查询B 信息的情况下,本发明将包括用于查询B信息的搜索词当中满意度较高的搜 索词也推荐给用户,从而引导用户进行更多的点击查询,提高相关检索词的 整体点击量。

图1是示出根据本发明的示例性实施例的生成共现关键词的方法的流程 图。在计算机系统中实现本发明的生成共现关键词的方法,并且图4示例性 地示出用于生成共现关键词的系统的逻辑框图。

参照图1,在步骤S110,所述系统获取采集的预定时间段的搜索日志, 所述搜索日志包括用户使用搜索词进行搜索的搜索记录。举例来说,可按照 cookie值将所述预定时间段的搜索日志整理为各个用户的搜索记录。

在步骤S120,根据用户的搜索记录,为用户计算至少一个搜索词簇,所 述搜索词簇包括彼此之间的相似度高于预定阈值的至少两个搜索词。

根据本发明的优选实施例,在步骤S120,在对用户计算至少一个搜索词 簇的过程中,在所述搜索记录中去除重复的搜索词。

根据本发明的可选实施例,在步骤S120,所述系统对用户的搜索记录执 行以下处理:

120-1、对所述搜索记录中的搜索词进行切词,并且计算分词的权重。搜 索引擎中的切词算法以及计算分词的权重的算法为现有技术,在此不再赘述。

例如,在用户A的一段时间内的搜索记录中,包括三个搜索词,“鲁班 奖评奖的条件”、“鲁班奖的条件”和“桂圆的功效与作用”,以下是经过分词 和分词权重计算后的结果:

A、“鲁班奖评奖的条件”:切出的分词(权重)为“鲁班奖(0.45)、评 奖(0.1)、的(0.05)、条件(0.4)”;

B、“鲁班奖的条件”,切出的分词(权重)为“鲁班奖(0.5)、的(0.05)、 条件(0.45)”;

C、“桂圆的功效与作用”,切出的分词(权重)为“桂圆(0.3)、的(0.05)、 功效(0.3)、与(0.05)、作用(0.3)”。

120-2、针对每两个搜索词,根据同时出现在所述两个搜索词中的各个分 词的权重,计算所述两个搜索词之间的相似度。

根据本发明的可选实施例,通过以下公式计算两个搜索词之间的相似度 β:

β=∑min(w1i,w2i

其中,w1i和w2i分别是两个搜索词中共同出现的第i个分词的权重值,0 <i≤n,n为所述共同出现的分词的个数。也就是说,通过将每个同时出现在 两个搜索词中的分词的最小权重值相加来计算所述两个搜索词的相似度值。

继续前述示例,A和B项中的两个搜索词中同时出现的分词有“鲁班奖” (权重分别为0.45和0.5)、“的”(权重都为“0.05”)和“条件”(权重分别 为0.4和0.45)。对于每个分词的权重我们取两者中最小值,最后得到的相似 度为:

β=Min(0.45,0.5)+Min(0.05,0.05)+Min(0.4,0.45)

=0.45+0.05+0.4

=0.9

120-3、选取计算的彼此之间的相似度高于预定阈值的至少两个搜索词或 者与任何其他搜索词都不相似的一个搜索词作为搜索词簇。可根据需要设置 所述预定阈值。

例如,在将所述预定阈值设置为0.8的情况下,将A和B项中的搜索词 “鲁班奖评奖的条件”和“鲁班奖的条件”归入一个搜索词簇。

再例如,前述示例中C项中的“桂圆的功效与作用”可单独组成一个搜 索词簇。

在步骤S130,所述系统从计算的每个搜索词簇选择权重值超过权重阈值 的至少一个实词作为所述搜索词簇的代表关键词。

以包括“鲁班奖评奖的条件”和“鲁班奖的条件”的搜索词簇为例,在 权重阈值被设置为0.2的情况下,可将“鲁班奖”和“条件”选为所述搜索 词簇的代表关键词。

在步骤S140,通过对代表关键词进行配对形成多个代表关键词对,并且 计算每个代表关键词对出现的次数。

图2示意性地示出为不同用户生成的搜索词簇的全部代表关键词,其中, 每个用户以其搜索时使用的cookie来标识。例如,自用户cookie1的搜索记 录计算出的全部搜索词簇中,共找出3个代表关键词q1、q2和q5,将所述3 个代表关键词配对,得到(q1,q2)、(q1,q5)和(q2,q5)三个代表关键词对;将 cookie2的代表关键词q7和q1配对,得到代表关键词对(q1,q7);将cookie3 的代表关键词q1和q5配对,得到代表关键词对(q1,q5);将cookie4的代表 关键词q5、q3和q1相互配对,得到代表关键词对(q5,q3)、(q5,q1)和(q3,q1)。 在为用户cookie1~cookie4配出的代表关键词对中,(q1,q5)出现过3次,其他 的代表关键词对均出现过1次。

为了便于处理,根据本发明的优选实施例,在步骤S140,所述系统使用 包括配对的两个代表关键词以及其出现次数的三元组,对累积计算在为各个 用户形成的全部代表关键词对当中,每个代表关键词对出现的次数。

以图2所示的示例为例,使用包括上述三元组的HASH表。例如,自用 户cookie1的代表关键词q1、q2和q5,得到(q1,q2,1),(q1,q5,1),(q2, q5,1),将这三个三元组插入HASH表:

(q1,q2,1)

(q1,q5,1)

(q2,q5,1)

继续处理用户cookie2的搜索词簇中的代表关键词,得到(q1,q7,1), 此时HASH表状态如下:

(q1,q2,1)

(q1,q5,1)

(q2,q5,1)

(q1,q7,1)

继续处理用户cookie3的搜索词簇中的代表关键词得到的hash表状态如 下:

(q1,q2,1)

(q1,q5,2)

(q1,q7,1)

(q2,q5,1)

继续处理用户cookie4得到的hash表状态如下:

(q1,q2,1)

(q1,q3,1)

(q1,q5,3)

(q1,q7,1)

(q2,q5,1)

(q3,q5,1)

同样得到,(q1,q5)共同出现的次数最多,共3次。

在步骤S150,所述系统选择出现的次数最高的代表关键词对作为共现关 键词对,并且将选择的共现关键词对存储在共现词典中。

在前述示例中,q1和q5组成的代表关键词对被选为共现关键词对。

根据本发明的优选实施例,所述系统在步骤S150,还通过将共现关键词 对出现的次数与代表关键词对的个数相除计算所述共现关键词对的共现率, 并且在共现词典中还存储所述共现关键词对的共现率。

例如,共现关键词对(q1,q5)的共现率为3/6=50%,在共现词典中存储所 述共现关键词对时,还存储其共现率。

根据本发明的优选实施例,所述系统还将在步骤S120计算出的全部搜索 词簇存储到搜索词簇词典中。优选地,所述系统在存储所述搜索词簇时,还 存储每个搜索词簇的代表关键词。

根据本发明的优选实施例,如果接收到包括共现关键词对中的一个代表 关键词的搜索词,则从搜索词簇词典找出包括共现关键词对中的另一个代表 关键词的搜索词簇,并且作为响应,搜索词搜索词发送找出的搜索词簇中的 一个或多个搜索词,例如,找出的搜索词簇中根据预定算法被认作用户满意 度高的搜索词。

自此,可通过一段时间的搜索日志,计算出共现率高的共现关键词对, 从而当接收到用户的包括共现关键词对中的一个代表关键词的搜索词时,可 将包括共现关键词对中的另一个代表关键词的搜索词也推荐给用户,为用户 提供其可能感兴趣的、更丰富的查询入口。

图3是示出根据本发明的示例性实施例的提供关联搜索词的方法的流程 图。在计算机系统中实现本发明的提供关联搜索词的方法,并且图4示例性 地示出用于提供关联搜索词的系统的逻辑框图。

参照图3,在步骤S310,所述系统接收第一搜索词。

在步骤S320,所述系统从第一搜索词提取第一关键词。根据本发明的优 选实施例,所述第一关键词是第一搜索词中权重最高的关键词。可使用搜索 引擎中通用的切词以及计算分词的权重的算法来从第一搜索词提取第一关键 词,在此不再赘述。所述第一关键词可不只是一个。

在步骤S330,所述系统从共现关键词词典查找包括所述第一关键词的共 现关键词对。所述共现关键词词典包括至少一对共现关键词。

在步骤S340,所述系统确定是否找到包括所述第一关键词的共现关键词 对。如果确定找到了包括所述第一关键词的共现关键词对,则在步骤S350, 所述系统从包括多个搜索词簇的搜索词簇词典查找包括所述共现关键词对中 的第二关键词的搜索词簇,其中,如前所述,每个搜索词簇包括彼此之间的 相似度高于预定阈值的至少两个搜索词。此后,在步骤S360,所述系统从所 述搜索词簇搜索词选择一个或多个搜索词作为第二搜索词(例如,所述搜索 词簇中根据预定算法被认作用户满意度高的搜索词),并且在步骤S370,作 为响应,所述系统发送选择的第二搜索词。

根据本发明的优选实施例,搜索词簇词典中的每个搜索词簇还包括至少 一个代表关键词;在步骤S350,所述系统从所述搜索词簇词典查找以所述共 现关键词对中的第二关键词作为代表关键词的搜索词簇。

根据本发明的优选实施例,所述系统还从包括多个搜索词簇的搜索词簇 词典查找包括所述第一关键词的搜索词簇,并且作为响应,还发送找到的所 述搜索词簇中的一个或多个搜索词。

图4是示出根据本发明的示例性实施例的生成共现关键词和/或提供关联 搜索词的系统的逻辑框图。

参照图4,所述生成共现关键词的系统包括日志获取模块410、搜索词簇 计算模块420、共现关键词对确定模块430和词典存储模块440。

日志获取模块410获取预定时间段的搜索日志,所述搜索日志包括用户 使用搜索词进行搜索的搜索记录。

搜索词簇计算模块420根据各个用户的搜索记录,为用户计算至少一个 搜索词簇,每个搜索词簇包括彼此之间的相似度高于预定阈值的至少两个搜 索词或者与任何其他搜索词都不相似的一个搜索词。具体地,搜索词簇计算 模块420对用户的搜索记录执行以下操作:对所述搜索记录中的搜索词进行 切词,并且计算分词的权重;针对每两个搜索词,根据同时出现在所述两个 搜索词中的各个分词的权重,计算所述两个搜索词之间的相似度;选取计算 的彼此之间的相似度高于预定阈值的至少两个搜索词或者与任何其他搜索词 都不相似的一个搜索词作为搜索词簇。

根据本发明的优选实施例,搜索词簇计算模块420在对搜索词进行切词 的处理中,从所述搜索记录中去除重复出现的搜索词。

根据本发明的优选实施例,搜索词簇计算模块420通过以下公式计算两 个搜索词之间的相似度β:

β=∑min(w1i,w2i

其中,w1i和w2i分别是两个搜索词中共同出现的第i个分词的权重值,i≤ n,n为所述共同出现的分词的个数。

共现关键词对确定模块430从搜索词簇计算模块420计算出的每个搜索 词簇选择权重值超过权重阈值的至少一个实词作为所述搜索词簇的代表关键 词,通过对代表关键词进行配对形成多个代表关键词对,并且计算每个代表 关键词对出现的次数。此后,共现关键词对确定模块430选择出现的次数最 高的代表关键词对作为共现关键词对。

根据本发明的优选实施例,共现关键词对确定模块430使用包括配对的 两个代表关键词以及其出现次数的三元组,累积计算在为各个用户形成的全 部代表关键词对当中,每个代表关键词对出现的次数。

词典存储模块440将共现关键词对确定模块430选择的共现关键词对存 储在共现词典中。根据本发明的优选实施例,词典存储模块440还将搜索词 簇计算模块420计算出的全部搜索词簇存储到搜索词簇词典。

根据本发明的优选实施例,共现关键词对确定模块430还通过将共现关 键词对出现的次数与代表关键词对的个数相除计算所述共现关键词对的共现 率,并且词典存储模块440在共现词典中还存储所述共现关键词对的共现率。

另一方面,所述提供关联搜索词的系统包括:词典存储模块440、信息 收发模块450、关键词提取模块460和关联查询模块470。

如前所述,词典存储模块440存储包括至少一对共现关键词的共现关键 词词典,以及包括多个搜索词簇的搜索词簇词典。其中,每个搜索词簇包括 彼此之间的相似度高于预定阈值的至少两个搜索词。

信息收发模块450接收第一搜索词,并且作为响应,发送关联查询模块 470选择的第二搜索词。

关键词提取模块460从信息收发模块450接收的第一搜索词提取第一关 键词。所述第一关键词可以是第一搜索词中权重最高的关键词。

关联查询模块470从词典存储模块440存储的共现关键词词典查找包括 所述第一关键词的共现关键词对。如果找到所述共现关键词对,则关联查询 模块470从搜索词簇词典查找包括所述共现关键词对中的第二关键词的搜索 词簇,从所述搜索词簇搜索词选择一个或多个搜索词作为第二搜索词,并且 通过信息收发模块450发送选择的第二搜索词。

根据本发明的优选实施例,搜索词簇词典中的每个搜索词簇还包括至少 一个代表关键词,关联查询模块470从所述搜索词簇词典查找以所述共现关 键词对中的第二关键词作为代表关键词的搜索词簇。

根据本发明的另一示例性实施例,关联查询模块470还从包括多个搜索 词簇的搜索词簇词典查找包括所述第一关键词的搜索词簇,并且还通过信息 收发模块450发送找到的所述搜索词簇中的一个或多个搜索词。

本发明所述的系统可包括日志获取模块410、搜索词簇计算模块420、共 现关键词对确定模块430、词典存储模块440、信息收发模块450、关键词提 取模块460和关联查询模块470,以生成共现关键词并且提供关联搜索词。

根据本发明的生成共现关键词和/或提供关联搜索词的方法和系统可通 过对搜索日志中的用户搜索记录进行挖掘分析,找到用户搜索行为的相互关 联,生成用户通常会一同检索的共现关键词。在此基础上,可在用户通过一 个话题的搜索词进行搜索时,将一般用户通常一同检索的其他话题的搜索词 也推荐给用户,从而扩展用户的检索入口,改善用户体验。

需要指出,根据实施的需要,可将本申请中描述的各个步骤拆分为更多 步骤,也可将两个或多个步骤或者步骤的部分操作组合成新的步骤,以实现 本发明的目的。

上述根据本发明的方法可在硬件、固件中实现,或者被实现为可存储在 记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机 代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可 读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法 可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC 或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、 微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组 件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处 理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机 访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用 于执行在此示出的处理的专用计算机。

尽管已参照优选实施例表示和描述了本发明,但本领域技术人员应该理 解,在不脱离由权利要求限定的本发明的精神和范围的情况下,可以对这些 实施例进行各种修改和变换。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号