首页> 中文学位 >搜索结果的聚类研究
【6h】

搜索结果的聚类研究

代理获取

目录

第一个书签之前

展开▼

摘要

随着互联网技术的普及和发展,网络信息呈指数式增长。面对海量的信息,搜索引擎成为人们日常获取所需信息的重要工具。但是传统的搜索引擎将搜索结果以线性列表的方式排列,使得用户无法快速、准确地获得感兴趣的信息。因此,使用聚类算法对搜索结果进行聚类,可以帮助用户快速查找到所需信息。 本文在对中文分词、特征选择、权重计算、相似度度量等文本聚类技术进行深入研究的基础上,分析了搜索结果聚类与文本聚类之间的联系。根据搜索结果聚类的特点,提出一种基于改进的K-Means算法的搜索结果聚类方法。基于划分的K-Means算法是一种被广泛应用的动态聚类算法,具有实现简单、收敛速度快等优点。但该算法存在一些不足使其无法适应搜索结果聚类,比如:人工指定聚类个数、随机生成聚类中心、对孤立点敏感、无法“软聚类”和无法生成聚类标签等。针对以上K-Means算法的不足,对其进行了改进:首先,利用基于密度的最大最小距离法发现初始聚类中心,即将密度最大的对象作为第一个初始聚类中心,再根据最大最小距离选择其余的聚类中心,然后根据文本平均相似度设置参数作为终止条件,确定聚类个数;其次,引入邻居的概念,获取初始聚类中心的邻居,根据邻居计算其所在类簇新的聚类中心,并排除初始聚类中心中的孤立点;最后,对类簇中特征词进行过滤,并在类簇的基础上使用TF-IDF方法计算特征词权重,根据权重选取类簇标签。由于TF-IDF方法在计算权重时只考虑了词频,而忽略了词性和词长对特征词权重的影响,因此,在TF-IDF方法中引入了词性因子和长度因子。 最后,通过搭建Nutch搜索引擎,获得搜索结果,并利用Jsoup进行解析形成待聚类的搜索结果文本集。利用改进后的K-means聚类算法进行聚类,结果表明,改进后的K-Means算法相比于原K-Means取得了更好的聚类效果。比较增加长度因子和词性因子TF-IDF方法和原TF-IDF方法的聚类效果,结果表明,长度因子和词性因子会对聚类结果产生积极的影响。

著录项

  • 作者

    刘宇征;

  • 作者单位

    东南大学;

  • 授予单位 东南大学;
  • 学科 控制科学与工程
  • 授予学位 硕士
  • 导师姓名 邵家玉;
  • 年度 2018
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 计算技术、计算机技术;
  • 关键词

    搜索结果;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号