搜索结果的聚类研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着互联网技术的普及和发展，网络信息呈指数式增长。面对海量的信息，搜索引擎成为人们日常获取所需信息的重要工具。但是传统的搜索引擎将搜索结果以线性列表的方式排列，使得用户无法快速、准确地获得感兴趣的信息。因此，使用聚类算法对搜索结果进行聚类，可以帮助用户快速查找到所需信息。本文在对中文分词、特征选择、权重计算、相似度度量等文本聚类技术进行深入研究的基础上，分析了搜索结果聚类与文本聚类之间的联系。根据搜索结果聚类的特点，提出一种基于改进的K-Means算法的搜索结果聚类方法。基于划分的K-Means算法是一种被广泛应用的动态聚类算法，具有实现简单、收敛速度快等优点。但该算法存在一些不足使其无法适应搜索结果聚类，比如：人工指定聚类个数、随机生成聚类中心、对孤立点敏感、无法“软聚类”和无法生成聚类标签等。针对以上K-Means算法的不足，对其进行了改进：首先，利用基于密度的最大最小距离法发现初始聚类中心，即将密度最大的对象作为第一个初始聚类中心，再根据最大最小距离选择其余的聚类中心，然后根据文本平均相似度设置参数作为终止条件，确定聚类个数；其次，引入邻居的概念，获取初始聚类中心的邻居，根据邻居计算其所在类簇新的聚类中心，并排除初始聚类中心中的孤立点；最后，对类簇中特征词进行过滤，并在类簇的基础上使用TF-IDF方法计算特征词权重，根据权重选取类簇标签。由于TF-IDF方法在计算权重时只考虑了词频，而忽略了词性和词长对特征词权重的影响，因此，在TF-IDF方法中引入了词性因子和长度因子。最后，通过搭建Nutch搜索引擎，获得搜索结果，并利用Jsoup进行解析形成待聚类的搜索结果文本集。利用改进后的K-means聚类算法进行聚类，结果表明，改进后的K-Means算法相比于原K-Means取得了更好的聚类效果。比较增加长度因子和词性因子TF-IDF方法和原TF-IDF方法的聚类效果，结果表明，长度因子和词性因子会对聚类结果产生积极的影响。

著录项

作者
刘宇征;
展开▼
作者单位

东南大学;

展开▼
授予单位东南大学;
学科控制科学与工程
授予学位硕士
导师姓名邵家玉;
年度 2018
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算技术、计算机技术;
关键词
搜索结果;

相似文献

中文文献
外文文献
专利

1. 基于关键名词短语聚类的中文搜索结果聚类 [J] . 麻雪云 ,肖诗斌 ,王弘蔚 . 计算机工程与应用 . 2009,第031期
2. Web搜索结果多层聚类方法研究 [J] . 庞观松 ,蒋盛益 ,张黎莎 . 情报学报 . 2011,第005期
3. 基于网页聚类的搜索结果优化算法研究 [J] . 沈盈洪 ,丰翔龙 ,黄荣游 . 计算机应用 . 2010,第00z期
4. 基于网页聚类的搜索结果优化算法研究 [J] . 沈盈洪 ,丰翔龙 ,黄荣游 . 计算机应用 . 2010,第A01期
5. 基于自适应混沌粒子群的Web搜索结果聚类研究 [J] . 童亚拉 . 微电子学与计算机 . 2010,第1期
6. 基于关键词提取的搜索结果聚类研究 [C] . 秦鹏 ,李恒训 ,张华平 . 第五届全国信息检索学术会议CCIR2009 . 2009
7. 针对搜索结果的位图表示及聚类算法改进研究 [A] . 陈腊生 . 2018

搜索结果的聚类研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅