面向用户兴趣的web文档聚类研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着Internet上文本信息、Web页面的迅速膨胀，使得人们想要在Internet上获取所需要的信息显得相当困难。因此，如何有效地对大量文本资源进行组织、管理，帮助用户获取真正需要的信息等，成为目前信息检索领域中迫切需要解决的问题。文本聚类是文本挖掘中非常重要的技术，它已经被广泛的应用于信息管理、搜索引擎、推荐系统等多个领域。在文本聚类领域，k-means算法简单且收敛速度快，是最常用的文本聚类算法之一，本文主要对该算法进行研究并改进。首先，为了克服k-means算法需要人工指定划分聚簇个数且初始聚类中心随机选择的缺点，本文将基于密度的聚类算法与k-means算法相结合，提出了一种基于参考区域的初始化思想，将生成的初始划分作为k-means算法迭代的基础。实验证明改进的k-means文本聚类算法能提高聚类结果的精度，同时保持了基于密度聚类算法的高效性。其次，为了克服k-means算法在迭代过程中易于陷入局部极值的缺点，本文结合最优化方法的局部搜索思想，对k-means算法的聚类结果进行迭代调整。并根据文本数据的特点，采用多数文本同时调整的方式，减少算法迭代次数，扩大了搜索空间。理论和实验分析表明这种改进方法能提高聚类的质量并保持原算法的时间效率。最后，将文本聚类和用户兴趣挖掘技术相结合，构建了一个面向用户兴趣的文本聚类系统CSUI(Clustering System of Users’Interest)，该系统利用改进的k-means算法对用户浏览内容进行聚类，最终生成用户兴趣的相应表示模型。

著录项

作者
王玉伟;
展开▼
作者单位

中国石油大学(华东);

展开▼
授予单位中国石油大学(华东);
学科计算机应用技术
授予学位硕士
导师姓名索红光;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算机情报检索系统;
关键词
信息检索; 文本聚类; 文本挖掘; 聚类算法; 用户兴趣;

相似文献

中文文献
外文文献
专利

1. 面向用户兴趣的Web信息过滤系统 [J] . 钟茂生 ,廖辉传 ,谢勇 . 广西师范大学学报（自然科学版） . 2006,第004期
2. 基于Web日志挖掘的Web文档聚类 [J] . 高哲 ,魏海平 ,王福威 . 计算机工程与设计 . 2008,第018期
3. 基于Web-Log Mining的Web文档聚类 [J] . 苏中 ,马少平 ,杨强 . 软件学报 . 2002,第001期
4. 结合差分进化与K均值的Web文档聚类算法研究 [J] . 姜凯 ,左风朝 . 聊城大学学报（自然科学版） . 2012,第001期
5. Web文档聚类研究及系统实现 [J] . 东春昭 ,陈威 ,刘彬 . 电脑知识与技术 . 2010,第021期
6. 基于用户兴趣链接的Web文档聚类 [C] . 崔自峰 ,徐宝文 . 2007'信息与通信工程、电子科学与技术、计算机科学与技术、机械工程全国博士生学术论坛 . 2007
7. 面向企业内部搜索的Web文档聚类系统研究 [A] . 林文辉 . 2012

面向用户兴趣的web文档聚类研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅