首页> 中文学位 >面向用户兴趣的web文档聚类研究
【6h】

面向用户兴趣的web文档聚类研究

代理获取

目录

文摘

英文文摘

声明

第一章引言

1.1选题背景和研究意义

1.2国内外研究现状

1.2.1用户兴趣挖掘研究现状

1.2.2文本聚类算法研究现状

1.3全文的组织结构

第二章用户兴趣挖掘与文本聚类相关技术

2.1 Web挖掘分类

2.2用户兴趣挖掘

2.2.1用户兴趣建模方式

2.2.2用户兴趣信息获取

2.2.3用户兴趣的表示

2.2.4用户兴趣模型的更新

2.3文本聚类相关技术

2.3.1文本预处理

2.3.2向量空间模型

2.3.3常用的文本聚类算法

2.3.4聚类结果的评价标准

2.4本章小结

第三章基于参考区域的k-means初始化

3.1问题的提出

3.2 CURD算法

3.3 k-means文本聚类算法

3.4参考区域的生成

3.4.1输入参数的确定

3.4.2确定参数k及初始分区的生成

3.4.3改进算法流程

3.4.4算法时间复杂性分析

3.5实验和算法评估

3.6本章小结

第四章基于局部迭代的k-means文本聚类

4.1问题的提出

4.2最优化相关问题

4.3面向文本聚类的迭代优化

4.4算法修改

4.4.1目标函数的变化

4.4.2修改算法及复杂度分析

4.4.3算法迭代的自动确定

4.5实验和算法评估

4.6本章小结

第五章面向用户兴趣聚类系统的生成

5.1面向用户兴趣的聚类系统结构

5.2用户兴趣的生成

5.2.1向量空间模型表示兴趣

5.2.2基于概化方法的兴趣主题词抽取

5.2.3用户子兴趣的生成

5.3实验测试及分析

5.4本章小结

结 论

参考文献

攻读硕士学位期间取得的学术成果

致 谢

展开▼

摘要

随着Internet上文本信息、Web页面的迅速膨胀,使得人们想要在Internet上获取所需要的信息显得相当困难。因此,如何有效地对大量文本资源进行组织、管理,帮助用户获取真正需要的信息等,成为目前信息检索领域中迫切需要解决的问题。 文本聚类是文本挖掘中非常重要的技术,它已经被广泛的应用于信息管理、搜索引擎、推荐系统等多个领域。在文本聚类领域,k-means算法简单且收敛速度快,是最常用的文本聚类算法之一,本文主要对该算法进行研究并改进。 首先,为了克服k-means算法需要人工指定划分聚簇个数且初始聚类中心随机选择的缺点,本文将基于密度的聚类算法与k-means算法相结合,提出了一种基于参考区域的初始化思想,将生成的初始划分作为k-means算法迭代的基础。实验证明改进的k-means文本聚类算法能提高聚类结果的精度,同时保持了基于密度聚类算法的高效性。 其次,为了克服k-means算法在迭代过程中易于陷入局部极值的缺点,本文结合最优化方法的局部搜索思想,对k-means算法的聚类结果进行迭代调整。并根据文本数据的特点,采用多数文本同时调整的方式,减少算法迭代次数,扩大了搜索空间。理论和实验分析表明这种改进方法能提高聚类的质量并保持原算法的时间效率。 最后,将文本聚类和用户兴趣挖掘技术相结合,构建了一个面向用户兴趣的文本聚类系统CSUI(Clustering System of Users’Interest),该系统利用改进的k-means算法对用户浏览内容进行聚类,最终生成用户兴趣的相应表示模型。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号