声明
第1章 绪 论
1.1 课题背景及研究意义
1.2 国内外研究现状
1.2.1 新闻聚类研究现状
1.2.2 K-Means算法研究现状
1.3 主要研究内容
1.4 本文结构
第2章 聚类分析与并行基础
2.1 聚类概述
2.1.1 聚类分析过程
2.1.2 聚类分析度量
2.1.3 评价标准
2.2 K-Means算法简介
2.2.1算法流程
2.2.2算法优缺点
2.3 并行基础
2.3.1 文件系统HDFS
2.3.1 MapReduce模型
2.4 本章小结
第3章 基于改进K-Means的新闻聚类算法
3.1 TI值
3.1.1 文本特征提取
3.1.2 TI值计算
3.2 TIM_K-Means算法
3.2.1 最大距离算法的改进
3.2.2 TIM_K-Means算法流程
3.3 本章小结
第4章 算法并行化
4.1传统K-Means算法并行化
4.2 并行化求取方差
4.3 改进算法的并行化
4.3.1 初始中心选择算法并行化
4.3.2 TIM_K-Means算法并行化
4.4 本章小结
第5章 实验验证与分析
5.1 实验环境
(1) 单机实验环境设置
(2) 分布式环境设置
5.2 TI值验证与分析
5.3 TIM_K-Means算法验证与分析
5.4 算法并行化验证与分析
5.4.1 加速比验证与分析
5.4.2 可扩展性验证与分析
5.5 本章小结
结论
参考文献
攻读硕士学位期间承担的科研任务与主要成果
致谢
燕山大学;