基于改进K-Means的新闻聚类算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着各种网络媒体的迅猛发展，获取新闻信息愈发便捷，但是这也造成了数据积累。如何在海量数据发掘潜在信息并有效利用成为现今重点研究领域。聚类分析是数据挖掘重要方法之一，被广泛应用在生物信息、金融、医疗等领域中。本文主要对新闻文本聚类进行研究，提出了基于改进K-Means的新闻聚类算法。　　首先，结合新闻文本的结构特征提出了TI值概念。TI值是基于正文特征词的词频-逆向文本频率(Term Frequency-Inverse Document Frequency，TF-IDF)值，结合了新闻的标题与导语两个重要因素产生的，用于文本特征向量的提取，以便使文本特征向量具有代表性，提高聚类效果。　　其次，针对最大距离算法时间复杂度高，聚类效果不稳定等问题，对其进行了优化，并结合TI值形成TIM_K-Means算法。该算法将TI值用于构造文本特征向量，并且改变了最大距离算法中距离的计算方式，从而降低算法的时间复杂度。此外还在初始中心选择过程中加入了孤立点检测，以便能够在迭代过程中去除孤立点，得到更加合理的初始聚类中心。　　再次，为了应对算法在处理海量数据耗时严重的问题，对算法进行了并行化改造。本文利用 MapReduce 编程模型对 TIM_K-Means 算法进行并行化改造，使其能够在Hadoop平台上运行。　　最后，采用准确率和误差作为衡量指标，利用采集自腾讯新闻网的文本作为数据集进行实验，以验证 TI值和 TIM_K-Means 算法的正确性和有效性。并且利用阿里云服务器搭建 Hadoop 集群，采用加速比和可扩展性作为标准，对 TIM_K-Means算法并行化改造的可行性进行验证。

著录项

作者
张满堂;
展开▼
作者单位

燕山大学;

展开▼
授予单位燕山大学;
学科计算机科学与技术
授予学位硕士
导师姓名王开宇;
年度 2019
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
新闻聚类算法,TI值,改进K-Means,并行化;

相似文献

中文文献
外文文献
专利

1. 基于K-means聚类的改进粒子群优化算法研究 [J] . 谭若洋 ,王治宇 . 统计与咨询 . 2020,第003期
2. 基于改进粒子群和K-Means的文本聚类算法研究 [J] . 钮永莉1 ,武斌1 . 兰州文理学院学报：自然科学版 . 2019,第004期
3. 基于改进粒子群和K-Means的文本聚类算法研究 [J] . 钮永莉 ,武斌 . 甘肃联合大学学报（自然科学版） . 2019,第004期
4. 基于改进自适应遗传算法的K-means聚类算法研究 [J] . 佟昕 . 应用能源技术 . 2018,第001期
5. 一种基于MapReduce的改进k-means聚类算法研究 [J] . 郭晨晨 ,朱红康 . 河北工业大学学报 . 2016,第005期
6. 基于改进K-means聚类的木材缺陷彩色图像分割算法研究 [C] . Xie Yonghua ,谢永华 ,Chen Qingwei . 2014大气颗粒污染物监测与防护技术研讨会 . 2014
7. 基于密度的改进K-Means文本聚类算法研究 [A] . 贾永娟 . 2014

基于改进K-Means的新闻聚类算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅