基于近邻传播的文本数据流聚类算法及其应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着大数据时代的到来，网络上产生了大量非结构化文本数据流，这些文本数据流具有动态、高维、稀疏等特征。面对这些实时产生、数据量庞大、结构复杂的非结构化数据，人们迫切需要从中提取有价值的信息和知识。文本数据流聚类技术是分析这些非结构化数据的常用方法，它在新闻过滤、话题检测及跟踪(TDT)、用户特征推荐等方面取得了很好的应用效果，迅速成为当前的研究热点。　　本文针对文本数据流的这些特点，将AP算法结合权重的运算扩展应用到文本数据流聚类中，首先将传统的AP算法及流式文本数据特征相结合，然后提出文本数据流聚类算法——OAP-s算法。该算法通过在AP算法上引入衰减因子，对聚类中心结果进行衰减的同时将当前时间窗口的聚类中心带入到下一时间窗口中进行聚类。本文针对OAP-s算法的不足，又提出了OWAP-s算法。该算法在OAP-s算法模型基础上定义了加权相似度，并通过引入吸引度因子，使得历史聚类中心更具吸引性，得到更精确的聚类结果。同时，两种算法均采用滑动时间窗口模式，使算法既能体现数据流的时态特征，又能反映数据流的分布特征。实验结果表明，两种算法在聚类精确度、稳定性方面均高于OSKM算法，而且具有较好的伸缩性和可扩展性。然后基于OWAP-s算法对抓取的三只股票新闻进行了事件检测。

著录项

作者
李一鸣;
展开▼
作者单位

合肥工业大学;

展开▼
授予单位合肥工业大学;
学科管理科学与工程
授予学位硕士
导师姓名倪志伟;
年度 2016
页码
总页数
原文格式 PDF
正文语种 chi
中图分类
关键词
文本数据流,聚类算法,加权相似度,滑动时间窗口;

相似文献

中文文献
外文文献
专利

1. 基于近邻传播的文本数据流聚类算法研究 [J] . 李一鸣 ,倪丽萍 ,方清华 . 计算机科学 . 2016,第005期
2. 基于近邻传播的不确定数据流演化聚类算法 [J] . 夏聪 ,陆亿红 . 模式识别与人工智能 . 2016,第005期
3. 基于近邻传播与密度相融合的进化数据流聚类算法 [J] . 邢长征 ,刘剑 . 计算机应用 . 2015,第007期
4. 基于密度与近邻传播的数据流聚类算法 [J] . 张建朋 ,陈福才 ,李邵梅 . 自动化学报 . 2014,第002期
5. 基于近邻传播的分布式数据流聚类算法 [J] . 张建朋 ,金鑫 ,陈福才 . 计算机应用 . 2013,第009期
6. 近邻传播聚类算法在信息融合领域的应用 [C] . Ding Wenjie ,丁文洁 ,Hu Changlin . 第六届中国信息融合大会 . 2014
7. 改进的近邻传播聚类算法及其应用研究 [A] . 唐丹 . 2016

基于近邻传播的文本数据流聚类算法及其应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅