首页> 中文学位 >基于近邻传播的文本数据流聚类算法及其应用研究
【6h】

基于近邻传播的文本数据流聚类算法及其应用研究

代理获取

目录

声明

致谢

摘要

第一章 绪论

1.1 论文研究背景和意义

1.1.1 研究背景

1.1.2 研究意义

1.2 国内外研究现状

1.2.1 数据流聚类算法研究现状

1.2.2 话题检测研究现状

1.3 论文研究内容与方法

1.4 论文章节安排

第二章 数据流聚类和文本挖掘基本理论

2.1 聚类基础理论

2.1.1 聚类分析定义

2.1.2 聚类分析的数据基础

2.1.3 相似度计算方法

2.1.4 数据挖掘对聚类分析的要求

2.1.5 聚类算法主要类别

2.2 数据流聚类算法

2.2.1 数据流的概念与特征

2.2.2 数据流聚类特点

2.2.3 数据流计算模型

2.3 文本数据流聚类算法

2.3.1 文本对象特征表示方法

2.3.2 常用文本数据流聚类算法

2.4 本章小结

第三章 近邻传播算法基本原理及其扩展

3.1 AP聚类算法简介

3.1.1 AP算法相关定义

3.1.2 AP算法步骤

3.1.3 AP算法分析

3.2 加权的AP算法

3.3 分级加权的AP算法

3.4 本章小结

第四章 在线近邻传播文本数据流聚类算法

4.1 OAP-s算法

4.1.1 OAP-s算法基本思想

4.1.2 OAP-s算法步骤

4.1.3 OAP-s算法分析

4.2 OWAP-s算法

4.2.1 OWAP-s算法基本思想

4.2.2 OWAP-s算法步骤

4.2.3 OWAP-s算法分析

4.3 实验验证

4.3.1 评价指标

4.3.2 实验环境

4.3.3 实验结果及分析

4.3.4 算法性能分析

4.4 本章小结

第五章 基于OWAP-s算法的股票事件检测

5.1 事件检测流程

5.2 数据抓取方法

5.2.1 网络爬虫原理

5.2.2 R语言概述

5.3 实验验证

5.3.1 实验环境及工具

5.3.2 实验结果及分析

5.4 本章小结

第六章 总结与展望

6.1 总结

6.2 展望

参考文献

攻读硕士学位期间的学术活动及成果情况

展开▼

摘要

随着大数据时代的到来,网络上产生了大量非结构化文本数据流,这些文本数据流具有动态、高维、稀疏等特征。面对这些实时产生、数据量庞大、结构复杂的非结构化数据,人们迫切需要从中提取有价值的信息和知识。文本数据流聚类技术是分析这些非结构化数据的常用方法,它在新闻过滤、话题检测及跟踪(TDT)、用户特征推荐等方面取得了很好的应用效果,迅速成为当前的研究热点。  本文针对文本数据流的这些特点,将AP算法结合权重的运算扩展应用到文本数据流聚类中,首先将传统的AP算法及流式文本数据特征相结合,然后提出文本数据流聚类算法——OAP-s算法。该算法通过在AP算法上引入衰减因子,对聚类中心结果进行衰减的同时将当前时间窗口的聚类中心带入到下一时间窗口中进行聚类。本文针对OAP-s算法的不足,又提出了OWAP-s算法。该算法在OAP-s算法模型基础上定义了加权相似度,并通过引入吸引度因子,使得历史聚类中心更具吸引性,得到更精确的聚类结果。同时,两种算法均采用滑动时间窗口模式,使算法既能体现数据流的时态特征,又能反映数据流的分布特征。实验结果表明,两种算法在聚类精确度、稳定性方面均高于OSKM算法,而且具有较好的伸缩性和可扩展性。然后基于OWAP-s算法对抓取的三只股票新闻进行了事件检测。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号