首页> 中文学位 >基于LDA模型和AP聚类算法的主题演化研究
【6h】

基于LDA模型和AP聚类算法的主题演化研究

代理获取

目录

声明

致谢

摘要

第一章 绪论

1.1 研究背景及研究意义

1.2 国内外相关研究综述

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 本文的组织结构

第二章 相关理论概述

2.1 主题建模概述

2.1.1 潜在语义索引

2.1.2 概率主题模型

2.2 LDA模型

2.2.1 LDA模型简介

2.2.2 参数估计

2.2.3 最优话题数目选择

2.3 主题聚类算法

2.3.1 共现主题词提取

2.3.2 常用的聚类算法

2.4 主题演化

2.4.1 主题演化简介

2.4.2 主题演化模式

2.4.3 自适应主题演化

第三章 基于LDA-AP的主题演化模型

3.1 主题演化模型框架

3.2 基于LDA-AP主题演化模型实施步骤

3.2.1 文本预处理

3.2.2 主题检测

3.2.3 主题演化分析方法

3.3 基于时间衰减的LDA-AP主题演化模型

3.3.1 权重调整

3.3.2 时间衰减函数

第四章 实验结果与分析

4.1 实验设计

4.1.1 数据采集

4.1.2 文本预处理

4.1.3 主题建模

4.1.4 参数选择

4.2 实验结果及对比

4.2.1 主题演化改进模型实验设计

4.2.2 主题内容演化结果对比

4.2.3 主题强度演化结果

4.2.4 主题演化评测结果对比

第五章 结论与展望

5.1 总结

5.2 展望

参考文献

攻读硕士学位期间的学术活动及成果情况

展开▼

摘要

随着互联网的高速发展,网络信息都呈现爆炸性增长趋势,而互联网新闻由于覆盖面广、传播速度快和亲和力强等特点,成为人们获取信息的主要途径。因此,建立新闻的主题演化分析体系可以帮助用户从海量的互联网新闻数据中获取更有价值的信息。分析新闻事件的演化发展轨迹,对于政府进行舆情监控以及企业进行商情挖掘都有着十分重要的作用。  论文首先分析了新闻主题演化的背景意义,对目前的主题检测及演化模型研究现状进行了深入的探讨与研究;其次探讨了基于共现词理论的主题建模分析和LDA主题模型在新闻演化检测上的应用;然后针对LDA主题演化模型中的单主题演化和阈值设定的缺点,结合主题演化理论和聚类思想,构建LDA-AP主题演化模型。最后介绍了自适应主题演化模型的背景和目前的研究情况,结合时间衰减的自适应调整策略提出基于时间衰减的LDA-AP模型,并利用此模型来挖掘不同时间窗口内的新闻主题之间的演化关系。在此基础上,从新浪、网易等网站中搜集新闻数据完成主题演化实验,通过与基准方法的实验对比,验证了基于时间衰减的LDA-AP模型在主题演化上的可行性。  通过本文的实验研究发现,基于时间衰减的LDA-AP模型的主题演化分析方法,不仅可以挖掘多个新闻主题事件随时间的演化趋势,而且提高了主题演化的准确率,有效改善了主题演化的性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号