首页> 中文学位 >基于主题模型和混合模型的微博客交叉话题发现研究
【6h】

基于主题模型和混合模型的微博客交叉话题发现研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 论文的研究背景与意义

1.2 国内外研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 本文主要内容与结构安排

第2章 相关概念与技术基础概述

2.1 微博客知识介绍

2.1.1 微博客概述

2.1.2 微博客产生的影响

2.2 话题发现相关技术

2.2.1 网络信息采集

2.2.2 信息预处理

2.2.3 文本模型表示

2.2.4 话题发现算法

2.2.5 话题发现评价方法

2.3 本章小结

第3章 主题模型和混合模型相结合的微博客话题发现

3.1 传统算法存在的问题

3.2 主题模型的引出

3.2.1 LSA模型

3.2.2 PLSA模型

3.2.3 LDA模型

3.3 基于混合模型的交叉聚类

3.4 微博交叉话题检测基本思想

3.5 本章总结

第4章 微博交叉话题发现系统实现

4.1 数据准备阶段

4.2 主题模型文本表示

4.2.1 LDA模型参数设定

4.2.2 LDA模型文本建模实现

4.3 微博客交叉话题的发现

4.4 本章总结

结论与展望

致谢

参考文献

攻读硕士学位期间发表的论文及参与的项目

展开▼

摘要

微博客是一个基于用户关系的信息分享、传播以及获取的平台。微博已经成为互联网上的主要信息源之一。跟其他网络文本不同,微博客内容简单(一般少于140个字)且可以通过各种通讯手段(手机、QQ等)实时发布,容易在短时间内产生大量数据,且这些数据通常数量巨大且杂乱无章,所以很难及时准确地获取感兴趣的信息。
   话题发现是自然语言处理领域一个新的研究方向,它能够把属于同一话题下的分散的信息有效的汇集并组织起来,从而帮助用户在大数据中快速准确地找到自己感兴趣的信息。传统基于向量空间模型(VSM)和聚类算法相结合的话题检测算法虽得到广泛的应用,且取得了不错的效果,但应用在大规模微博文本话题发现时仍存在很多不足:一是用特征词表示微博文本会出现维度过高、稀疏、同意问题;二是采用文本聚类的话题发现算法大部分都是基于划分的,没有考虑话题之间的关联性,所以存在一定的局限性。
   在上述基础上,针对微博文本的特点,采用主题模型作为文本表示模型。常用的主题模型主要有潜在语义分析LSA(LatentSemanticAnalysis)、概率潜在语义分析PLSA(ProbabilityLatentsemanticAnalysis)和潜在狄里克利分布LDA(LatentDirichletAllocation),其中LDA是当前最流行和常用的主题模型,所以本文使用该模型用于提取微博文本隐主题。为了解决传统话题发现算法存在的不足,提出混合模型交叉话题发现算法用于微博交叉话题发现。本文设计完成了微博交叉话题发现系统,在真实数据上的实验结果表明,本文提出的算法具有一定的可行性和有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号