基于主题模型和混合模型的微博客交叉话题发现研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

微博客是一个基于用户关系的信息分享、传播以及获取的平台。微博已经成为互联网上的主要信息源之一。跟其他网络文本不同，微博客内容简单（一般少于140个字）且可以通过各种通讯手段（手机、QQ等）实时发布，容易在短时间内产生大量数据，且这些数据通常数量巨大且杂乱无章，所以很难及时准确地获取感兴趣的信息。
　　话题发现是自然语言处理领域一个新的研究方向，它能够把属于同一话题下的分散的信息有效的汇集并组织起来，从而帮助用户在大数据中快速准确地找到自己感兴趣的信息。传统基于向量空间模型(VSM)和聚类算法相结合的话题检测算法虽得到广泛的应用，且取得了不错的效果，但应用在大规模微博文本话题发现时仍存在很多不足:一是用特征词表示微博文本会出现维度过高、稀疏、同意问题;二是采用文本聚类的话题发现算法大部分都是基于划分的，没有考虑话题之间的关联性，所以存在一定的局限性。
　　在上述基础上，针对微博文本的特点，采用主题模型作为文本表示模型。常用的主题模型主要有潜在语义分析LSA(LatentSemanticAnalysis)、概率潜在语义分析PLSA(ProbabilityLatentsemanticAnalysis)和潜在狄里克利分布LDA(LatentDirichletAllocation)，其中LDA是当前最流行和常用的主题模型，所以本文使用该模型用于提取微博文本隐主题。为了解决传统话题发现算法存在的不足，提出混合模型交叉话题发现算法用于微博交叉话题发现。本文设计完成了微博交叉话题发现系统，在真实数据上的实验结果表明，本文提出的算法具有一定的可行性和有效性。

著录项

作者
詹勇;
展开▼
作者单位

西南交通大学;

展开▼
授予单位西南交通大学;
学科信号与信息处理
授予学位硕士
导师姓名杨燕;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类程序语言、算法语言;
关键词
微博客; 主题模型; 交叉话题发现; 混合模型;

相似文献

中文文献
外文文献
专利

1. 基于跨语言神经主题模型的汉越新闻话题发现方法 [J] . 杨威亚 ,余正涛 ,高盛祥 . 计算机应用 . 2021,第010期
2. 基于RNN和主题模型的社交网络突发话题发现 [J] . 石磊 ,杜军平 ,梁美玉 . 通信学报 . 2018,第004期
3. 一种基于LDA主题模型的话题发现方法 [J] . 郭蓝天 ,李扬 ,慕德俊 . 西北工业大学学报 . 2016,第004期
4. 基于主题模型的微博重要话题发现与排序方法 [J] . 姜晓伟 ,王建民 ,丁贵广 . 计算机研究与发展 . 2013,第0z1期
5. 混合模型的微博交叉话题发现 [J] . 詹勇 ,杨燕 ,王红军 . 计算机科学与探索 . 2013,第008期
6. 基于主题模型的微博重要话题发现与排序方法 [C] . Jiang Xiaowei ,姜晓伟 ,Wang Jianmin . 第30届中国数据库学术会议 . 2013
7. 基于主题模型的微博话题发现与话题摘要 [A] . 詹志远 . 2014

基于主题模型和混合模型的微博客交叉话题发现研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅