首页> 中文期刊> 《计算机科学》 >基于MRT-LDA模型的微博文本分类

基于MRT-LDA模型的微博文本分类

         

摘要

Micro-blog's widespread use has produced a large number of micro-blog data,which contains a large number of valuable information.However,due to the short text content of micro-blog information and its own information on the social network,the traditional model method is not so effective to deal with micro-blog information.For this kind of special text,the traditional text mining algorithm can't be very good.Based on latent dirichlet allocation (LDA),this paper put forward a micro blogging generation model MRT-LDA according to the characteristics of micro blog information,which takes the relations between Chinese micro-blog documents and other Chinese micro-blog documents into consideration to help topic mining in micro-blog.Gibbs sampling method is used to inference the model,the results indicate that the model can offer an effective solution to text mining for Chinese micro-blog.%微博的广泛使用产生了大量微博数据,这些数据中包含有大量有价值的信息.然而由于微博信息的文本内容简短且其本身带有一些结构化的社会网络方面的信息,传统的主题模型建模方法并不能十分有效地处理微博信息.根据微博信息的特点,提出一个基于Latent Dirichlet Allocation (LDA)的微博生成模型MRT-LDA,利用微博之间的转发、对话、支持(赞)和评论等关系来计算微博之间的相关性,综合考虑微博之间的相关性和同一用户微博信息间的关系,来辅助对微博的主题进行挖掘.采用吉布斯抽样法对模型进行推导,结果表明该模型能有效地对微博数据进行文本挖掘.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号