首页> 外文学位 >Clustering short status messages: A topic model based approach.
【24h】

Clustering short status messages: A topic model based approach.

机译:聚集简短状态消息:一种基于主题模型的方法。

获取原文
获取原文并翻译 | 示例

摘要

Recently, there has been an exponential rise in the use of online social media systems like Twitter and Facebook. Even more usage has been observed during events related to natural disasters, political turmoil or other such crises. Tweets or status messages are short and may not carry enough contextual clues. Hence, applying traditional natural language processing algorithms on such data is challenging. Topic model is a popular method for modeling term frequency occurrences for documents in a given corpus. A topic basically consists of set of words that co-occur frequently. Unsupervised nature allows topic models to be trained easily on datasets meant for specific domains.;We use the topic modeling feature of MALLET - a machine learning tool kit, to generate topic models from unlabelled data. We propose a way to cluster tweets by using the topic distributions in each tweet. We address the problem of determining which topic model is optimal for clustering tweets based on its clustering performances. We also demonstrate a use case wherein we cluster Twitter users based on the content they tweet. We back our research with experimental results and evaluations.;Keywords: topic models, clustering, social media, Twitter.
机译:最近,诸如Twitter和Facebook之类的在线社交媒体系统的使用呈指数增长。在与自然灾害,政治动荡或其他此类危机有关的事件期间,人们观察到更多用法。推文或状态消息很短,可能没有足够的上下文线索。因此,将传统自然语言处理算法应用于此类数据具有挑战性。主题模型是一种流行的方法,用于对给定语料库中的文档的词频出现进行建模。主题基本上由频繁出现的一组单词组成。无监督的本质使主题模型可以在针对特定领域的数据集上轻松训练。;我们使用MALLET的主题建模功能-一种机器学习工具套件,可以从未标记的数据生成主题模型。我们提出了一种通过使用每个推文中的主题分布来对推文进行聚类的方法。我们解决了基于其聚类性能来确定哪种主题模型最适合于对推文进行聚类的问题。我们还演示了一个用例,其中我们基于Twitter用户的tweet内容对其进行聚类。我们以实验结果和评估来支持我们的研究。关键词:主题模型,聚类,社交媒体,Twitter。

著录项

  • 作者

    Karandikar, Anand.;

  • 作者单位

    University of Maryland, Baltimore County.;

  • 授予单位 University of Maryland, Baltimore County.;
  • 学科 Computer Science.
  • 学位 M.S.
  • 年度 2010
  • 页码 60 p.
  • 总页数 60
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号