首页> 美国卫生研究院文献>other >Discovering Health Topics in Social Media Using Topic Models
【2h】

Discovering Health Topics in Social Media Using Topic Models

机译:使用主题模型在社交媒体中发现健康主题

代理获取
本网站仅为用户提供外文OA文献查询和代理获取服务,本网站没有原文。下单后我们将采用程序或人工为您竭诚获取高质量的原文,但由于OA文献来源多样且变更频繁,仍可能出现获取不到、文献不完整或与标题不符等情况,如果获取不到我们将提供退款服务。请知悉。

摘要

By aggregating self-reported health statuses across millions of users, we seek to characterize the variety of health information discussed in Twitter. We describe a topic modeling framework for discovering health topics in Twitter, a social media website. This is an exploratory approach with the goal of understanding what health topics are commonly discussed in social media. This paper describes in detail a statistical topic model created for this purpose, the Ailment Topic Aspect Model (ATAM), as well as our system for filtering general Twitter data based on health keywords and supervised classification. We show how ATAM and other topic models can automatically infer health topics in 144 million Twitter messages from 2011 to 2013. ATAM discovered 13 coherent clusters of Twitter messages, some of which correlate with seasonal influenza (r = 0.689) and allergies (r = 0.810) temporal surveillance data, as well as exercise (r = .534) and obesity (r = −.631) related geographic survey data in the United States. These results demonstrate that it is possible to automatically discover topics that attain statistically significant correlations with ground truth data, despite using minimal human supervision and no historical data to train the model, in contrast to prior work. Additionally, these results demonstrate that a single general-purpose model can identify many different health topics in social media.
机译:通过汇总数百万用户的自我报告的健康状况,我们寻求表征Twitter中讨论的各种健康信息。我们描述了一个主题建模框架,用于在社交媒体网站Twitter中发现健康主题。这是一种探索性方法,旨在了解社交媒体中通常讨论哪些健康主题。本文详细介绍了为此目的创建的统计主题模型,疾病主题方面模型(ATAM),以及我们基于健康关键字和监督分类过滤通用Twitter数据的系统。我们展示了ATAM和其他主题模型如何自动推断2011年至2013年间的1.44亿条Twitter消息中的健康主题。ATAM发现了13条一致的Twitter消息簇,其中一些与季节性流感(r = 0.689)和过敏相关(r = 0.810) )的时间监视数据,以及与运动相关的地理调查数据(r = .534)和肥胖症(r = −.631)。这些结果表明,与先前的工作相比,尽管使用了最少的人工监督并且没有历史数据来训练模型,但是可以自动发现与地面真实数据在统计上具有显着相关性的主题。此外,这些结果表明,单一通用模型可以识别社交媒体中的许多不同健康主题。

著录项

  • 期刊名称 other
  • 作者

    Michael J. Paul; Mark Dredze;

  • 作者单位
  • 年(卷),期 -1(9),8
  • 年度 -1
  • 页码 e103408
  • 总页数 11
  • 原文格式 PDF
  • 正文语种
  • 中图分类
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号