首页> 中文期刊> 《中文信息学报》 >中文微博情感词提取:N-Gram为特征的分类方法

中文微博情感词提取:N-Gram为特征的分类方法

         

摘要

情感词典是文本情感分析的基础资源,但采用手工方式构建工作量大,且覆盖有限.一种可行的途径是从新情感词传播的重要媒介-微博数据-中自动抽取情感词.该文以COAE 2014评测任务3提供的中文微博数据为统计对象,发现传统的基于共现的方法,如点互信息等,对中文微博数据中的新情感词发现是无效的.为此,设计一组基于上下文词汇的分类特征,即N-Gram特征,以刻画情感词的用词环境和用词模式,并以已知情感词为训练数据训练分类器,对候选情感词进行分类.实验结果表明,该方法较传统基于共现的方法要好.实验还发现,与英语不同的是,中文情感词通常会以名词词性出现,而基于共现的方法无法有效地区分该类情感词,这是造成其失效的主要原因,而该文提出的分类特征能解决这一问题.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号