【24h】

Word Sense Disambiguation by Learning from Unlabeled Data

机译:通过学习未标记的数据来消除词义

获取原文
获取原文并翻译 | 示例

摘要

Most corpus-based approaches to natural language processing suffer from lack of training data. This is because acquiring a large number of labeled data is expensive. This paper describes a learning method that exploits unlabeled data to tackle data sparseness problem. The method uses committee learning to predict the labels of unlabeled data that augment the existing training data. Our experiments on word sense disambiguation show that predictive accuracy is significantly improved by using additional unlabeled data.
机译:大多数基于语料库的自然语言处理方法都缺乏训练数据。这是因为获取大量标记数据很昂贵。本文描述了一种学习方法,该方法利用未标记的数据来解决数据稀疏问题。该方法使用委员会学习来预测未标记数据的标签,这些标签会增强现有的训练数据。我们关于单词歧义消除的实验表明,通过使用其他未标记的数据,可以大大提高预测准确性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号