首页> 外文会议>Traitement automatique des langues naturelles >Étiquetage en rôles événementiels fondé sur l'utilisation d'un modèle neuronal
【24h】

Étiquetage en rôles événementiels fondé sur l'utilisation d'un modèle neuronal

机译:基于神经模型的事件角色标签

获取原文

摘要

Les systèmes d'extraction d'information doivent faire face depuis toujours à une double difficulté : d'une part, ils souffrent d'une dépendance forte vis-à-vis du domaine pour lesquels ils ont été développés ; d'autre part, leur coût de développement pour un domaine donné est important. Le travail que nous présentons dans cet article se focalise sur la seconde problématique en proposant néanmoins une solution en relation avec la première. Plus précisément, il aborde la tâche d'étiquetage en rôles événementiels dans le cadre du remplissage de formulaire (template filling) en proposant pour ce faire de s'appuyer sur un modèle de représentation distribuée de type neuronal. Ce modèle est appris à partir d'un corpus représentatif du domaine considéré sans nécessiter en amont l'utilisation de prétraitements linguistiques élaborés. Il fournit un espace de représentation permettant à un classifieur supervisé traditionnel de se dispenser de l'utilisation de traits complexes et variés (traits morphosyntaxiques, syntaxiques ou sémantiques). Par une série d'expérimentations menées sur le corpus de la campagne d'évaluation MUC-4, nous montrons en particulier que cette approche permet de dépasser les performances de l'état de l'art et que cette différence est d'autant plus importante que la taille du corpus d'entraînement est faible. Nous montrons également l'intérêt de l'adaptation de ce type de modèle au domaine traité par rapport à l'utilisation de représentations distribuées à usage générique.
机译:信息提取系统一直都面临双重困难:一方面,它们严重依赖于其开发的领域;另一方面,信息提取系统也面临着巨大的挑战。另一方面,它们在给定领域的开发成本很重要。我们在本文中介绍的工作着眼于第二个有问题的问题,但仍提出了与第一个有问题的解决方案。更确切地说,它通过建议依赖于神经类型的分布式表示模型来解决在表单填充(模板填充)框架内的事件角色中添加标签的任务。从需要考虑的领域的语料库中学习此模型,而无需上游使用精心设计的语言预处理。它提供了一个表示空间,允许传统的监督分类器免除使用复杂的各种功能(句法,句法或语义功能)。通过在MUC-4评估活动的语料库上进行的一系列实验,我们特别表明,这种方法可以超越现有技术的性能,并且这种差异更加重要。训练语料库的大小很小。我们还显示出与将分布式表示形式用于一般用途相比,将这种类型的模型改编为已处理域的兴趣。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号