首页> 中文学位 >中文事件抽取与缺失角色填充的研究
【6h】

中文事件抽取与缺失角色填充的研究

代理获取

摘要

事件抽取(EventExtraction)是信息抽取(InformationExtraction,简称IE)的难点之一,它研究的内容是如何从文本中抽取特定类别的事件及其角色。目前,绝大多数的研究对象是英文,对中文事件抽取的研究还处于起步阶段。
   本文在深入研究现有中文事件抽取方法的基础上,提出了新的方法并挖掘出更有效的特征。另外,通过对事件抽取结果的分析发现,完整的事件信息往往分布在文档的各个部分。针对目前事件抽取技术局限在当前句子,从而造成大量事件论元角色缺失的现象,提出了基于跨事件的缺失事件角色填充方法。本文研究内容主要包括:
   1.针对中文特点,提出了采用CRF(ConditionalRandomFields)模型基于字的触发词探测方法,解决了中文自动分词与中文事件触发词边界不一致的问题。此外,在事件类型识别阶段,首次引入跨事件推理,使得特征选取由局部扩展到全局。在ACE2005中文语料上的实验表明,本文提出的两种方法既可以有效提高触发词识别的准确率,又有助于提高事件类型识别性能,F1值分别比现有系统提高5.5和2.5个百分点。
   2.研究了基于CRF模型的事件论元角色抽取任务中多种特征的表现,并将其归纳为词法、语义、依存特征、句法和相对位置等五大类别。考察了各种特征及特征之间组合对系统性能的影响,并重点引入了语义角色标注特征。实验表明,条件随机场模型在事件论元角色抽取方面有较好的表现,且新提出的语义角色特征具有很好的指示作用。F1较现有系统提高5.1个百分点。
   3.对ACE2005中文语料进行了后期标注,并通过对缺失事件角色的分析和统计,提出了一个基于机器学习的缺失事件角色填充方法。该方法把缺失事件角色填充分为识别和分类两个部分,识别阶段用于判定缺失角色是否可被填充,分类阶段用于从其它事件描述中选择合适的角色(实体)对可被填充的缺失角色进行填充。实验表明,两个阶段的F1值分别达到72.97和74.68。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号