首页> 外文OA文献 >Knowledge acquisition for coreference resolution
【2h】

Knowledge acquisition for coreference resolution

机译:知识获取以实现共指解析

摘要

Diese Arbeit befasst sich mit dem Problem der statistischen Koreferenzauflösung. Theoretische Studien bezeichnen Koreferenz als ein vielseitiges linguistisches Phänomen, das von verschiedenen Faktoren beeinflusst wird. Moderne statistiche Algorithmen dagegen basieren sich typischerweise auf einfache wissensarme Modelle. Ziel dieser Arbeit ist das Schließen der Lücke zwischen Theorie und Praxis.Ausgehend von den Erkentnissen der theoretischen Studien erfolgt die Bestimmung der linguistischen Faktoren die fuer die Koreferenz besonders relevant erscheinen. Unterschiedliche Informationsquellen werden betrachtet: von der Oberflächenübereinstimmung bis zu den tieferen syntaktischen, semantischen und pragmatischen Merkmalen. Die Präzision der untersuchten Faktoren wird mit korpus-basierten Methoden evaluiert. Die Ergebnisse beweisen, dass die Koreferenz mit den linguistischen, in den theoretischen Studien eingebrachten Merkmalen interagiert. Die Arbeit zeigt aber auch, dass die Abdeckung der untersuchten theoretischen Aussagen verbessert werden kann.Die Merkmale stellen die Grundlage für den Aufbau eines einerseits linguistisch gesehen reichen andererseits auf dem Machinellen Lerner basierten, d.h. eines flexiblen und robusten Systems zur Koreferenzauflösung. Die aufgestellten Untersuchungen weisen darauf hin dass das wissensreiche Model erfolgversprechende Leistung zeigt und im Vergleich mit den Algorithmen, die sich auf eine einzelne Informationsquelle verlassen, sowie mit anderen existierenden Anwendungen herausragt. Das System erreicht einen F-wert von 65.4% auf dem MUC-7 Korpus. In den bereits veröffentlichen Studien ist kein besseres Ergebnis verzeichnet.Die Lernkurven zeigen keine Konvergenzzeichen. Somit kann der Ansatz eine gute Basis fuer weitere Experimente bilden: eine noch bessere Leistung kann dadurch erreicht werden, dass man entweder mehr Texte annotiert oder die bereits existierende Daten effizienter einsetzt.Diese Arbeit beweist, dass statistiche Algorithmen fuer Koreferenzauflösung stark von den theoretischen linguistischen Studien profitiern können und sollen: auch unvollständige Informationen, die automatische fehleranfällige Sprachmodule liefern, können die Leistung der Anwendung signifikant verbessern.
机译:这项工作解决了统计参考解析的问题。理论研究将共同​​参考称为一种受多种因素影响的通用语言现象。另一方面,现代统计算法通常基于简单的低知识模型。这项工作的目的是弥合理论与实践之间的鸿沟,根据理论研究的知识,确定似乎与参考文献特别相关的语言因素。考虑了不同的信息来源:从表面匹配到更深的句法,语义和语用功能。使用基于身体的方法评估所检查因素的精度。结果证明,共同指称与理论研究中引入的语言特征相互作用。但是,这项工作还表明,所研究的理论陈述的涵盖范围可以得到改善。灵活而强大的参考解析系统。提出的研究表明,知识模型显示出令人鼓舞的性能,并且与依赖单个信息源的算法和其他现有应用程序相比,该模型脱颖而出。该系统在MUC-7主体上实现了65.4%的F值。在已经发表的研究中没有记录出更好的结果;因此,该方法可以为进一步的实验打下良好的基础:通过注释更多文本或更有效地使用现有数据可以达到更好的性能,这证明了用于共同引用解析的统计算法与理论语言学研究存在很大差异。可以并且应该受益:即使自动提供易于出错的语言模块的不完整信息也可以显着提高应用程序的性能。

著录项

  • 作者

    Uryupina Olga;

  • 作者单位
  • 年度 2007
  • 总页数
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号