首页> 外文OA文献 >Resolução de correferências em língua portuguesa: pessoa, local e organização
【2h】

Resolução de correferências em língua portuguesa: pessoa, local e organização

机译:葡萄牙语来往信件的决议:人,地点和组织

摘要

Resolução de correferências é um processo que consiste em identificar as diversas formas que uma mesma entidade nomeada pode assumir em um determinado texto. Em outras palavras, esse processo consiste em identificar determinados termos e expressões que remetem a uma mesma entidade. A resolução automática de correferência textual está inserida num contexto muito importante na área de Processamento da Linguagem Natural (PLN), pois vários sistemas necessitam dessa tarefa, como, por exemplo, a extração de relação entre entidades nomeadas. O nível de processamento linguístico depende do conhecimento de mundo, e isso ainda é um desafio para a área. A necessidade crescente por ferramentas de PLN e a escassez de recursos livres para a língua portuguesa motivaram trabalhar com essa língua nesta dissertação de mestrado. O presente trabalho teve por objetivo desenvolver uma ferramenta open source para a resolução de correferências em língua portuguesa, tendo como foco as categorias de entidades nomeadas Pessoa, Local e Organização.Optou-se por essas três categorias por essas serem as mais relevantes para a maioria das tarefas de PLN, pelo fato de tratarem entidades mais específicas e de interesse comum. Além disso, são as categorias mais exploradas em trabalhos voltados à resolução de correferência. Escolheu-se trabalhar apenas com recursos open source pelo fato de a maioria dos trabalhos para a língua portuguesa utilizar recursos proprietários. Isso acaba limitando a disponibilidade da ferramenta e, consequentemente, o seu uso. A metodologia utilizada é baseada em aprendizado de máquina supervisionado. Para tal, o uso de features que auxiliem na correta classificação de pares de sintagmas como correferentes ou não-correferentes é fundamental para,posteriormente,agrupá-los, gerando cadeias de correferência. Embora ainda existam muitos desafios a serem resolvidos, os resultados do sistema descrito nesta dissertação são animadores, quando comparados indiretamente, por meio de uma mesma métrica, ao atual estado da arte.
机译:对应关系的解决是一个过程,该过程包括标识相同命名实体可以在给定文本中采用的不同形式。换句话说,此过程包括标识引用同一实体的某些术语和表达。文本对应关系的自动解析被插入到自然语言处理(PLN)领域中非常重要的上下文中,因为一些系统需要此任务,例如提取命名实体之间的关系。语言处理的水平取决于对世界的了解,这仍然是该地区的挑战。对PLN工具的需求与日俱增,以及葡萄牙语免费资源的匮乏,促使我们在本硕士论文中使用这种语言。当前的工作旨在开发一种用于解决葡萄牙语通信问题的开源工具,重点关注名为“人”,“地点”和“组织”的实体类别,因为这三个类别与大多数实体最相关,因此被选中PLN任务,因为它们处理具有共同利益的更具体的实体。此外,它们是旨在解决对应关系的研究中最探索的类别。我们选择仅使用开源资源,因为葡萄牙语的大部分作品都使用专有资源。这最终限制了工具的可用性,并因此限制了它的使用。所使用的方法基于有监督的机器学习。为此,使用有助于将短语对正确分类为对应或非对应的功能对于以后对其进行分组以生成对应链至关重要。尽管仍然有许多挑战有待解决,但是当使用相同的度量标准进行间接比较时,本文所描述的系统的结果令人鼓舞。

著录项

  • 作者

    Fonseca Evandro Brasil;

  • 作者单位
  • 年度 2014
  • 总页数
  • 原文格式 PDF
  • 正文语种 Português
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号