首页> 中文学位 >汉语专业领域命名实体语义关系自动抽取研究
【6h】

汉语专业领域命名实体语义关系自动抽取研究

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1专业领域中命名实体语义关系抽取的研究意义

1.2国内外研究现状

1.2.1研究背景

1.2.2研究现状

1.3研究内容

第2章关系自动抽取的理论和技术

2.1文本表示模型

2.1.1严格匹配模型

2.1.2概率模型

2.1.3向量空间模型

2.2特征提取

2.2.1特征信息

2.2.2特征空间优化

2.3聚类方法

2.3.1 K平均算法

2.3.2网络社区发现

2.4本章小结

第3章专业领域无导语义关系抽取系统的实现与优化

3.1系统总体结构

3.2专业语料库

3.3文本预处理模块

3.3.1数据提取及向量空间构造

3.3.2基于《知网》的同义项合并

3.3.3实体-关系网络构造

3.4基于网络社区发现的聚类

3.5基于DCM方法的语义关系描述

3.6基于种子自扩展的弱有导关系抽取验证系统

3.7本章小结

第4章实验结果与分析

4.1实验评测标准

4.2专业领域无指导关系抽取实验

4.2.1参数λ的估计

4.2.2关系发现与描述

4.2.3上下文窗口调整

4.3辅助构造关系模板

4.4初始种子选择实验

4.5本章小结

第5章结论与展望

5.1本文总结

5.2展望

参考文献

攻读硕士学位期间参加的科研项目与公开发表的学术论文

致谢

展开▼

摘要

我们处于一个信息爆炸的时代,互联网上的中文信息在飞速地增长。通过信息抽取技术从浩瀚的中文信息海洋中自动寻找用户所需求的信息则显得至关重要。而命名实体语义关系抽取是信息抽取中的主要任务之一,所以近年来命名实体语义关系抽取研究也成为了我国自然语言处理研究领域中的一个热点。 当前汉语的命名实体语义关系抽取研究主要是有指导(Supervised)或弱有导(Weakly Supervise)的方法,且研究对象大多是一般领域的语料。这些方法在训练语料库的标注、关系抽取规则的编制以及初始关系种子的选取上都费时费力;此外,适用于一般领域语料的关系抽取方法难以满足一些专业领域的需求。所以,本文提出了一套适用于专业语料的无指导命名实体语义关系抽取的方案,并实现了该系统。此外,本文还尝试了利用该系统的抽取结果构造关系模板和关系种子。 本研究针对专业领域的语料特性,运用语言资源工具对向量空间模型(VSM)进行改进和优化,解决了专业领域语料的特征模糊问题;根据潜在关系信息分布特征,设计了专业领域语料中实体.关系网络的构造方法;利用复杂网络(ComplexNetworks)理论中的网络社区(Community)特性,实现了在专业领域语料中关系类别的自动发现;通过对词语在上下文中的重要性分析,采用了提取重要性权重最高词作为关系描述词的关系描述方法。 本文在专业领域语料平台上对该系统进行了实验,并结合权威评价手段对实验进行了评估,另外还构造了有指导关系抽取系统对实验系统获得的关系进行验证。最终结果表明:本系统在专业领域语料中不但能发现几乎所有的人们已知的关系种类,而且能发现一些不为人知的关系种类;系统在无指导的情况下,可以快速并比较准确地得到命名实体之间的关系描述。 实验证实了本文构造的系统在专业领域语料中及无指导情况下具有良好的性能,同时实验还证实了无指导关系抽取结果对有指导关系抽取系统具有辅助作用。此外,本文还发现该系统提取的关系描述可以为专业领域中关系本体(Ontology)的建设提供依据。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号