首页> 中文学位 >基于领域本体的Web实体事件抽取问题研究
【6h】

基于领域本体的Web实体事件抽取问题研究

代理获取

摘要

随着互联网技术的快速发展,Web已经成为一个拥有海量数据且在不断增长的信息源。由于Web页面具有无结构性、多样性和动态变化性等特点,人们很难从Web上获取真正感兴趣的信息。从海量的Web页面中准确获取全面的人们所关心实体的事件信息,为市场情报分析、电子商务以及舆论分析等应用提供支持,成为了目前的热点研究问题。Web信息抽取技术面向大规模的Web数据,将抽取出的无结构或半结构化的数据转换成结构化的数据,为人们提供了有效获取信息的途径。
  基于本体的Web信息抽取是一种将本体以及信息抽取相结合的技术。充分利用本体对特定领域描述信息的Web信息抽取技术表现出了很大的优势,提高了信息抽取的准确率。如何良好地构建面向特定领域的本体,以及如何充分发挥本体的作用进行Web信息抽取的问题有待解决。本文以市场情报领域为背景,针对基于领域本体的Web实体事件抽取的问题展开了相关工作,主要贡献概况如下:
  (1)在分析现有的本体构建方法基础上,提出了适用于特定领域的本体构建方法,有效降低领域专家的参与程度,从而提高构建效率。在该方法的指导下,通过借鉴电子商务网站的知识和复用现有本体,本文构建了市场情报领域本体。针对实体间关系会随时间变化的问题,本文提出了动态实体关系模式。
  (2)改进了基于本体的Web实体事件抽取框架,充分利用了本体中丰富的概念、实例和关系。结合本体中事件结构的特点,本文在进行事件抽取时采用分类的策略,首先将句子按照事件类别进行分类,然后根据不同的事件抽取模板结合抽取规则进行事件抽取,实验证明事件抽取的可行性和有效性。本文提出了一种改进的DAG-SVMs多类分类方法,实验证明该方法具有良好的分类精度和分类速度,与一般分类算法相比获得了更高的查准率和查全率。

著录项

  • 作者

    吴奇;

  • 作者单位

    山东大学;

  • 授予单位 山东大学;
  • 学科 计算机软件与理论
  • 授予学位 硕士
  • 导师姓名 王新军;
  • 年度 2014
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.09;
  • 关键词

    领域本体; 动态实体关系; 事件抽取; Web页面;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号