基于Wikipedia的语义元数据生成

摘要

语义元数据提供数据的语义信息,在数据的理解、管理、发现和交换中起着极为重要的作用.随着互联网上数据爆炸式的增长,对自动元数据生成技术的需求也就变得更加迫切.获得目标语义元数据及得到足够的训练语料是使用自动生成技术的两个基本问题.由于获得目标语义元数据需要专家知识,而获得足够的训练语料需要大量的手工工作,这也就使得这两个问题在构建—个成功的系统时至关重要.本文基于Wikipedia来解决这两个问题:通过分析一个类别中条目的目录表(table-of-contents)来抽取目标语义元数据,通过对分析文档结构和赋予目标结构正确的语义元数据来构建训练语料库.实验结果表明,本文的方法能够有效的解决这两个问题,为进一涉的大规模的语义元数据应用系统打下了坚实的基础.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号