首页> 中文期刊> 《工程科学与技术》 >基于伪属性语义匹配的Deep web信息抽取

基于伪属性语义匹配的Deep web信息抽取

         

摘要

已有的Deep Web信息抽取算法主要对结构规范的网页进行模版的提取,目前多数Deep Web网页在结构上是非规范的,网页中记录属性字段可能缺失或重复、原子属性字段可能被html标签分隔。为了正确抽取这些非规范网页,提出了一种新方法:引入了记录的伪属性及其语义匹配概念,通过实现记录间伪属性序列的语义匹配实现信息抽取;提出了伪属性序列的模型及其语义匹配算法和记录Wrapper模型及其生成算法。实验表明,在结构不规范deep web网页的抽取上,能达到91%的查全率和93%的查准率,相对其它算法有一定优势。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号