首页> 外文期刊>Computer Networks >Learning page-independent heuristics for extracting data from Web pages
【24h】

Learning page-independent heuristics for extracting data from Web pages

机译:学习与页面无关的启发式方法,以从Web页面提取数据

获取原文
获取原文并翻译 | 示例
           

摘要

One bottlenck in implementing a system that intelligently queries the Web is developing `wrappers' --programs that extract data from Web pages. Here we describe a method for learning general, page-independent heuristics for extracting data from HTML documents. The input to our learning system is a set of working wrapper programs, paired with HTML pages they correctly wrap. The output is a general procedure for extracting data that works for may formats and many pages. In experiments with a collection of 84 constrained but realistic extraction problems, we demonstrate that 30/100 of the problems can be handled perfectly by learned extraction heuristics, and around 50/100 can be handled acceptably. We also demonstrate that learned page-independent extraction heuristics can substantially improve the performance of methods for learning page-specific wrappers.
机译:实现智能查询Web的系统的一个瓶颈是开发“包装器”(wrappers)程序,该程序可以从Web页提取数据。在这里,我们描述了一种用于学习一般的,独立于页面的启发式方法的方法,该方法用于从HTML文档中提取数据。我们学习系统的输入是一组有效的包装程序,以及正确包装的HTML页面。输出是提取可用于可能的格式和许多页面的数据的通用过程。在收集了84个受约束但现实的提取问题的实验中,我们证明了30/100的问题可以通过学习的提取试探法完美地解决,大约50/100的问题可以接受。我们还证明,独立于页面的提取启发式学习可以大大提高学习特定于页面的包装器的方法的性能。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号