首页> 外文学位 >Information extraction and integration for Web databases.
【24h】

Information extraction and integration for Web databases.

机译:Web数据库的信息提取和集成。

获取原文
获取原文并翻译 | 示例

摘要

A large number off the Web pages returned by filling in search forms are not indexable by most search engines today since they are dynamically generated by querying a back-end (relational or object-relational) database. Referred to as Web databases, such Web sites usually contain complex data objects with nested structures in their Web pages. In this thesis, we address a variety of problems related to retrieving information from Web databases. To extract structured data embedded in template-generated pages from Web databases, we first develop an algorithm to automatically identify the data-rich sections in the page and then propose an innovative approach to automatically induce regular-expression wrappers from them. To understand the semantics of both the query interfaces and the extracted data from various Web databases and integrate them, we propose a combined schema model to describe differentiated schemas in a Web database (global, interface and result schema). We then address two significant schema-matching problems for Web databases, intra-site schema matching and inter-site schema matching, and investigate an instance-based method using domain-specific query probing to solve the two problems at the same time.
机译:当今大多数搜索引擎无法通过填写搜索表单返回的大量网页无法索引,因为它们是通过查询后端(关系或对象关系)数据库动态生成的。此类网站称为Web数据库,通常在其Web页面中包含具有嵌套结构的复杂数据对象。在本文中,我们解决了与从Web数据库检索信息有关的各种问题。为了从Web数据库提取嵌入在模板生成的页面中的结构化数据,我们首先开发了一种算法,该算法可自动识别页面中数据丰富的部分,然后提出一种创新的方法,以自动从中诱导出正则表达式包装器。为了理解查询接口和从各种Web数据库中提取的数据的语义并将它们集成在一起,我们提出了一个组合模式模型来描述Web数据库中的差异模式(全局,接口和结果模式)。然后,我们针对Web数据库解决了两个重要的模式匹配问题,即站点内模式匹配和站点间模式匹配,并研究了一种基于实例的方法,该方法使用特定于域的查询探测来同时解决这两个问题。

著录项

  • 作者

    Wang, Jiying.;

  • 作者单位

    Hong Kong University of Science and Technology (People's Republic of China).;

  • 授予单位 Hong Kong University of Science and Technology (People's Republic of China).;
  • 学科 Computer Science.
  • 学位 Ph.D.
  • 年度 2004
  • 页码 118 p.
  • 总页数 118
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类 自动化技术、计算机技术;
  • 关键词

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号