首页> 外国专利> A machine learning system for extracting structured records from web pages and other text sources

A machine learning system for extracting structured records from web pages and other text sources

机译:一种用于从网页和其他文本源提取结构化记录的机器学习系统

摘要

A method for extracting a structured record (190) from a document (100) is described where the the structured record includes information related to a predetermined subject matter (120), with this information being organized into categories within the structured record. The method comprises the steps of identifying a span of text (130) in the document (100) according to criteria associated with the predetermined subject matter and processing (150) the span of text to extract at least one text element associated with at least one of the categories of the structured record (190) from the document (100).
机译:描述了一种用于从文档(100)提取结构化记录(190)的方法,其中结构化记录包括与预定主题(120)有关的信息,该信息被组织在结构化记录内的类别中。该方法包括以下步骤:根据与预定主题相关联的标准来识别文档(100)中的文本跨度(130),以及处理(150)文本跨度以提取与至少一个文本相关联的至少一个文本元素。文档(100)中结构化记录(190)的类别。

著录项

  • 公开/公告号EP1669896A2

    专利类型

  • 公开/公告日2006-06-14

    原文格式PDF

  • 申请/专利权人 PANSCIENT PTY LTD.;

    申请/专利号EP20050111255

  • 发明设计人 BAXTER JONATHAN;SEYMORE KIRSTIE;

    申请日2005-11-24

  • 分类号G06F17/30;

  • 国家 EP

  • 入库时间 2022-08-21 21:27:53

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号