首页> 中文会议>2005年国防科技组织创新与装备费用管理高级研讨会 >基于正则表达式的信息抽取系统在国防技术监测中的应用

基于正则表达式的信息抽取系统在国防技术监测中的应用

摘要

从应用的角度提出了一种快速的基于正则表达式的半结构化信息抽取的方法。该方法通过对单个样本页面生成DOM树来完成抽取规则的自动生成,在实际大批量的抽取工作中能够避免多次生成页面DOM树。该方法采用了全部基于正则表达式的Web页面的预处理(约简)、Web页面DOM树的生成、抽取规则的定义和执行。通过Web页面的DOM树完成抽取规则的自动生成,抽取规则使用正则表达式的形式记录目标信息的页面特征,最终通过抽取规则的执行完成信息的抽取工作。并将这一新的方法应用在国防技术监测领域,获得最新的国防武器装备方面的信息。因此,该抽取系统具有较高的现实性与创新性,能够在一定程度上很好地支持国家重大国防和武器装备研制计划。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号