首页> 中文期刊> 《计算机工程》 >基于网页框架和规则的网页噪音去除方法

基于网页框架和规则的网页噪音去除方法

         

摘要

提出了一种基于网页框架和规则的网页去除噪音的新方法,该方法根据网页中HTML标签,<table>将网页分成若干部分,对各个table的长宽比属性进行比较,去掉长宽比很大的部分,并对其余table中的内容进行分析,根据内部是否存在和段落文字有关的标签<p>或<br>等来区分主题内容和噪音内容,在此基础上去除噪音内容.对来自CWT200G语料的132 559个网页进行测试后的结果表明,该方法可以有效地去除网页噪音,使索引文件减少约75%,大大地提高了检索速度,准确度也得到一定提高.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号