【24h】

A Web Text Extraction Method Based on Regular Expressions and Text Density

机译:基于正则表达式和文本密度的Web文本提取方法

获取原文

摘要

With the advantages of some current web text extraction algorithms, this paper puts forward a new method based on the combination of the regular expressions and density of page text, the method firstly uses the regular expressions to clear the html tags by the characteristics of the web page source code, and then extracts the main text of page with the distribution density of text. The algorithm is simple and efficient and the method proves to have higher accuracy for extraction after tests.
机译:结合当前一些Web文本提取算法的优点,提出了一种结合正则表达式和页面文本密度的新方法,该方法首先利用正则表达式根据Web的特点清除html标签。页面源代码,然后以文本的分布密度提取页面的主要文本。该算法简单高效,经测试证明该方法提取精度较高。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号