首页> 外文会议>IEEE Symposium on Robotics and Applications >An approach for text extraction from web news page
【24h】

An approach for text extraction from web news page

机译:Web新闻页面文本提取方法

获取原文

摘要

With the rapid development of Internet and Web technology, Web page has become a main carrier of information publishing. In connection with the problems of current complex implementation, high error rate and low extraction speed of Web information extraction technology, this paper proposes a new method of Web extraction based on the characteristics of structure of Web page. This method is to use tree structure of DOM (Document Object Model) when analyzing web page, parsing the Web page into DOM tree to sort the scattered web pages, by the using of the characteristics of Chinese web pages similar in information structure and aggregated distribution to achieve simply with good versatility. At the same time, this method can reduce the complexity when dealing with the structure of web page and increase the speed of the Web information extraction. At present, the method has been applied to the news page automatic classification system, which is good to meet the system's requirements.
机译:随着互联网和网络技术的快速发展,网页已成为信息出版的主要载体。 结合当前复杂实现的问题,高误差率和Web信息提取技术的低提取速度,本文提出了一种基于网页结构特性的Web提取方法。 此方法是在分析网页时使用DOM(文档对象模型)的树结构,将网页解析为DOM树以对散射的网页进行排序,通过使用信息结构和聚合分布的中文网页的特征来进行分散的网页。 实现良好的多功能性。 同时,在处理网页的结构并提高网络信息提取的速度时,这种方法可以降低复杂性。 目前,该方法已应用于新闻页面自动分类系统,这是满足系统的要求。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号