首页> 外文期刊>International Journal of Electrical and Computer Engineering >Web document classification using topic modeling based document ranking
【24h】

Web document classification using topic modeling based document ranking

机译:使用基于主题建模的文档排名进行Web文档分类

获取原文
           

摘要

In this paper, we propose a web document ranking method using topic modeling for effective information collection and classification. The proposed method is applied to the document ranking technique to avoid duplicated crawling when crawling at high speed. Through the proposed document ranking technique, it is feasible to remove redundant documents, classify the documents efficiently, and confirm that the crawler service is running. The proposed method enables rapid collection of many web documents; the user can search the web pages with constant data update efficiently. In addition, the efficiency of data retrieval can be improved because new information can be automatically classified and transmitted. By expanding the scope of the method to big data based web pages and improving it for application to various websites, it is expected that more effective information retrieval will be possible.
机译:在本文中,我们提出了一种使用主题建模的Web文档排名方法,以获得有效信息收集和分类。 该提出的方法应用于文档排名技术,以避免在高速爬行时重复爬行。 通过所提出的文档排名技术,可以删除冗余文档是可行的,有效地对文档进行分类,并确认爬网程序正在运行。 该方法可以快速收集许多Web文件; 用户可以使用常量数据有效地搜索网页。 此外,可以提高数据检索的效率,因为可以自动分类和传输新信息。 通过将方法的范围扩展到基于大数据的网页并将其改进以应用于各种网站,预计将可能是更有效的信息检索。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号