首页> 外文会议>String processing and information retrieval >Query-Sets~(++): A Scalable Approach for Modeling Web Sites
【24h】

Query-Sets~(++): A Scalable Approach for Modeling Web Sites

机译:查询集〜(++):网站建模的可扩展方法

获取原文
获取原文并翻译 | 示例

摘要

We explore an effective approach for modeling and classifying Web sites in the World Wide Web. The aim of this work is to classify Web sites using features which are independent of size, structure and vocabulary. We establish Web site similarity based on search engine query hits, which convey document relevance and utility in direct relation to users' needs and interests. To achieve this, we use a generic Web site representation scheme over different feature spaces, built upon query traffic to the site's documents. For this task we extend, in a non-trivial way, our prior work using query-sets for single document representation. We discuss why this previous methodology is not scalable for a large set of heterogeneous Web sites. We show that our models achieve very compact Web site representations. Furthermore, our experiments on site classification show excellent performance and quality/dimensionality trade-off. In particular, we sustain a reduction in the feature space to 5% of the size of the bag-of-words representation, while achieving 99% precision in our classification experiments on DMOZ.
机译:我们探索了一种在万维网上对网站进行建模和分类的有效方法。这项工作的目的是使用与大小,结构和词汇无关的功能对网站进行分类。我们基于搜索引擎查询命中建立网站相似度,传达与用户需求和兴趣直接相关的文档相关性和实用性。为了实现这一点,我们在不同功能空间上使用了通用的网站表示方案,该方案基于对网站文档的查询流量而建立。对于此任务,我们以非平凡的方式扩展了先前的工作,即使用查询集表示单个文档。我们讨论了为什么以前的方法不能为大量异构网站扩展。我们证明了我们的模型实现了非常紧凑的网站表示形式。此外,我们的站点分类实验显示出出色的性能和质量/尺寸折衷。特别是,我们在DMOZ上的分类实验中将特征空间减小到了词袋表示大小的5%,同时实现了99%的精度。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号