基于文档重排的索引压缩技术

摘要

对于提高网络搜索引擎系统的性能而言,有效的存取倒排索引表和快速的响应搜索操作起着关键的作用,故提出了一种能够有效提高索引压缩率的文档重排算法--Star-Scan算法.该算法是利用聚类算法将相似的文档排列到一起,从而减少编码文档编号(DocID)之间的差值所需要的字节数,达到提高索引压缩率的效果.在TREC12数据集上进行的多个实验表明,与随机排列相比,通过Star-Scan算法重新排列后的倒排表在Delta编码方式上压缩率平均提高了大约30.22﹪,从而有效地提高了搜索引擎的效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号