首页> 中文期刊> 《软件学报》 >DF还是IDF?主特征模型在Web信息检索中的使用

DF还是IDF?主特征模型在Web信息检索中的使用

         

摘要

Web信息检索的难点之一就是简短、模糊的用户查询与存在大量冗余和噪声的文档之间的不匹配.对Web文档信息特征进行分析,提出Web文档主特征词、主特征域和主特征空间的概念,在该空间上使用文档频度DF(document frequency)信息而非传统意义上的IDF(inverse document frequency)信息进行权值计算,并给出一个改进的相似度计算模型.使用该模型在10G和19G的两个大规模Web文档集合上进行了3组标准测试.比较实验表明,与传统IDF思想相比,在各项评价指标上,DF相关的主特征权值计算方法都能始终较大幅度地提高系统性能,最大达到18.6%的性能改善.

著录项

  • 来源
    《软件学报》 |2005年第5期|1012-1020|共9页
  • 作者

    张敏; 马少平; 宋睿华;

  • 作者单位

    清华大学;

    计算机科学与技术系;

    北京;

    100084;

    清华大学;

    智能技术与系统国家重点实验室;

    北京;

    100084;

    清华大学;

    计算机科学与技术系;

    北京;

    100084;

    清华大学;

    智能技术与系统国家重点实验室;

    北京;

    100084;

    清华大学;

    计算机科学与技术系;

    北京;

    100084;

    清华大学;

    智能技术与系统国家重点实验室;

    北京;

    100084;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 计算机网络;
  • 关键词

    Web信息检索; 主特征模型; 权值计算; 文档频度;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号