首页> 外国专利> System and Method for Using an Exemplar Document to Retrieve Relevant Documents from an Inverted Index of a Large Corpus

System and Method for Using an Exemplar Document to Retrieve Relevant Documents from an Inverted Index of a Large Corpus

机译:使用示例文档从大语料库的倒排索引中检索相关文档的系统和方法

摘要

A system and method for using an exemplar document or search query to retrieve relevant documents from an inverted index of a large corpus of documents. The system and method groups words by synonym and calculates term frequency (TF) and inverse document frequency (IDF) scores for the respective word groups. A composite term frequency-inverse document frequency (TF-IDF) score is calculated for each word group and the documents of the corpus are ranked based on the TF-IDF scores, utilizing a vector space model incorporating a cosine similarity function.
机译:一种用于使用示例文档或搜索查询从大型文档集的倒排索引中检索相关文档的系统和方法。该系统和方法通过同义词对单词进行分组,并计算相应单词组的词频(TF)和文档反向频率(IDF)得分。使用合并余弦相似度函数的向量空间模型,为每个单词组计算一个复合词频逆文档频率(TF-IDF)分数,并基于TF-IDF分数对语料库文档进行排名。

著录项

  • 公开/公告号US2010332503A1

    专利类型

  • 公开/公告日2010-12-30

    原文格式PDF

  • 申请/专利权人 BRAD BUCKLEY;IGOR MOTOV;

    申请/专利号US20090494452

  • 发明设计人 BRAD BUCKLEY;IGOR MOTOV;

    申请日2009-06-30

  • 分类号G06F17/30;

  • 国家 US

  • 入库时间 2022-08-21 18:11:11

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号