首页> 中文学位 >基于数据压缩技术的全文本信息检索技术的研究
【6h】

基于数据压缩技术的全文本信息检索技术的研究

代理获取

目录

文摘

英文文摘

声明

第一章引言

1.1课题来源及研究意义

1.2数据压缩技术的发展

1.3全文本数据库压缩技术概述

1.4全文本数据库的正文压缩技术及其研究现状

1.5全文本数据库索引技术及索引压缩技术研究现状

1.6本文所做工作

1.7论文的结构安排

第二章背景知识

2.1数据压缩技术概述

2.2一种基于词汇的面向字节的霍夫曼编码方法

2.3 Moura-Navarro中压缩过程、解压缩过程及其性能分析

2.3.1压缩过程

2.3.2解压缩过程

2.4使用Tagged霍夫曼压缩编码技术压缩的文本上的查找过程

2.5块地址索引压缩技术

第三章一个全文本数据库压缩方法和相关的查找算法

3.1一种压缩编码方法

3.2压缩编码的建立算法

3.3压缩全文本数据库的算法

3.4解压缩算法

3.5查找算法

3.5.1单个词汇的查找算法

3.5.2多个词汇的查找算法

3.5.3布尔查找算法BWS

3.6解压缩过程以及性能分析

3.6.1解压缩过程

3.6.2解压缩过程算法的性能分析

3.7文本数据库的更新处理

3.7.1新增文档的算法

3.7.2删除文档的算法

第四章全文本数据库压缩索引BACI

4.1 BACI的倒排链表

4.2 BACI的词汇表

4.3 BACI的建立算法

4.4 BACI上的几个查找算法

4.4.1单个词汇的查找算法

4.4.2多个词汇的查找算法

4.4.3布尔查找算法

4.5索引的维护

4.5.1删除文档

4.5.2新增文档

第五章算法的实验结果

5.1查找算法的实验结果

5.1.1单个词汇查找算法的实验结果

5.1.2多个词汇查找算法的实验结果

5.1.3布尔查找算法的实验结果

5.1.4查找算法与传统算法的比较分析

5.2压缩算法的实验结果

5.3解压缩过程算法的实验结果

5.4 BACI与传统倒排索引的比较

5.4.1 BACI与传统倒排索引的空间需求

5.4.2单个词汇查找算法的实验结果

5.4.3多个词汇查找算法的实验结果

5.4.4布尔查找算法的实验结果

第六章全文本数据库正文压缩原型系统FDCPS

6.1 FDCPS概述

6.2系统维护模块

6.3数据压缩模块

6.4词汇查找模块

第七章结论与未来的工作

参考文献

致谢

展开▼

摘要

文本信息数量的飞速增长给传统的信息检索技术带来了新的挑战。在目前有关信息检索技术的研究中,基于数据压缩的信息检索技术是一个新的研究领域。由于使用这种技术能够降低文本信息的空间需求并提高查找速度,所以该技术具有较高的理论研究意义和应用前景。 近年来国内外有一些学者在做关于这种技术的研究,但研究成果不多,研究工作也比较粗散零略。 本文在分析总结前人研究成果的基础上研究了一种压缩纯英文文本数据库正文的压缩方法以及和此压缩方法结合使用的一些查找算法和解压缩算法。 使用本文研究的压缩方法能够将典型的英文文本数据库压缩到其原始大小的35%左右,要优于WinZip等目前流行的压缩软件。同时由于检索可在压缩后的文本数据库上直接进行,所以能够提高查找速度。 此外,本文还研究了一个基于“块编址”的压缩倒排索引结构以及在此压缩索引结构上的一些查找算法来获得更好的查找性能。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号