首页> 中文学位 >中文分词及其在基于Lucene的全文检索中的应用
【6h】

中文分词及其在基于Lucene的全文检索中的应用

代理获取

目录

文摘

英文文摘

声明

第1章绪论

1.1课题背景

1.2本研究的基本思路

1.3本研究的贡献

1.4论文结构

第2章全文检索与相关技术

2.1全文检索系统概述

2.2全文检索衡量指标

2.3 Lucene简介

2.4中文分词简介

第3章Lucene分析与设计

3.1 Lucene的结构

3.2 Lucene全文检索的过程

3.3 Lucene语言分析器

3.4 Lucene的应用及扩展

第4章中英文分析器CESegAnalyzer的设计

4.1 CESegAnalyzer分析器简介

4.2系统中用到术语说明

4.3词典的维护管理

4.4分词算法详述

4.5实验结果分析

4.6本章小结

第5章改进的Lucene在全文检索中的应用

5.1开发环境简介

5.2应用系统简介

5.3系统的功能模块

5.4系统的详细设计与实现

第6章总结与展望

6.1总结

6.2展望

参考文献

致 谢

展开▼

摘要

随着网络的发展及普及,电子文档正以惊人的速度增长。如何从这些海量信息中快速、准确地提取有价值的信息已经成为人们关注的焦点,这给信息检索技术带来了机遇和挑战,同时也促进了全文检索技术的发展。Lucene便是随着这一过程而产生发展的。Lucene是一个开放源码的全文检索引擎架构,可以很方便地对其进行二次开发,来构建全文检索系统。但在具体实现上,它仍有很多待改进的地方,尤其是在对中文信息的处理上。因为这涉及到中文分词,而中文分词在中文信息检索中占有很重要的作用,它决定了检索的精度。 在对Lucene进行深入研究后,本文构造出一种适应中英文信息处理的Lucene语言分析器,该分析器的核心模块——分词器所使用的分词算法是一种基于词典的中文分词算法,该算法具体实现上采用了基于词前缀哈希技术来进行逐字匹配,采用基于规则统计技术来进行新词识别,通过对分词中衍生词进行回溯分析来处理分词中歧义,从而达到了高效而准确的分词目的。此外,本文还为该语言分析器构造了一些过滤器,用来对初步分词结果进行过滤、优化。 本文还设计了文本内容提取器来对Lucene的数据源进行预处理,同时对Lucene的其他一些不足之处,比如检索结果的过滤、排序等进行了改进。 最后,本文设计了一个基于改进Lucene的Web全文检索系统,并介绍了其核心模块的详细设计过程。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号