中文分词及其在基于Lucene的全文检索中的应用

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着网络的发展及普及，电子文档正以惊人的速度增长。如何从这些海量信息中快速、准确地提取有价值的信息已经成为人们关注的焦点，这给信息检索技术带来了机遇和挑战，同时也促进了全文检索技术的发展。Lucene便是随着这一过程而产生发展的。Lucene是一个开放源码的全文检索引擎架构，可以很方便地对其进行二次开发，来构建全文检索系统。但在具体实现上，它仍有很多待改进的地方，尤其是在对中文信息的处理上。因为这涉及到中文分词，而中文分词在中文信息检索中占有很重要的作用，它决定了检索的精度。在对Lucene进行深入研究后，本文构造出一种适应中英文信息处理的Lucene语言分析器，该分析器的核心模块——分词器所使用的分词算法是一种基于词典的中文分词算法，该算法具体实现上采用了基于词前缀哈希技术来进行逐字匹配，采用基于规则统计技术来进行新词识别，通过对分词中衍生词进行回溯分析来处理分词中歧义，从而达到了高效而准确的分词目的。此外，本文还为该语言分析器构造了一些过滤器，用来对初步分词结果进行过滤、优化。本文还设计了文本内容提取器来对Lucene的数据源进行预处理，同时对Lucene的其他一些不足之处，比如检索结果的过滤、排序等进行了改进。最后，本文设计了一个基于改进Lucene的Web全文检索系统，并介绍了其核心模块的详细设计过程。

著录项

作者
李雪松;
展开▼
作者单位

中山大学;

展开▼
授予单位中山大学;
学科计算机软件与理论
授予学位硕士
导师姓名苏开乐;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类全文情报检索系统;
关键词
全文检索; Lucene; 中文分词; 分词算法; 哈希;

相似文献

中文文献
外文文献
专利

1. 基于Lucene的全文检索技术在电力项目计划审核中的应用 [J] . 张全明 ,曹开江 ,罗毅 . 科学技术与工程 . 2018,第018期
2. 基于Lucene的自定义检索模型在内容管理系统全文检索中的应用 [J] . 王玮璇 . 机电产品开发与创新 . 2014,第002期
3. 基于DotLucene的全文检索及其在GIS中的应用 [J] . 曹一冰 ,华一新 ,汪军 . 测绘工程 . 2011,第006期
4. 基于配置管理与Lucene全文检索的企业知识系统应用研究 [J] . 赵慧杰 ,魏永启 ,姜进成 . 山东煤炭科技 . 2020,第006期
5. 基于Lucene对文件全文检索的研究与应用 [J] . 郭永利 ,卢颖颖 . 微型电脑应用 . 2014,第001期
6. Lucene全文检索引擎的结构机制与应用方式 [C] . 李明宙 ,罗艳 ,王宗义 . 广西计算机学会2010年年会 . 2010
7. Lucene中文分词在电子档案全文检索中的应用研究 [A] . 曲哲凝 . 2015

中文分词及其在基于Lucene的全文检索中的应用

目录

摘要

著录项

相似文献

相关主题

期刊订阅