首页> 中文学位 >基于知网的多关键字检索研究
【6h】

基于知网的多关键字检索研究

代理获取

目录

封面

中文摘要

英文摘要

目录

1 绪 论

1.1 课题目的和意义

1.2 本文的组织结构

2 搜索引擎概述

2.1 搜索引擎的介绍

2.2 智能搜索引擎

2.3 元搜索引擎的概述

2.4 智能元搜索引擎

3 知网简介

3.1 知网的提出

3.2 知网的结构

3.3 知网的指导思想

3.4 知网的描述

3.5 基于知网的语义计算

4 基于知网的多关键词知晓技术研究

4.1 多关键词检索的必要性

4.2 多关键词分析

4.3 最佳义原表示项选择

4.4 多关键词的语义关系分析

4.5 复合词的知晓

5 基于知网的多关键词知晓实现

5.1 元搜索引擎系统的实现框架图

5.2 元搜索引擎系统搜索引擎源的选择

5.3 知网数据库的建立

5.4 实验及结果分析

6 总 结

致谢

参考文献

附录

展开▼

摘要

随着因特网信息的飞速膨胀,网络成为人们获取信息的主要渠道,而信息检索也成为人们上网的主要目的之一。但是,如何从这样一个庞大的信息资源库中获取需要的准确信息,已成为人们面临的一个重要问题。现有的搜索引擎往往采用机械式的字符串匹配的搜索技术,在处理单一关键词时,基本可以满足用户要求,但在处理多关键词时,问题就出现了。首先,由于只是基于字符串匹配,使得位置靠后的关键词很可能被忽略掉。再者,即使多个关键词都匹配到,但没有注重关键词的各自的重要度,从而导致检索结果与用户意图不符,降低查询的准确度。
  在处理多关键词时,需要一个强大的知识库的支持。知网是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。它为自然语言信息处理的研发提供了丰富的知识资源。因此,本文选定知网来实现多关键词的处理,使得检索不再是简单的基于关键词的机械式匹配,而是注重关键词间的语义关系,用以解决当前搜索引擎查准率低的问题。
  本文认真研究知网后提出了基于知网的多关键词知晓模型,模型主要包括三大模块的实现:词义消歧模块、语义关系知晓模块、复合词处理模块。词义消歧模块:一词多义是制约语义关系知晓的重要因素。因此,本文提出了影响相关度的五种因素,并通过计算多关键词的语义相关度进行词义消歧。语义关系知晓模块:根据汉语的特点,本文提出了八种多关键词语义关系、核心关键词与分级权重,并根据不同的语义关系设置不同的分级权重,以提高查询的准确度。复合词处理模块:对于知网中未出现的词语,即复合词,本文基于语义关系知晓提出了概念组合法,以确定复合词义原表示项,并解决了复合词无法参与语义关系判断的难题。
  为了验证模型的合理性,本文分别对三个模块进行了实验,并结合多关键词的知晓技术设计了一个元搜索引擎检索模型。从实验结果来看,基于知网的多关键词知晓模型在搜索引擎中的应用是可行的,提高了搜索引擎的查准率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号