首页> 中文学位 >基于Web挖掘的中文专业搜索引擎设计关键技术研究
【6h】

基于Web挖掘的中文专业搜索引擎设计关键技术研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1问题的提出

1.2本文的研究内容

1.3本文的组织

第二章搜索引擎技术概述

2.1搜索引擎的种类

2.2中文搜索引擎的现状及目前存在的问题

2.2.1中文搜索引擎的现状

2.2.2中文搜索引擎目前存在的问题

2.3搜索引擎体系结构

2.4网络蜘蛛的工作原理

2.4.1 Robot的工作过程

2.4.2 Robot的实现方式

2.4.3主题搜索的robot

2.5 HTTP协议

2.5.1 HTTP协议的关键性质

2.5.2 HTTP协议的主要方法

2.5.3 HTTP协议的信息头格式

2.6搜索引擎的评价指标

第三章Web挖掘技术的主要内容

3.1 Web挖掘技术

3.1.1基于Web内容的数据挖掘

3.1.2基于Web结构的挖掘

3.1.3基于Web使用记录的挖掘

3.2 HITS算法和PageRank算法

3.2.1 HITS算法

3.2.2 PageRank算法

第四章网页自动分类技术

4.1页面特征的描述

4.1.1页面特征的简单描述

4.1.2网页特征的综合描述方法

4.2中文网页自动分类

4.2.1文档自动分类过程

4.2.2文本分类器

4.2.3 VSM模型

第五章超链接及网站结构挖掘

5.1网站结构挖掘

5.1.1网站逻辑结构

5.1.2网站拓扑结构的获取

5.1.3站点划分

5.2超链接与内容的关系

5.3超链接的分类

5.4页面按功能分类

5.4.1页面按功能分类的意义

5.4.2页面按功能分类的方法

5.5站点的定点采集

5.5.1广度优先的Robot遍历

5.5.2站点采集中的过滤条件

第六章改进的VSM模型

6.1传统VSM模型的改进

6.2类别向量及其构成

6.2.1类别向量的定义

6.2.2类别向量的构成

6.3特征向量与Web结构挖掘的关系

6.4改进VSM模型中网页特征的提取

6.5基于改进VSM模型的自动分类

6.5.1分类算法

6.5.2分析定类

第七章分词与专业分词词典的构造

7.1分词技术

7.2专业分词词典的构造

7.2.1专业分词词典的构造过程

7.2.2专业分词词典的动态更新

7.2.3专业分词词典的结构

第八章系统实现与测试

8.1设计目标和系统结构

8.1.1设计目标

8.1.2系统结构

8.2主要数据结构

8.3系统测试结果

第九章总结和展望

9.1本文工作总结

9.2进一步工作的设想

致谢

参考文献

攻读硕士期间发表的论文

硕士学位论文授权书

展开▼

摘要

随着WWW技术的广泛应用,传统的通用搜索引擎正面临巨大的挑战,存在着查全率不高、检索的精度不高、更新不及时、不能很好地表达用户需求、提交的搜索结果中包含大量与用户无关的信息、缺乏个性化和智能化等问题.同时,越来越多的不同领域的客户群,他们急需的是能够提供高效检索其业内信息的专业搜索引擎.面向特定主题信息的专业搜索引擎(Topic-Specific Search Engine),通过采用导向词导引、定点采集、定题采集、网站结构挖掘等特有的方法来提高查全率和查准率,保证其较高的时效性、专业性并提供更好的个性化服务,从而可高效地发掘特定领域的信息,提供有特色的检索服务.本文阐述了基于Web信息挖掘技术的专业搜索引擎的设计与实现,并着重分析了基于特定主题的爬取方法、网页特征的综合描述方法、网页分类技术、专业分词词典的构造;通过对网页的按功能分类及超链接分析,研究并建立了一种网站结构挖掘的模型;提出了类别向量和特征向量的特殊构造方法,利用改进的VSM方法将结构挖掘和内容挖掘结合起来,并设计了特定主题的自动分类算法,对基于Web挖掘的中文专业搜索引擎的设计与实现具有较好的理论和实践价值.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号