文摘
英文文摘
声明
第一章绪论
1.1问题的提出
1.2本文的研究内容
1.3本文的组织
第二章搜索引擎技术概述
2.1搜索引擎的种类
2.2中文搜索引擎的现状及目前存在的问题
2.2.1中文搜索引擎的现状
2.2.2中文搜索引擎目前存在的问题
2.3搜索引擎体系结构
2.4网络蜘蛛的工作原理
2.4.1 Robot的工作过程
2.4.2 Robot的实现方式
2.4.3主题搜索的robot
2.5 HTTP协议
2.5.1 HTTP协议的关键性质
2.5.2 HTTP协议的主要方法
2.5.3 HTTP协议的信息头格式
2.6搜索引擎的评价指标
第三章Web挖掘技术的主要内容
3.1 Web挖掘技术
3.1.1基于Web内容的数据挖掘
3.1.2基于Web结构的挖掘
3.1.3基于Web使用记录的挖掘
3.2 HITS算法和PageRank算法
3.2.1 HITS算法
3.2.2 PageRank算法
第四章网页自动分类技术
4.1页面特征的描述
4.1.1页面特征的简单描述
4.1.2网页特征的综合描述方法
4.2中文网页自动分类
4.2.1文档自动分类过程
4.2.2文本分类器
4.2.3 VSM模型
第五章超链接及网站结构挖掘
5.1网站结构挖掘
5.1.1网站逻辑结构
5.1.2网站拓扑结构的获取
5.1.3站点划分
5.2超链接与内容的关系
5.3超链接的分类
5.4页面按功能分类
5.4.1页面按功能分类的意义
5.4.2页面按功能分类的方法
5.5站点的定点采集
5.5.1广度优先的Robot遍历
5.5.2站点采集中的过滤条件
第六章改进的VSM模型
6.1传统VSM模型的改进
6.2类别向量及其构成
6.2.1类别向量的定义
6.2.2类别向量的构成
6.3特征向量与Web结构挖掘的关系
6.4改进VSM模型中网页特征的提取
6.5基于改进VSM模型的自动分类
6.5.1分类算法
6.5.2分析定类
第七章分词与专业分词词典的构造
7.1分词技术
7.2专业分词词典的构造
7.2.1专业分词词典的构造过程
7.2.2专业分词词典的动态更新
7.2.3专业分词词典的结构
第八章系统实现与测试
8.1设计目标和系统结构
8.1.1设计目标
8.1.2系统结构
8.2主要数据结构
8.3系统测试结果
第九章总结和展望
9.1本文工作总结
9.2进一步工作的设想
致谢
参考文献
攻读硕士期间发表的论文
硕士学位论文授权书