封面
中文摘要
英文摘要
目录
第一章 绪论
1.1 通用搜索引擎
1.2 主题搜索引擎
1.3 主题搜索引擎的实现难点
1.4 本文的主要工作和组织
第二章 搜索引擎相关理论
2.1 搜索引擎工作流程
2.2 实现搜索引擎的关键技术
2.3 搜索引擎评价原则
2.4 本章小结
第三章 中文Web网页的搜集方式
3.1 搜集Web信息
3.2 多线程
3.3 搜集策略
3.4 避免搜集镜像网页及更新策略
3.5 网络蜘蛛模型
3.6 本章小结
第四章 面向主题的网络蜘蛛的设计
4.1 网络蜘蛛功能需求分析
4.2 主题网页链接发现
4.3 初始种子URL的更新
4.4 搜索策略的选择
4.5 抓取主题页面
4.6 相应的实验设计
4.7 本章小结
第五章 中文Web网页预处理
5.1 信息抽取技术概述
5.2 中文Web网页解析
5.3 中文分词
5.4 建立倒排索引
5.5 实现结果与分析
5.6 本章小结
第六章 查询服务实现
6.1 全文检索工具包Lucene
6.2 索引更新
6.3 索引压缩
6.4 Lucene与中文分词技术
6.5 查询接口实现的关键点
6.6 增强用户体验的Ajax技术
6.7 本章小结
第七章 结论与展望
7.1 本文的主要工作和贡献
7.2 下一步的工作和展望
参考文献
致谢
个人简历、在学期间发表的学术论文与研究成果
声明