摘要
ABSTRACT
1 绪论
1.1 搜索引擎的现状
1.1.1 搜索引擎的发展历史
1.1.2 搜索引擎的分类
1.2 典型搜索引擎介绍
1.2.1 Google
1.2.2 Baidu
1.2.3 Yahoo
1.2.4 Sogou
1.3 SEO 技术
1.3.1 SEO 技术的主要方法和策略
1.3.2 SEO 技术的发展趋势
1.3.3 网页作弊的几种方式
1.4 本文的主要工作
1.5 本章小结
2 经典排序算法及其比较
2.1 PageRank 算法
2.2 HITS 算法
2.3 Hilltop 算法
2.4 收费排名
2.5 经典算法评价
2.5.1 PageRank 算法的缺点与改进
2.5.2 HITS 算法的缺点与改进
2.5.3 经典排序算法对网络原创文章的不公平之处
2.6 本章小结
3 网络原创文章的判定算法
3.1 网络文章的分类
3.2 网站的三个“信用度”
3.3 文章原创可能性的确定
3.4 文章原创可能性对网站信用度的修正
3.5 本章小结
4 原创优先的搜索引擎排序算法
4.1 内容重复网页的确定
4.1.1 网页的重复特点
4.1.2 现有网页去重的方法简介
4.1.3 基于特征串重复网页判定方法
4.2 原创文章判定结果对网页权威度的修正
4.3 综合排序模型
4.3.1 基于网页内容的相关度算法
4.3.2 最终检索排名方法
4.4 本章小结
5 原型系统研究
5.1 技术选型
5.1.1 数据库选择
5.1.2 搜索引擎平台选择
5.1.3 开发平台选择
5.2 Nutch
5.2.1 Lucene
5.2.2 Nutch 爬虫
5.3 系统设计与实现
5.3.1 系统用例
5.3.2 系统构建流程
5.3.3 系统结构分析
5.3.4 主要数据表定义
5.3.5 程序设计
5.3.6 程序运行效果
5.4 算法验证
5.4.1 算法验证方法
5.4.2 结果分析
5.5 本章小结
6 结论与展望
6.1 总结
6.2 展望
致谢
参考文献
附录