首页> 中文学位 >网络原创文章优先的搜索引擎排序算法研究
【6h】

网络原创文章优先的搜索引擎排序算法研究

代理获取

目录

摘要

ABSTRACT

1 绪论

1.1 搜索引擎的现状

1.1.1 搜索引擎的发展历史

1.1.2 搜索引擎的分类

1.2 典型搜索引擎介绍

1.2.1 Google

1.2.2 Baidu

1.2.3 Yahoo

1.2.4 Sogou

1.3 SEO 技术

1.3.1 SEO 技术的主要方法和策略

1.3.2 SEO 技术的发展趋势

1.3.3 网页作弊的几种方式

1.4 本文的主要工作

1.5 本章小结

2 经典排序算法及其比较

2.1 PageRank 算法

2.2 HITS 算法

2.3 Hilltop 算法

2.4 收费排名

2.5 经典算法评价

2.5.1 PageRank 算法的缺点与改进

2.5.2 HITS 算法的缺点与改进

2.5.3 经典排序算法对网络原创文章的不公平之处

2.6 本章小结

3 网络原创文章的判定算法

3.1 网络文章的分类

3.2 网站的三个“信用度”

3.3 文章原创可能性的确定

3.4 文章原创可能性对网站信用度的修正

3.5 本章小结

4 原创优先的搜索引擎排序算法

4.1 内容重复网页的确定

4.1.1 网页的重复特点

4.1.2 现有网页去重的方法简介

4.1.3 基于特征串重复网页判定方法

4.2 原创文章判定结果对网页权威度的修正

4.3 综合排序模型

4.3.1 基于网页内容的相关度算法

4.3.2 最终检索排名方法

4.4 本章小结

5 原型系统研究

5.1 技术选型

5.1.1 数据库选择

5.1.2 搜索引擎平台选择

5.1.3 开发平台选择

5.2 Nutch

5.2.1 Lucene

5.2.2 Nutch 爬虫

5.3 系统设计与实现

5.3.1 系统用例

5.3.2 系统构建流程

5.3.3 系统结构分析

5.3.4 主要数据表定义

5.3.5 程序设计

5.3.6 程序运行效果

5.4 算法验证

5.4.1 算法验证方法

5.4.2 结果分析

5.5 本章小结

6 结论与展望

6.1 总结

6.2 展望

致谢

参考文献

附录

展开▼

摘要

随着网络规模的扩大,搜索引擎正在现代网络竞争中占据越来越重要的地位,而搜索引擎的核心——排序算法正在对网络竞争能否公平方面产生着巨大的影响。与此同时,网络文章轻易的被转载这一现实情况正使得原创站点在网络竞争中处于很不利的地位。通过改进搜索引擎排序算法,提高网络原创文章的搜索引擎排名无疑能使得现代网络竞争更为公平,具有很重要的现实意义和社会效益。本文提出了一种适用于专业搜索引擎的新型排序算法,此算法在排序时优先考虑了网络原创文章,可以使原创文章的搜索排名得到提高,有助于新兴原创网站的发展,从而能提高现代网络社会竞争的公平性。论文的主要工作有:①分析了现有的搜索引擎排序算法,对其进行了优缺点的比较,指出了它们对于原创文章的不利之处,提出了要通过改进搜索引擎排序算法来提高网络原创文章的搜索引擎排名,以提高搜索引擎的公平合理性。②构建了网络原创文章判定算法,通过网络上可见的信息,对网络文章的原创可能性进行量化。③说明了网络原创文章判定算法在搜索引擎中的应用方法,指出了如何利用网络原创文章的判定结果对原有搜索引擎排名结果进行修正。④综合网页关键词相关度计算方法、PageRank算法以及原创文章的判定算法,构造了搜索引擎的综合排序模型,使之可以应用到实际的搜索引擎之中。⑤构建原型系统,应用原创优先的搜索引擎排序模型,提高了网络原创文章的搜索引擎排名,实验统计结果良好。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号