文摘
英文文摘
声明
第一章绪论
1.1搜索引擎的历史
1.2搜索引擎的现状
1.3 Java技术介绍
1.4神经网络与人工智能
1.5本文的研究内容及论文的组织
第二章Web搜索引擎工作原理和体系结构
2.1工作原理
2.2基本要求
2.3网页搜集
2.4网页预处理
2.4.1关键词提取
2.4.2重复或转载网页的消除
2.4.3链接分析
2.4.4网页重要程度的计算
2.5查询服务
2.5.1查询方式和匹配
2.5.2结果排序
2.5.3文档摘要
2.6体系结构
2.7本章小结
第三章Nutch分布式搜索引擎的分析
3.1 Nutch介绍
3.2 Lucene系统分析
3.2.1 Lucene的功能逻辑
3.2.2 Lucene中类介绍
3.3 Hadoop系统分析
3.3.1基于Map/Reduce的分布式搜索技术
3.3.2 Hadoop使用方法
3.4本章小结
第四章Lucene中文分词算法的改进
4.1 中文分词算法
4.1.1基于字符串匹配的分词方法
4.1.2基于理解的分词方法
4.1.3基于统计的分词方法
4.1.4基于神经网络的汉语自动分词
4.2 Lucene中文分词缺点
4.3 BP神经网络的中文分词实现
4.3.1 BP学习模型其主要参数
4.3.2 BP神经网络的实现
4.4将BP神经网络分词整合到Nutch
4.5本章小结
第五章实验与结果分析
5.1 实验平台的搭建
5.2网页的抓取
5.3Tomcat的发布运行
5.4使用Heritrix抓取网页
5.5用joone-editor建立神经网络
5.6实验数据
5.7本章小结
结束语
参考文献
致谢