首页> 中文学位 >JAVA技术与人工智能在搜索引擎上的应用
【6h】

JAVA技术与人工智能在搜索引擎上的应用

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1搜索引擎的历史

1.2搜索引擎的现状

1.3 Java技术介绍

1.4神经网络与人工智能

1.5本文的研究内容及论文的组织

第二章Web搜索引擎工作原理和体系结构

2.1工作原理

2.2基本要求

2.3网页搜集

2.4网页预处理

2.4.1关键词提取

2.4.2重复或转载网页的消除

2.4.3链接分析

2.4.4网页重要程度的计算

2.5查询服务

2.5.1查询方式和匹配

2.5.2结果排序

2.5.3文档摘要

2.6体系结构

2.7本章小结

第三章Nutch分布式搜索引擎的分析

3.1 Nutch介绍

3.2 Lucene系统分析

3.2.1 Lucene的功能逻辑

3.2.2 Lucene中类介绍

3.3 Hadoop系统分析

3.3.1基于Map/Reduce的分布式搜索技术

3.3.2 Hadoop使用方法

3.4本章小结

第四章Lucene中文分词算法的改进

4.1 中文分词算法

4.1.1基于字符串匹配的分词方法

4.1.2基于理解的分词方法

4.1.3基于统计的分词方法

4.1.4基于神经网络的汉语自动分词

4.2 Lucene中文分词缺点

4.3 BP神经网络的中文分词实现

4.3.1 BP学习模型其主要参数

4.3.2 BP神经网络的实现

4.4将BP神经网络分词整合到Nutch

4.5本章小结

第五章实验与结果分析

5.1 实验平台的搭建

5.2网页的抓取

5.3Tomcat的发布运行

5.4使用Heritrix抓取网页

5.5用joone-editor建立神经网络

5.6实验数据

5.7本章小结

结束语

参考文献

致谢

展开▼

摘要

1990年12月25日Web上线,1993年3月15日图形浏览器诞生,人们由此开始彻底改变了网上查阅信息、获取资料的习惯,Web已经成为人们获取信息的一条重要途径。由于Web页面的日益增加,获取特定信息就成为一个难题,搜索引擎应运而生,并改变了人们获取网络信息的方式。 Java是由美国Sun公司(Sun Microsystems,Inc.)研发的计算机编程语言,其最大的特点是可移植性,它的出现引发了开源的浪潮,因此,Java世界有许多优秀的开源项目。本文在对Web搜索引擎工作原理和体系结构详细阐述的基础上,重点分析了Nutch这一优秀的Java开源分布式搜索引擎,并在此引擎上用BP神经网络改进了中文分词算法,使得该引擎在中文分词上有一定的人工智能。根据测试分析、比较,该分词算法在处理有语义歧义的句子上,分词效果要优于传统的机械分词算法。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号