首页> 中文学位 >分类学术文献搜索引擎的应用和研究
【6h】

分类学术文献搜索引擎的应用和研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪论

1.1课题研究背景及意义

1.2国内外的研究现状

1.3目前存在的问题

1.4研究的目标和内容

第二章 分类学术文献搜索引擎总体设计

2.1系统需求分析

2.2系统设计要求

2.3系统功能模块设计

2.4本章小结

第三章 网页学术性判断算法设计与实现

3.1网页学术性判断现状

3.2基于贝叶斯算法的网页学术性判断算法设计与实现

3.3本章小结

第四章 学术网页分类算法设计与实现

4.1学术网页分类需求

4.2关键词与中图法分类的关系

4.3常用的分类算法

4.4基于改进向量空间模型的学术网页分类算法设计

4.5本章小结

第五章 分类学术文献搜索引擎的设计与实现

5.1网络爬虫子系统的设计与实现

5.2网页内容提取模块

5.3中文分词模块设计

5.4索引模块设计

5.5本章小结

第六章 学术文献搜索引擎测试

6.1系统测试平台

6.2网页抓取模块实验

6.3中文分词模块实验

6.4网页学术性判别模块试验

6.5网页分类模块试验

6.6 索引模块建立试验结果

6.7程序的运行结果及界面信息

6.8本章小结

第七章 结论与工作展望

7.1结论

7.2工作展望

参考文献

攻读硕士学位期间取得的研究成果

致谢

展开▼

摘要

随着互联网上信息数量的指数式增加,与学术信息相关的网站也在随着增长。在日常对学术信息进行检索时,我们发现,常用的学术搜索引擎在检索的方式上,基本上都是对全文的关键字进行检索,但是网页中的大部分关键字并不是文章的主题关键字,所以检索结果中就会出现很多与检索关键字相关度不高的结果,并且在学术搜索引擎中,关于学术网站的分类,大多数都是粗略、非专业的分类,并不能给予用户很好的指导作用,这些都会大大的降低用户的使用体验。
  为了解决上述问题,本文设计了一个基于中图法分类的学术文献搜索引擎。在网页学术性判定方面,提出了基于贝叶斯算法的网页学术性判断算法,该算法通过对网页内容特征、格式特征和结构特征的分析,实现了网页学术性的判定;在分类方面,以中图法的分类大纲作为分类目录,提出了基于改进空间向量模型的学术网页分类算法,该算法通过利用网页主题关键字构建网页向量空间,最后实现了网页的正确分类。
  结合上述两个关键算法,在系统中的网页主题提取部分,采用Html Parser技术与正则表达式相结合的网页主题提取算法,实现对抓取的网页主题内容的获取。分词部分使用的是基于正向最大匹配算法。最后对抓取的网页链接建立有效的索引,使用了开源的Lucene技术,利用Lucene构建高效的索引库以满足用户查询功能。最后结合以上技术,实现了一个分类学术文献搜索引擎。

著录项

  • 作者

    李杨;

  • 作者单位

    长安大学;

  • 授予单位 长安大学;
  • 学科 交通信息工程及控制
  • 授予学位 硕士
  • 导师姓名 王卫亚;
  • 年度 2016
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类 TP393.09;
  • 关键词

    互联网; 学术信息; 搜索引擎; 用户体验;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号