首页> 中文学位 >网站主题分析、标引与检索技术的研究
【6h】

网站主题分析、标引与检索技术的研究

代理获取

目录

摘 要

Abstract

第1章 绪论

1.1 课题背景

1.2 基于主题标引的智能网站检索

1.3 本文研究的主要内容

1.4 本文的组织结构

第2章 基于主题标引的智能网站检索系统方案设计

2.1 系统整体设计

2.2 智能网站检索主要问题分析

2.2.1 网页内容分析技术

2.2.2 网站结构分析技术

2.2.3 网站主题标引、概念获取与检索技术

2.3 本章小结

第3章 网页内容分析技术

3.1 网页解析器的构造

3.2 网页类别判断

3.3 索引网页分析技术

3.3.1 链接去噪与修复

3.3.2 链接特征提取

3.4 内容网页分析技术

3.5 实验与评价

3.6 本章小结

第4章 网站结构分析

4.1 爬虫技术

4.2 URL 链接索引表

4.3 节点关系分析

4.4 基于URL 目录相似度的网站结构分析算法

4.5 网站结构分析实验与评价

4.6 本章小结

第5章 网站主题标引、概念获取与检索

5.1 网页主题标引技术

5.1.1 分词与词频统计

5.1.2 加权词标引

5.2 网站主题概念获取技术

5.2.1 向量空间简化技术

5.2.2 基于网站结构的网站主题概念获取

5.3 索引与检索

5.4 Web2.0 技术与网站主题获取

5.5 实验系统

5.6 本章小结

结论

参考文献

哈尔滨工业大学硕士学位论文原创性声明

哈尔滨工业大学硕士学位论文使用授权书

哈尔滨工业大学硕士学位涉密论文管理

致谢

展开▼

摘要

随着社会分工向专业化细分方向的发展,“专、精、深”的专业化信息服务需求日益增大,网络中涌现出了大量的专业化信息网站,搜索引擎技术也逐渐从通用搜索向专业搜索方面演变,其中针对提供自动化的网站分类导航服务的相关技术成为了信息处理领域近年十分活跃的热点研究问题。
  基于主题标引的智能网站检索(ThemeIndexingbasedWebSiteRetrival,TTWR)便是以主题网站(Single-ThemeWebsite)为检索目标,结合网站拓扑结构等特有的相关特征,以主题分析标引技术为核心,为提供自动化的网站检索服务而开展的相关技术研究。
  根据以上研究目的,本文首先分析了智能网站检索技术的构造与实现,提出了基于主题标引的智能网站检索系统的系统结构与实现策略,之后对系统中的主题分析、标引与检索等关键技术进行了深入分析,针对主要技术难点重点讨论了网页正文抽取,网站拓扑结构分析,网站主题获取等相关实现技术,提出了基于标签间距的正文抽取算法,基于URL目录相似度的网站结构分析算法和基于网站结构的网站主题概念获取算法等解决方案。最后在以上算法与理论的基础上,整合实现了智能网站检索的信息采集实验系统,经过实验分析与评价,取得了较好的网站主题标引结果。
  本文提出的网站主题分析、标引与检索技术为网站检索提供了新的解决方案,提供了更适于传统信息检索模型与用户检索习惯的标引技术,使之避免了传统分类问题中构建类别体系的单一性与用户需求的多样性之间的矛盾,克服了传统信息检索与分类模式中可能出现的部分问题,可以提供一系列特定主题的跟踪、检索服务。针对该技术的研究可进一步推动和完善传统的信息检索任务向更加专业的领域发展,带动相关专业搜索技术开发与应用,具有很大的研究空间与应用前景。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号