首页> 中文学位 >网站主题目录重要性评价
【6h】

网站主题目录重要性评价

代理获取

目录

网站主题目录重要性评价

EVALUATION SIGNIFICANCE OF WEBSITE’S SUBJECT CATALOG

摘要

Abstract

第1章 绪论

1.1 课题研究背景及意义

1.2 本课题国内外相关研究

1.2.1 网络信息资源评价研究综述

1.2.2 特定网络资源评价

1.2.3 网站信息描述

1.3 网站主题目录重要性评价概述

1.3.1 综合门户网站特点概述

1.3.2 网页信息预处理概述

1.4 本文主要研究内容及组织

第2章 网站主题目录重要性评价

网站主题目录抽取

2.1.1 链接文本信息熵

2.1.2 网站主题目录抽取算法

2.1.3 网页集合对应链接主题的确定

2.2 网站主题目录的归并

2.2.1 Naive-Bayes文本分类算法

2.2.2 改进的Naive-Bayes分类算法

2.2.3 HTML网页净化

2.2.4 文本表示及分类特征选择

2.3 网站主题目录重要性评价

2.3.1 评价指标选取

2.3.2 权重选取

2.4 本章小结

第3章 网站主题目录重要性评价系统设计与实现

3.1 系统总体模块设计

3.2 系统各模块简介及流程设计

3.3 本章小结

第4章 系统测试结果及错误分析

4.1 网站主题目录重要性测试

4.1.1 网站主题目录重要性评价结果评价方案及标准答案

4.1.2 网站主题目录自动抽取结果评价

4.1.3 网站主题目录归并相关实验

4.1.4 网站主题目录重要性评价结果的评价

4.2 实验结果错误分析

4.2.1 网站主题目录重要性评价结果错误分析及改进方案

4.2.2 相关链接抽取错误分析及改进方案

4.3 本章小结

结论

参考文献

附录

攻读硕士期间发表论文

哈尔滨工业大学学位论文原创性声明

哈尔滨工业大学学位论文使用授权书

哈尔滨工业大学学位论文涉密论文管理

致谢

展开▼

摘要

随着Internet/Intranet相关技术的迅猛发展,网上信息量迅速增长,为了有效利用网络信息资源,如何对网络信息资源的质量与价值评价研究越来越成为一个迫切的课题。目前,许多国内外学者,给出了网络信息资源评价对象、评价指标及评价方法等。另外,针对具体网络对象评价研究也取得了一些成果,主要针对学术网站进行人工评价、网页重要性基于链接关系的评价给出了经典的PageRank、HITS等算法,同时,采用机器学习方法对网页中分块信息的重要程度的评价研究等。然而,通常门户网站都按照主题分类对网页进行组织,网站主题目录网站的一个重要组成,而每个主题目录重要性程度不同,因此,本文给出了网站主题目录重要性的评价研究。
  本文采用定量的方法,从每个主题目录所包含的网页数量、网页每月更新率及包含所有网页的重要性均值等评价指标出发进行网站主题目录的评价。将上述指标量化,主题目录对应指标量化结果值越大越重要。
  本文首先提出了网站主题目录自动抽取算法,并进行网站主题目录的归并,然后根据不同评价指标进行网站主题目录的重要性评价。门户网站首页导航链接包含大量主题目录信息,但主题目录存在包含关系,而且导航链接中同时存在一些类似广告链接的非主题目录信息,所以本文从导航链接中抽取重要且概括性强的链接作为网站主题目录。网站主题目录自动归并将其它非主题目录的导航链接归并到主题目录下。实质是利用本网站网页集合已有的导航链接主题类别,以提高网页分类到各个主题目录下的精度。最后,对网站主题目录及对应的网页集合按照前述的评价指标进行重要性的自动评价。
  另外,本文借鉴信息检索检索得到的文档结果排序的评价方法,以ALexa网站利用点击率指标进行网站主题目录评价结果为标准答案,给出了对网站主题目录评价结果的评测方法及相应的评测结果。评测最好结果精确率可以达到83%以上。本系统的实现有助推动网络资源评价研究的发展,并为普通用户上网获取信息提供了更多的指导,有助于网站经营者不断提高网站质量。同时,有助于基于主题目录及信息检索的发展,对潜在中心网站主题的发现提供线索,有利于实现特定主题的Web资源分类。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号