首页> 中文学位 >网页分类中的标签权重自动优化研究
【6h】

网页分类中的标签权重自动优化研究

代理获取

目录

声明

摘要

表格

插图

第一章 绪论

1.1 课题的研究背景和意义

1.2 国内外研究现状

1.3 课题的主要研究内容

1.4 本文的组织结构

第二章 网页分类相关技术研究

2.1 HTML解析

2.2 分词

2.2.1 英文分词

2.2.2 中文分词

2.3 有用词提取

2.4 特征选择

2.4.1 文档频率

2.4.2 信息增益

2.4.3 互信息

2.5 特征表示

2.6 分类算法

2.6.1 朴素贝叶斯

2.6.2 KNN算法

2.6.3 神经网络

2.6.4 决策树

2.6.5 支持向量机

2.7 分类器评价

2.8 本章小结

第三章 标签权重自动调优研究

3.1 网页的结构特征分析

3.2 演化算法概述

3.2.1 遗传算法

3.2.2 粒子群算法

3.2.3 差分进化算法

3.3 差分进化算法研究综述

3.4 差分进化算法的改进

3.5 基于改进的差分进化算法的标签权重自动调优设计

3.6 本章小结

第四章 实验

4.1 实验环境

4.2 实验训练相关准备

4.3 实验步骤

4.4 实验数据收集以及分析

4.5 本章小结

第五章 工作总结和展望

5.1 工作总结

5.2 展望

参考文献

致谢

在读期间发表的学术论文与取得的其他研究成果

展开▼

摘要

近几年来,随着互联网的蓬勃发展以及移动互联网时代的来临,人们的工作和生活越来越离不开互联网,互联网成为了人们获取相关信息和资讯的最主要渠道。所以需要更加高效的Web数据挖掘技术。网页分类是Web数据挖掘的基础技术,因而成为十分重要的研究课题。
  本文主要的工作围绕如何更加有效地对网页进行特征表示进行展开,分析了标签权重系数自动调优的必要性,介绍了各种优化算法的基本原理,详细分析了其各自的优缺点,着重介绍了差分进化算法,并设计了一种基于改进的差分进化算法的标签权重系数自动寻优方法,具体工作如下:
  (1)针对差分进化算法容易陷入局部最优解的缺点,提出了一种对差分进化算法的改进方法。与其他优化算法相比,差分进化算法具有更好的效率和全局寻优能力,但是其缺点也是显著的。差分进化算法的局部搜索能力较弱,从而使算法过早的收敛。为解决上述缺点,提出了一种对差分进化算法的选择策略进行改进的方案,并通过基准测试函数对其进行了验证,实验结果表明了改进方案的优越性。
  (2)针对现有的手工指定标签权重系数的缺点,设计和实现了一种基于改进的差分进化算法的标签权重系数自动寻优方案。网页中不同HTML标签的内容对网页的概述能力是不同的,在表述网页文本时,需要对不同的标签赋予不同的权重系数。现有的网页分类技术多基于个人经验对标签的权重系数进行手工指定,因而具有一定的随机性,且不能适应样本集的变化。因而,需要有效的优化算法对标签权重进行自动设定。本文设计的方案以一组标签的权重系数作为寻优对象,并使用本文提出的改进的差分进化算法作为调优方法,实验结果表明,该方案可以充分利用样本集的特性,可以有效地进一步提高分类的准确率。
  (3)设计了一个网页自动训练和预测系统,并在训练中加入了标签权重系数自动寻优功能。该系统包括HTML解析、分词、特征选择、特征表示以及分类模型设计等,同时包括本文提出的标签权重系数自动寻优模块。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号