网页分类中的标签权重自动优化研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近几年来，随着互联网的蓬勃发展以及移动互联网时代的来临，人们的工作和生活越来越离不开互联网，互联网成为了人们获取相关信息和资讯的最主要渠道。所以需要更加高效的Web数据挖掘技术。网页分类是Web数据挖掘的基础技术，因而成为十分重要的研究课题。
　　本文主要的工作围绕如何更加有效地对网页进行特征表示进行展开，分析了标签权重系数自动调优的必要性，介绍了各种优化算法的基本原理，详细分析了其各自的优缺点，着重介绍了差分进化算法，并设计了一种基于改进的差分进化算法的标签权重系数自动寻优方法，具体工作如下:
　　(1)针对差分进化算法容易陷入局部最优解的缺点，提出了一种对差分进化算法的改进方法。与其他优化算法相比，差分进化算法具有更好的效率和全局寻优能力，但是其缺点也是显著的。差分进化算法的局部搜索能力较弱，从而使算法过早的收敛。为解决上述缺点，提出了一种对差分进化算法的选择策略进行改进的方案，并通过基准测试函数对其进行了验证，实验结果表明了改进方案的优越性。
　　(2)针对现有的手工指定标签权重系数的缺点，设计和实现了一种基于改进的差分进化算法的标签权重系数自动寻优方案。网页中不同HTML标签的内容对网页的概述能力是不同的，在表述网页文本时，需要对不同的标签赋予不同的权重系数。现有的网页分类技术多基于个人经验对标签的权重系数进行手工指定，因而具有一定的随机性，且不能适应样本集的变化。因而，需要有效的优化算法对标签权重进行自动设定。本文设计的方案以一组标签的权重系数作为寻优对象，并使用本文提出的改进的差分进化算法作为调优方法，实验结果表明，该方案可以充分利用样本集的特性，可以有效地进一步提高分类的准确率。
　　(3)设计了一个网页自动训练和预测系统，并在训练中加入了标签权重系数自动寻优功能。该系统包括HTML解析、分词、特征选择、特征表示以及分类模型设计等，同时包括本文提出的标签权重系数自动寻优模块。

著录项

作者
钟旭东;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科计算机应用技术
授予学位硕士
导师姓名顾乃杰,黄章进;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.092;TP311.131;
关键词
Web数据挖掘; 差分进化算法; 选择策略; 网页分类; 半结构化特征; 标签权重系数; 自动优化;

相似文献

中文文献
外文文献
专利

1. 基于惯性权重粒子群算法的自动配棉优化研究 [J] . 黄马壮 ,张增强 . 天津纺织科技 . 2009,第003期
2. XML检索中的标签权重设置模型 [J] . 刘德喜 ,万常选 ,刘喜平 . 计算机科学与探索 . 2010,第008期
3. 马汀自动科技公司将于亚洲国际标签印刷展中展示全自动换卷与收卷设备 [J] . . 今日印刷 . 2009,第12期
4. 自动标引中船舶资料位置权重方案的确定 [J] . 刘艳文 ,周朝晖 . 科技情报开发与经济 . 2012,第017期
5. 变权重MRF算法在图像自动无监督分割中的应用 [J] . 刘雪娜 ,侯宝明 . 计算机与现代化 . 2012,第011期
6. 基于后验权重的IOWA多标签群决策意见综合法 [C] . 马梁 ,徐迪 . 第十一届全国青年系统科学与管理科学学术会议暨第七届物流系统工程学术研讨会 . 2011
7. 在情感分类中基于标签相关性权重筛选机制的文本增强方法 [A] . 石丽明 . 2020

网页分类中的标签权重自动优化研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅