基于多分类器集成及半监督学习的不平衡数据分类研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着网络媒体和互联网技术的高速发展，Internet上充斥着各种海量的信息，且在不断变化更新,来源也更为广泛。怎样从海量的且不断变化的大数据中得到符合用户所需信息已经成为各机器学习的一个重要课题。同时，不平衡数据的分类问题也日益突出，原有的机器学习方法已经不适合解决这类问题。因此对不平衡数据的分类问题的研究存在着更大的挑战。
　　一般来讲，解决不平衡数据分类问题通常使用的方法主要从两个角度出发：从数据层面和从算法层面对不平衡数据分类问题都分别进行了相关的深入研究。本文对于不衡数据分类问题所做的工作主要如下：
　　1.基于多分类器集成的不平衡数据分类
　　不平衡数据分类问题中用到的一个关键技术就是多分类器集成，为确保其集成的学习效果，必须改进以下两方面的内容，一是要使单个弱分类器的分类准确率提高，另一方面要增强单个弱分类器之间互相的差异性以及多样性。对于不平衡数据集来说，正负样本的分布不均衡，使训练所得的分类器对稀有类的识别率极低，从而导致分类器的分类性能差。针对这种情况，本文提出一种基于 KPCA和RST的多分类器集成方法，首先将不平衡数据集采取降维的方式，并提取其主要特征，获取有代表性的样本信息，其次通过重构数据集的方法改变训练集样本分布，降低其不平衡度，这就使得单个弱分类器的分类准确率大大提高。由于重构数据集时，对训练集合的划分是采用随机采样的方式，这在一定程度上又增强了单个弱分类器之间的差异性。
　　2.基于半监督学习的不平衡数据分类
　　在不平衡数据分类问题中，由于稀有类样本的数量稀缺，为更有效的利用数据集中存在的数量丰富的且不带标记的样本数据信息，本文创新的将半监督学习的方法应用于解决不平衡数据的分类问题中，并对Tri-training算法进行改进处理。首先将三个互不相同的分类器引入到训练和学习过程中，进而使各个分类器互相的差异性增强。其次，改进的 Tri-training算法不是采用多数投票法来对分类器集成，而是在加权投票时，引入了分类器对样本标记的准确率来实现分类器的集成，进而使学习所得的分类器对未知数据样本的预测更加准确。
　　实验结果显示，本文改进的方法可使不平衡数据分类的准确率和查全率有效提高。

著录项

作者
项雪琰;
展开▼
作者单位

山东师范大学;

展开▼
授予单位山东师范大学;
学科计算机软件与理论
授予学位硕士
导师姓名高玲;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类自动推理、机器学习;信息处理（信息加工）;
关键词
不平衡数据分类; 多分类器集成; 半监督学习; 信息处理;

相似文献

中文文献
外文文献
专利

1. 基于多分类器投票集成的半监督情感分类方法研究 [J] . 黄伟 ,范磊 . 中文信息学报 . 2016,第002期
2. 基于多分类器集成的"北京一号"小卫星遥感影像分类研究 [J] . 单丹丹 ,杜培军 ,夏俊士 . 遥感信息 . 2011,第002期
3. 基于多分类器集成的图像文字识别技术及其应用研究 [J] . 罗笑玲 ,黄绍锋 ,欧阳天优 . 软件 . 2015,第003期
4. 基于混合多距离度量的多分类器加权集成研究 [J] . 赵玉娟 ,刘擎超 . 计算机工程 . 2012,第021期
5. 基于多分类器动态选择与成本敏感优化集成的电信客户流失预测研究 [J] . 罗彬 ,邵培基 ,夏国恩 . 管理学报 . 2012,第009期
6. 基于多特征多分类器集成的专利自动分类研究 [C] . Jia Shanshan ,贾杉杉 ,Liu Chang . 首届数据分析与知识发现学术研讨会 . 2017
7. 基于半监督学习的不平衡数据分类算法与应用 [A] . 李凤岐 . 2014

基于多分类器集成及半监督学习的不平衡数据分类研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅