首页> 中文学位 >面向不平衡数据的特征选择与半监督分类算法研究
【6h】

面向不平衡数据的特征选择与半监督分类算法研究

代理获取

目录

声明

摘要

第1章 绪论

1.1 本文的研究背景及意义

1.2 国内外研究现状

1.2.1 不平衡数据处理方法的国内外研究现状

1.2.2 半监督分类的国内外研究现状

1.2.3 半监督特征选择的国内外研究现状

1.3 本文的主要研究内容

1.4 不平衡数据的评价准则

1.5 本章小结

第2章 基于ReliefF和聚类的不平衡数据特征选择方法

2.1 引言

2.2 特征选择简介

2.3 基于ReliefF和聚类的特征选择方法及其在信号识别中的应用

2.3.1 ReliefF算法概述

2.3.2 模糊C均值聚类

2.3.3 基于ReliefF和聚类的特征选择方法

2.3.4 实验结果与分析

2.3.5 结论

2.4 基于ReliefF和聚类的不平衡数据特征选择方法及其在信号识别中的应用

2.4.1 相关工作

2.4.2 基于ReliefF和聚类的不平衡数据特征选择方法

2.4.3 实验结果与分析

2.4.4 结论

2.5 本章小结

第3章 基于遗传算法的不平衡数据特征选择方法

3.1 引言

3.2 遗传算法

3.3 基于遗传算法的两类不平衡数据特征选择方法

3.3.1 引言

3.3.2 基于遗传算法的两类不平衡数据特征选择方法

3.3.3 在公共数据集上进行实验

3.3.4 应用于地空通信无线电信号识别当中

3.3.5 结论

3.4 基于遗传算法的多类不平衡数据特征选择方法

3.4.1 引言

3.4.2 相关工作

3.4.3 基于遗传算法的多类不平衡数据特征选择方法

3.4.4 实验结果与分析

3.4.5 结论

3.5 本章小结

第4章 基于Biased-SVM的不平衡数据半监督分类算法

4.1 引言

4.2 半监督学习概述

4.3 基于Biased-SVM的不平衡数据半监督分类算法

4.3.2 基于Biased-SVM的两类不平衡数据半监督分类算法

4.3.3 基于Biased-SVM的多类不平衡数据半监督分类算法

4.4 两类不平衡数据上的实验与分析

4.4.1 不平衡数据分类的评估指标

4.4.2 实验数据

4.4.3 实验结果与分析

4.5 多类不平衡数据上的实验与分析

4.5.1 不平衡数据分类的评估指标

4.5.2 实验数据

4.5.3 实验结果与分析

4.6 本章小节

第5章 基于证据理论和Biased-SVM的不平衡数据半监督分类方法

5.1 引言

5.2 相关工作

5.2.1 证据理论

5.2.2 不平衡支持向量机(Biased-SVM)

5.2.3 随机子空间集成分类法

5.3 基于证据理论和Biased-SVM的不平衡数据半监督分类方法

5.4 实验与分析

5.4.1 不平衡数据分类的评估指标

5.4.2 实验数据

5.4.3 实验结果与分析

5.5 本章小节

第6章 基于遗传算法和Biased-SVM的不平衡数据半监督特征选择方法

6.1 引言

6.2 半监督特征选择

6.3 基于遗传算法和Biased-SVM的不平衡数据半监督特征选择方法

6.3.2 基于遗传算法和Biased-SVM的不平衡数据半监督特征选择方法

6.4 实验

6.4.1 不平衡数据特征选择的评估指标

6.4.2 实验数据

6.4.3 实验结果与分析

6.5 本章小结

7.1 本文研究工作总结

7.2 未来工作展望

致谢

参考文献

攻读博士学位期间的科研工作

展开▼

摘要

不平衡数据在现实世界中广泛存在。由于人们更为关注的是稀有的小类,所以选出更有利于识别小类的特征是很有必要的。而且在很多实际应用当中,获取标记样本比较困难,因此如何有效利用少量的标记样本和大量的未标记样本是很有意义的。
  本文主要对不平衡数据的特征选择和标记样本少的不平衡数据分类算法展开研究。研究了基于ReliefF和聚类的不平衡数据过滤型特征选择方法、基于遗传算法的不平衡数据封装型特征选择方法、基于证据理论和Biased-SVM的不平衡数据半监督分类算法、基于遗传算法和Biased-SVM的不平衡数据半监督特征选择方法。主要取得了以下四个方面的研究成果:
  第一部分,针对无线电信号识别问题,首先提出一种基于ReliefF和聚类的特征选择方法。在此基础上,借鉴Bagging算法,进而提出一种基于ReliefF和聚类的不平衡数据特征选择方法。该方法采用Bagging算法从大类样本集中随机抽取多个样本子集,使每个抽取的样本子集的样本数量与小类样本数量一致,然后将抽取的样本子集分别与小类样本组成多个新的训练集,再在这些新的训练集上采用基于ReliefF和聚类的特征选择方法进行特征选择得到多个特征子集,最后通过集成投票的方式得到最终的特征子集。实验结果显示,提出的方法在地空通信信号识别中表现出良好的性能,不仅有效地降低了特征维数,而且提高了干扰信号的识别率。
  第二部分,首先针对两类不平衡数据提出一种基于遗传算法的特征选择方法。该方法改进了遗传算法中的适应度函数,并采用分类性能较好的SVM作为分类器。该方法首先在公共数据库里的几个数据集上进行试验,结果显示该方法优于传统的基于遗传算法的特征选择方法,它不仅有效地缩减了特征维数,而且提高了小类的识别率。最后将其应用到地空通信信号识别当中,表现出良好的性能。然后将两类推广到多类,针对多类不平衡数据提出一种基于遗传算法的特征选择方法。该方法通过采用多类不平衡数据评价准则EG-mean代替总的分类准确率以改进遗传算法中的适应度函数。在一些UCI数据集上的实验结果表明,与传统的基于遗传算法的特征选择方法相比,提出的方法在特征子集大小和小类识别率两个方面均有一定的优势。
  第三部分,针对标记样本少的不平衡数据,首先提出了一种基于Biased-SVM的不平衡半监督分类算法。该方法首先利用初始的标记样本集训练Biased-SVM模型,然后用训练好的Biased-SVM模型为未标记样本加上标签,再把新标记样本加入到初始标记样本集中,重新训练Biased-SVM模型,最后在测试集上进行测试。然后为了提高标注的稳定性,引入证据理论,提出一种基于证据理论和Biased-SVM的不平衡数据半监督分类算法。该算法先采用随机子空间法得到不同的视图,然后在各个视图上利用初始的标记样本集训练Biased-SVM模型,并将其应用于未标记样本集,从而得到未标记样本的类概率输出,最后引入证据理论进行信息融合来提高标注的稳定性。通过在一些公共数据集上的实验结果表明,与其他方法相比,在不同的标记样本率下,所提方法均具有较高的数据集整体的G-mean值和小类的F-value值,并具有较高的稳定性。
  第四部分,针对标记样本缺乏的高维不平衡数据,提出了一种基于遗传算法和Biased-SVM的不平衡数据半监督特征选择算法。该方法首先利用初始的标记样本集训练Biased-SVM模型,然后用训练好的Biased-SVM模型为未标记样本加上标签,再把新标记样本加入到初始标记样本集中得到新标记样本集,最后再采用基于遗传算法的不平衡数据特征选择方法选出最优的特征子集。在公共数据集上的实验结果表明,所提方法在不同的标记样本率下均具有较高的平均特征子集缩减率和平均小类识别率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号