大样本高维数据下基于进化多目标优化的特征选择算法研究

代理获取

页面导航

摘要
著录项
相似文献
相关主题

摘要

特征选择作为机器学习和数据挖掘任务的重要数据预处理技术之一，其目的在于从原始特征中选择相关特征子集，以获得更好的预测结果，更低的计算成本和更好的模型解释性。然而，在实际应用中，如信息检索、生物特征识别中广泛存在大样本数据和高维数据给现有的特征选择算法带来巨大挑战。现有的特征选择算法将特征数和所选特征子集上的精度加权为一个目标，利用梯度法求解，虽然可以获得好的效果，但是需要有先验知识，并且要求优化函数是凸和光滑的。本文将特征数目和该特征子集上的精度作为两个独立的目标，以多目标的方式求解，并采用具有良好全局搜索能力的进化算法作为优化工具。本文针对性的提出了两种特征选择算法，分别用于解决大样本数据和高维数据下的特征选择问题。本文的主要工作包括以下两个部分: (1)大样本数据下的特征选择问题。由于样本数目大，导致计算代价昂贵。本文以训练数据量为O(n2)的Pairwise排序问题为例提出基于进化多目标优化的特征选择算法MOFSRank，该算法包括三个策略:1、多目标实例选择策略:该策略从训练实例中选择具有代表性的实例，通过消除训练实例中可能存在的冗余数据，给后续的特征选择选取数目少、代表性强的实例;2、多目标特征选择策略:在上述工作的基础之上，同时为了进一步提升算法在特征选择中的性能，本文采用了一个自适应的变异概率，以得到排序精度高、冗余度低的特征子集;3、Pareto集成策略:该策略采用了一个混合集成思想，利用集成的思想，将策略2的所得Pareto最优集中的非支配个体加以集成，以产生更好的特征组合。实验结果表明，MOFSRank算法可以在选取较少特征的情况下达到很好的排序结果。 (2)高维数据下的特征选择问题。由于存在巨大的搜索空间，需要大量的评价次数从而使优化过程付出巨大的计算代价。本文针对此问题提出基于进化多目标优化的指导模型算法GMA。该算法包括两个策略:1、自适应缩减策略:该策略可以快速剔除不相关和冗余特征，降低搜索空间。同时，实验结果表明当数据维度越高，其优势更为明显;2、指导模型预筛选策略:该策略利用已有的函数适应度值训练指导模型，并让指导模型帮助筛选种群个体，因此能减少真实评价次数，加速算法搜索。在多个高维数据集上的实验结果表明，GMA算法可以在高维数据集中，以较低的计算代价获得更好的特征子集。

著录项

作者
郭伟;
展开▼
作者单位

安徽大学;

展开▼
授予单位安徽大学;
学科软件工程
授予学位硕士
导师姓名程凡;
年度 2019
页码
总页数
原文格式 PDF
正文语种中文
中图分类
关键词
大样本; 高维数据; 进化; 多目标优化; 特征选择;

相似文献

中文文献
外文文献
专利

1. 基于多目标优化的进化算法研究 [J] . 陈慧琴 ,燕斌 ,程涛 . 电脑知识与技术 . 2016,第013期
2. CISE降维方法在高维数据情形下的大样本理论性质研究 [J] . 訾雪旻 . 天津职业技术师范大学学报 . 2011,第004期
3. CISE降维方法在高维数据情形下的大样本理论性质研究 [J] . 訾雪旻 . 天津职业技术师范大学学报 . 2011,第004期
4. 多模场景下的高维数据的特征选择及分类研究 [J] . 邓万宇 ,刘丹 ,董莹莹 . 信息技术 . 2018,第007期
5. 海量高维数据下分布式特征选择算法的研究与应用 [J] . 陈晓明 . 科技通报 . 2013,第8期
6. 多目标优化进化算法研究进展 [C] . 商允伟 ,裘聿皇 . 第二届自动化与信息技术发展战略研讨会 . 2002
7. 基于进化多目标优化的特征选择方法研究 [A] . 滕旭阳 . 2012

大样本高维数据下基于进化多目标优化的特征选择算法研究

摘要

著录项

相似文献

相关主题

期刊订阅