首页> 中文学位 >大样本高维数据下基于进化多目标优化的特征选择算法研究
【6h】

大样本高维数据下基于进化多目标优化的特征选择算法研究

代理获取

摘要

特征选择作为机器学习和数据挖掘任务的重要数据预处理技术之一,其目的在于从原始特征中选择相关特征子集,以获得更好的预测结果,更低的计算成本和更好的模型解释性。然而,在实际应用中,如信息检索、生物特征识别中广泛存在大样本数据和高维数据给现有的特征选择算法带来巨大挑战。现有的特征选择算法将特征数和所选特征子集上的精度加权为一个目标,利用梯度法求解,虽然可以获得好的效果,但是需要有先验知识,并且要求优化函数是凸和光滑的。本文将特征数目和该特征子集上的精度作为两个独立的目标,以多目标的方式求解,并采用具有良好全局搜索能力的进化算法作为优化工具。本文针对性的提出了两种特征选择算法,分别用于解决大样本数据和高维数据下的特征选择问题。本文的主要工作包括以下两个部分: (1)大样本数据下的特征选择问题。由于样本数目大,导致计算代价昂贵。本文以训练数据量为O(n2)的Pairwise排序问题为例提出基于进化多目标优化的特征选择算法MOFSRank,该算法包括三个策略:1、多目标实例选择策略:该策略从训练实例中选择具有代表性的实例,通过消除训练实例中可能存在的冗余数据,给后续的特征选择选取数目少、代表性强的实例;2、多目标特征选择策略:在上述工作的基础之上,同时为了进一步提升算法在特征选择中的性能,本文采用了一个自适应的变异概率,以得到排序精度高、冗余度低的特征子集;3、Pareto集成策略:该策略采用了一个混合集成思想,利用集成的思想,将策略2的所得Pareto最优集中的非支配个体加以集成,以产生更好的特征组合。实验结果表明,MOFSRank算法可以在选取较少特征的情况下达到很好的排序结果。 (2)高维数据下的特征选择问题。由于存在巨大的搜索空间,需要大量的评价次数从而使优化过程付出巨大的计算代价。本文针对此问题提出基于进化多目标优化的指导模型算法GMA。该算法包括两个策略:1、自适应缩减策略:该策略可以快速剔除不相关和冗余特征,降低搜索空间。同时,实验结果表明当数据维度越高,其优势更为明显;2、指导模型预筛选策略:该策略利用已有的函数适应度值训练指导模型,并让指导模型帮助筛选种群个体,因此能减少真实评价次数,加速算法搜索。在多个高维数据集上的实验结果表明,GMA算法可以在高维数据集中,以较低的计算代价获得更好的特征子集。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号