针对传统分类技术对不平衡数据集中稀有类样本识别能力不足的问题,提出一种基于卡方检验的改进型不平衡数据分类方法.该方法是在大间隔分布学习(Large Margin Distribution Learning,LDM)的基础上优化了其核函数的定义:首先采用标准学习器分类得到一个初步的近似超平面,然后利用保形核变换与卡方检验对核函数进行修正定义,从而扩大类边界的不对称空间,修正超平面.对UCI标准数据集进行实验测试,结果表明,该算法对稀有类的识别率平均提高了11.6%,很好地解决了因数据分布偏斜而导致的分类器性能下降问题,提高了对不均衡数据集中稀有类的识别能力.
展开▼