不平衡数据集
不平衡数据集的相关文献在2005年到2022年内共计225篇,主要集中在自动化技术、计算机技术、电工技术、机械、仪表工业
等领域,其中期刊论文174篇、会议论文3篇、专利文献683759篇;相关期刊104种,包括信息技术、电脑编程技巧与维护、电脑知识与技术等;
相关会议3种,包括2011年全国知识组织与知识链接学术交流会、2008中国仪器仪表与测控技术报告大会、2016年第27届中国过程控制会议 等;不平衡数据集的相关文献由611位作者贡献,包括刘悦婷、张化祥、杨智明等。
不平衡数据集—发文量
专利文献>
论文:683759篇
占比:99.97%
总计:683936篇
不平衡数据集
-研究学者
- 刘悦婷
- 张化祥
- 杨智明
- 卢诚波
- 张涛
- 彭喜元
- 王超学
- 马春森
- 乔立岩
- 吕卫
- 尚旭
- 张永
- 曹蒙蒙
- 褚晶辉
- 许喆
- 郭朝有
- 马砚堃
- 于治楼
- 仇建
- 任永功
- 刁梦雯
- 刘燕秋
- 卜阳
- 卢奕南
- 叶挺聪
- 吴以凡
- 吴哲夫
- 周亚建
- 周亮
- 姚乾
- 姚程宽
- 孙伟刚
- 孟东霞
- 宋星星
- 宣琦
- 尹军梅
- 岳东
- 巨家骥
- 张帅
- 张桦
- 张灵均
- 张维
- 张艺豪
- 方立超
- 朱翌民
- 李喆
- 李玉鑑
- 杨明
- 杨荣杰
- 杨鸿骏
-
-
陶叶辉;
赵寿为
-
-
摘要:
SMOTE算法对于不平衡数据集有较好的分类,但对于类内不平衡情况分类效果欠佳,针对此问题提出一种基于高斯混合模型聚类的SMOTE过采样算法。先利用GMM算法对少数类样本集进行聚类,再删除与聚类中心点重叠的冗余样本,最后根据不同聚簇进行SMOTE过采样,使数据最终平衡。将RF、SMOTE+RF、GMM-SMOTE+RF 3种算法在6组UCI标准的公开数据集上进行分类效果实验,结果表明该模型AUC值平均提高了6.09%,可有效平衡不平衡的数据集。
-
-
顾兆军;
刘婷婷;
隋翯
-
-
摘要:
工业控制系统异常检测大多面临类不平衡问题,从而导致检测模型准确率下降和泛化能力变差。根据生成式对抗网络,提出一种只使用正常样本进行训练的异常检测模型——基于隐空间特征重构的生成式对抗网络模型。在训练阶段,该模型通过引入新的编码器,学习生成数据到隐空间的映射,实现生成数据的隐空间特征重构,并嵌入SE Block模块提升有效特征权重,提高隐空间特征重构能力;鉴别器同时鉴别两个编码器和一个生成器产生的3个数据对,提高模型精度和泛化能力。在检测阶段,综合考虑重构和鉴别损失,采用L2范数优化异常评分公式,克服模式崩塌。SWaT和WADI两个数据集上的验证实验结果表明,该模型在学习能力、稳定性和检测结果方面与AnoGAN、WGAN-GP和BiGAN等模型相比都具有明显优势。
-
-
王春鹏;
王冬青;
傅强;
刘纬骅
-
-
摘要:
在目标检测方法中,针对目标检测网络RefineDet对类别样本数量不平衡和困难样本难挖掘问题,以及ARM获取位置信息和特征信息比较粗略所导致训练效果不佳的问题;提出权重平衡调节损失(WBALoss)函数,通过对多分类损失中的不同类别样本和难易样本进行加权来提高对样本数量少的类别和困难样本关注度;以及ARM与TCB信息融合和添加PyConv优化算法网络。在VOC07和VOC12数据集上进行实验,与原RefineDet相比,所改进的算法在两个数据集测试的mAP分别提高了1.49%,1.51%。以及分别只添加类别样本平衡因子、难易样本平衡因子和优化结构后的RefineDet算法在两个数据集测试的mAP分别提高0.52%,0.58%,0.59%和0.54%,0.61%,0.57%。
-
-
王诚;
高兴东
-
-
摘要:
传统DBSCAN算法对密度分布不均匀的不平衡数据集的聚类效果并不理想,同时传统算法的聚类结果对邻域半径(Eps)以及核心点阈值(MinPts)敏感。针对以上问题,改进了传统算法,提出了一种基于最小生成树的密度聚类算法(MST-DBSCAN)。由于对象之间的距离对聚类结果影响较大,为了更好地表示对象之间的距离特性,首先使用相互可达距离(mutual reachability distance)代替传统算法中的欧氏距离,表示数据集中对象与对象之间的距离,解决因密度分布不均匀导致效果不佳的问题;为了建立对象与对象之间的联系,同时保留对象之间的距离特性,引用Prim算法对数据集中的所有对象构建最小生成树;其次根据指定的簇的数目及最小簇对象数数目参数对得到的最小生成树进行剪枝;根据剪枝的结果,将剪枝后的各个部分进行聚类。在公开的UCI数据集上的实验结果表明,提出的MST-DBSCAN算法与现有DBSCAN、OPTICS、KANN-DBSCAN算法相比,在密度分布不均匀的数据集上聚类效果有所提升并且较原有传统算法有较高的聚类准确性。
-
-
邱灿华;
吴杰
-
-
摘要:
针对传统的合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)中存在的忽略类间不平衡、类内不平衡、无法控制合成样本的噪声等问题,结合DBSCAN聚类算法,提出了一种基于DBSCAN改进的SMOTE算法:使用DBSCAN算法对少数类样本进行聚类,计算少数类密度系数和采用权重为每个簇分配采样数量,将每个簇中样本点按照到簇质心的距离分为2类,对每类中的样本点分配不同的随机系数进行过采样,得到新的较为平衡的数据集。根据获取的数据集进行实验表明,改进的算法可以很好地改善分类器的分类性能。
-
-
周玉;
孙红玉;
房倩;
夏浩
-
-
摘要:
社会发展的同时带来大量数据的产生,不平衡成为众多数据集的显著特点,如何使不平衡数据集得到更好的分类效果成为了机器学习的研究热点。基于此,对目前存在的不平衡数据集分类方法进行综述研究,从不平衡数据采样方法、基于机器学习的改进算法以及组合方法三个层面对目前存在的方法进行全面的梳理与总结,对各方面方法所解决的问题、算法思想、应用场景以及各自的优缺点进行归纳和分析,同时对不平衡数据集分类方法存在的问题和未来研究方向提出一些总结和展望。
-
-
覃琴;
杨悦;
陈名松;
王鑫
-
-
摘要:
针对不平衡数据集分类,现有的过采样算法更多地解决了类间不平衡问题,而未考虑少数类的类内不平衡,未筛选进行过采样的样本及未去除噪音,且合成过程中存在样本重叠及样本分布“边缘化”等问题,提出一种基于层次聚类和改进SMOTE的过采样算法AGNES-SMOTE。该算法对多数类和少数类样本分别进行层次聚类,并根据获得的多数类簇划分少数类簇,合并过程中考虑多数类样本分布,避免重叠样本的生成。接着根据少数类簇中的样本数量确定采样权重,并根据少数类样本到其近邻多数类样本的距离计算出每个少数类簇的概率分布,结合两者来选取“种子样本”。最后在采样过程中采用质心方式来限制合成样本的生成区域。将AGNES-SMOTE与分类器结合来处理不平衡数据集的分类问题。通过UCI数据集上与其他文献中相关算法的对比实验表明,AGNES-SMOTE在新样本的整体合成效果上表现出色,取得更高的G-mean值、F-measure值和AUC值,有效提高了分类器在不平衡数据集上的分类性能。
-
-
高莹莹;
孙璇
-
-
摘要:
针对目前常用的入侵检测数据集存在的类别不平衡问题,从数据的采样层面出发,提出基于数据增强的入侵检测算法,并对数据进行了特征选择。在公开发布的真实数据集上展开的实验表明,针对不平衡的数据集,所提算法可以在一定程度上提升检测的准确率。
-
-
王通;
罗真伟
-
-
摘要:
针对传统工况识别算法在识别有杆抽油系统工况时,存在生产措施调整滞后以及生产效率下降等问题,提出了一种基于改进的随机森林工况识别算法.采用灰度矩阵特征提取算法对泵功图进行特征提取,将灰度特征值通过合成少数类过采样技术进行上采样,实现不平衡数据均衡化;利用蜻蜓优化算法选取随机森林参数对抽油机井工况进行识别,并以辽河油田的生产数据进行实验验证.结果表明,该方法能够避免传统识别方法选取参考工况不准确的问题,减少不平衡数据对工况识别的影响,提高工况识别的准确率,能够满足油田现场的实际需求.
-
-
张状状;
杜星熠;
王啸;
胡静;
宋铁成
-
-
摘要:
传统机器学习算法训练网络入侵数据集时,容易出现特征维数多、过拟合与数据集不平衡等问题,导致入侵检测算法的准确率降低以及时间效率低下。为解决上述问题,文章提出基于极端随机树的入侵检测模型,使用线性判别式分析进行数据降维,然后利用过采样减少网络入侵数据集样本类别不平衡带来的影响,最后使用极端随机树进行模型训练。实验结果表明,经过LDA降维和过采样后,使用极端随机树分类模型能够提高多分类下不平衡数据集的整体识别性能并能满足网络入侵检测实际应用的时间效率要求。
-
-
ZHAO Xiao-qiang;
赵小强;
LIU Meng-yi;
刘梦依
- 《2016年第27届中国过程控制会议》
| 2016年
-
摘要:
针对不平衡数据集在分类过程中易产生噪声数据和分类精度低的问题,本文提出一种基于改进SMOTE的不平衡数据集主动学习SVM分类算法.该算法对训练样本集利用少数类样本的归属值通过多数票选择法控制合成少数类样本的数量,根据距离公式确定超平面,选取距离分类超平面最近的相同数量的多数类样本,组成平衡采样数据集,利用支持向量机(SVM)进行分类得到优化分类器,再用主动学习对去除了训练样本的不平衡数据集利用优化分类器进行分类循环,直到剩余样本为零.利用UCI数据集中的数据实验表明,本文提出的算法有效地减少了噪声数据对分类的影响,提高了不平衡数据的分类准确率.
-
-
吴清强
- 《2011年全国知识组织与知识链接学术交流会》
| 2011年
-
摘要:
本文在介绍白血病类型与其文献关系的基础上,通过Cancer Gene Census、PubMed和gene2pubmed中的数据构建白血病分类数据集,该数据集是个不平衡分类数据集,也是本文的研究对象。接着在介绍已有不平衡数据分类方法的基础上,分析不平衡训练集取样存在的问题,并构建了混合采样分类方法。然后把白血病分类的多类问题转化成二类问题,并使用ROC和AUC对该方法进行评价。之后使用混合采样等8种分类方法对白血病不平衡数据集进行分类和测试,通过对比分析验证了混合采样分类方法的分类效果和分类稳定性。最后对本文的工作进行总结并对后续的工作进行了展望。
-
-
杨智明;
彭喜元
- 《2008中国仪器仪表与测控技术报告大会》
| 2008年
-
摘要:
研究表明支持向量机方法在样本集分布不均衡情况下,对少类样本分类准确率急剧下降。针对该问题,本文首先详细分析了支持向量机在不平衡数据集上的分类情况:以此为基础,提出了一种新型支持向量机方法—μSVM,通过调整分类决策函数中距离度量准则来增大少类样本的决策空间。算法分析和仿真结果表明,文中提出的方法在不增加计算复杂度的前提下,有效地提高了算法整体分类准确率。
-
-
-
-
-
-
-
- 苏州大学
- 公开公告日期:2022-01-14
-
摘要:
本发明类不平衡数据集下的机械故障智能诊断方法,包括:步骤(1)、数据预处理:把机械振动信号转换到频域,并把幅值归一化到[0,1]范围;步骤(2)、模型搭建:把自动编码器和生成对抗网络进行组合,搭建数据生成模型;步骤(3)、模型训练:利用故障数据按照预设的损失函数和优化算法训练所述数据生成模型;步骤(4)、数据生成:利用所述数据生成模型在训练中学习到的故障数据低维特征,通过多次插值、加噪后生成对应类的故障数据,实现各类数据平衡;步骤(5)、故障诊断:利用类平衡数据集训练预设的故障诊断模型,利用训练好的故障诊断模型对机械故障进行智能诊断。利用自动编码器、生成对抗网络的结合,实现机械故障诊断。
-
-
-
-