您现在的位置: 首页> 研究主题> 不平衡数据集

不平衡数据集

不平衡数据集的相关文献在2005年到2022年内共计225篇,主要集中在自动化技术、计算机技术、电工技术、机械、仪表工业 等领域,其中期刊论文174篇、会议论文3篇、专利文献683759篇;相关期刊104种,包括信息技术、电脑编程技巧与维护、电脑知识与技术等; 相关会议3种,包括2011年全国知识组织与知识链接学术交流会、2008中国仪器仪表与测控技术报告大会、2016年第27届中国过程控制会议 等;不平衡数据集的相关文献由611位作者贡献,包括刘悦婷、张化祥、杨智明等。

不平衡数据集—发文量

期刊论文>

论文:174 占比:0.03%

会议论文>

论文:3 占比:0.00%

专利文献>

论文:683759 占比:99.97%

总计:683936篇

不平衡数据集—发文趋势图

不平衡数据集

-研究学者

  • 刘悦婷
  • 张化祥
  • 杨智明
  • 卢诚波
  • 张涛
  • 彭喜元
  • 王超学
  • 马春森
  • 乔立岩
  • 吕卫
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 陶叶辉; 赵寿为
    • 摘要: SMOTE算法对于不平衡数据集有较好的分类,但对于类内不平衡情况分类效果欠佳,针对此问题提出一种基于高斯混合模型聚类的SMOTE过采样算法。先利用GMM算法对少数类样本集进行聚类,再删除与聚类中心点重叠的冗余样本,最后根据不同聚簇进行SMOTE过采样,使数据最终平衡。将RF、SMOTE+RF、GMM-SMOTE+RF 3种算法在6组UCI标准的公开数据集上进行分类效果实验,结果表明该模型AUC值平均提高了6.09%,可有效平衡不平衡的数据集。
    • 顾兆军; 刘婷婷; 隋翯
    • 摘要: 工业控制系统异常检测大多面临类不平衡问题,从而导致检测模型准确率下降和泛化能力变差。根据生成式对抗网络,提出一种只使用正常样本进行训练的异常检测模型——基于隐空间特征重构的生成式对抗网络模型。在训练阶段,该模型通过引入新的编码器,学习生成数据到隐空间的映射,实现生成数据的隐空间特征重构,并嵌入SE Block模块提升有效特征权重,提高隐空间特征重构能力;鉴别器同时鉴别两个编码器和一个生成器产生的3个数据对,提高模型精度和泛化能力。在检测阶段,综合考虑重构和鉴别损失,采用L2范数优化异常评分公式,克服模式崩塌。SWaT和WADI两个数据集上的验证实验结果表明,该模型在学习能力、稳定性和检测结果方面与AnoGAN、WGAN-GP和BiGAN等模型相比都具有明显优势。
    • 王春鹏; 王冬青; 傅强; 刘纬骅
    • 摘要: 在目标检测方法中,针对目标检测网络RefineDet对类别样本数量不平衡和困难样本难挖掘问题,以及ARM获取位置信息和特征信息比较粗略所导致训练效果不佳的问题;提出权重平衡调节损失(WBALoss)函数,通过对多分类损失中的不同类别样本和难易样本进行加权来提高对样本数量少的类别和困难样本关注度;以及ARM与TCB信息融合和添加PyConv优化算法网络。在VOC07和VOC12数据集上进行实验,与原RefineDet相比,所改进的算法在两个数据集测试的mAP分别提高了1.49%,1.51%。以及分别只添加类别样本平衡因子、难易样本平衡因子和优化结构后的RefineDet算法在两个数据集测试的mAP分别提高0.52%,0.58%,0.59%和0.54%,0.61%,0.57%。
    • 王诚; 高兴东
    • 摘要: 传统DBSCAN算法对密度分布不均匀的不平衡数据集的聚类效果并不理想,同时传统算法的聚类结果对邻域半径(Eps)以及核心点阈值(MinPts)敏感。针对以上问题,改进了传统算法,提出了一种基于最小生成树的密度聚类算法(MST-DBSCAN)。由于对象之间的距离对聚类结果影响较大,为了更好地表示对象之间的距离特性,首先使用相互可达距离(mutual reachability distance)代替传统算法中的欧氏距离,表示数据集中对象与对象之间的距离,解决因密度分布不均匀导致效果不佳的问题;为了建立对象与对象之间的联系,同时保留对象之间的距离特性,引用Prim算法对数据集中的所有对象构建最小生成树;其次根据指定的簇的数目及最小簇对象数数目参数对得到的最小生成树进行剪枝;根据剪枝的结果,将剪枝后的各个部分进行聚类。在公开的UCI数据集上的实验结果表明,提出的MST-DBSCAN算法与现有DBSCAN、OPTICS、KANN-DBSCAN算法相比,在密度分布不均匀的数据集上聚类效果有所提升并且较原有传统算法有较高的聚类准确性。
    • 邱灿华; 吴杰
    • 摘要: 针对传统的合成少数类过采样技术(Synthetic Minority Oversampling Technique,SMOTE)中存在的忽略类间不平衡、类内不平衡、无法控制合成样本的噪声等问题,结合DBSCAN聚类算法,提出了一种基于DBSCAN改进的SMOTE算法:使用DBSCAN算法对少数类样本进行聚类,计算少数类密度系数和采用权重为每个簇分配采样数量,将每个簇中样本点按照到簇质心的距离分为2类,对每类中的样本点分配不同的随机系数进行过采样,得到新的较为平衡的数据集。根据获取的数据集进行实验表明,改进的算法可以很好地改善分类器的分类性能。
    • 周玉; 孙红玉; 房倩; 夏浩
    • 摘要: 社会发展的同时带来大量数据的产生,不平衡成为众多数据集的显著特点,如何使不平衡数据集得到更好的分类效果成为了机器学习的研究热点。基于此,对目前存在的不平衡数据集分类方法进行综述研究,从不平衡数据采样方法、基于机器学习的改进算法以及组合方法三个层面对目前存在的方法进行全面的梳理与总结,对各方面方法所解决的问题、算法思想、应用场景以及各自的优缺点进行归纳和分析,同时对不平衡数据集分类方法存在的问题和未来研究方向提出一些总结和展望。
    • 覃琴; 杨悦; 陈名松; 王鑫
    • 摘要: 针对不平衡数据集分类,现有的过采样算法更多地解决了类间不平衡问题,而未考虑少数类的类内不平衡,未筛选进行过采样的样本及未去除噪音,且合成过程中存在样本重叠及样本分布“边缘化”等问题,提出一种基于层次聚类和改进SMOTE的过采样算法AGNES-SMOTE。该算法对多数类和少数类样本分别进行层次聚类,并根据获得的多数类簇划分少数类簇,合并过程中考虑多数类样本分布,避免重叠样本的生成。接着根据少数类簇中的样本数量确定采样权重,并根据少数类样本到其近邻多数类样本的距离计算出每个少数类簇的概率分布,结合两者来选取“种子样本”。最后在采样过程中采用质心方式来限制合成样本的生成区域。将AGNES-SMOTE与分类器结合来处理不平衡数据集的分类问题。通过UCI数据集上与其他文献中相关算法的对比实验表明,AGNES-SMOTE在新样本的整体合成效果上表现出色,取得更高的G-mean值、F-measure值和AUC值,有效提高了分类器在不平衡数据集上的分类性能。
    • 高莹莹; 孙璇
    • 摘要: 针对目前常用的入侵检测数据集存在的类别不平衡问题,从数据的采样层面出发,提出基于数据增强的入侵检测算法,并对数据进行了特征选择。在公开发布的真实数据集上展开的实验表明,针对不平衡的数据集,所提算法可以在一定程度上提升检测的准确率。
    • 王通; 罗真伟
    • 摘要: 针对传统工况识别算法在识别有杆抽油系统工况时,存在生产措施调整滞后以及生产效率下降等问题,提出了一种基于改进的随机森林工况识别算法.采用灰度矩阵特征提取算法对泵功图进行特征提取,将灰度特征值通过合成少数类过采样技术进行上采样,实现不平衡数据均衡化;利用蜻蜓优化算法选取随机森林参数对抽油机井工况进行识别,并以辽河油田的生产数据进行实验验证.结果表明,该方法能够避免传统识别方法选取参考工况不准确的问题,减少不平衡数据对工况识别的影响,提高工况识别的准确率,能够满足油田现场的实际需求.
    • 张状状; 杜星熠; 王啸; 胡静; 宋铁成
    • 摘要: 传统机器学习算法训练网络入侵数据集时,容易出现特征维数多、过拟合与数据集不平衡等问题,导致入侵检测算法的准确率降低以及时间效率低下。为解决上述问题,文章提出基于极端随机树的入侵检测模型,使用线性判别式分析进行数据降维,然后利用过采样减少网络入侵数据集样本类别不平衡带来的影响,最后使用极端随机树进行模型训练。实验结果表明,经过LDA降维和过采样后,使用极端随机树分类模型能够提高多分类下不平衡数据集的整体识别性能并能满足网络入侵检测实际应用的时间效率要求。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号