首页> 中文期刊> 《计算机工程与应用》 >融合SLDA主题模型的不均衡文本分类方法

融合SLDA主题模型的不均衡文本分类方法

         

摘要

在标签均衡分布且标注样本足够多的数据集上,监督式分类算法通常可以取得比较好的分类效果.然而,在实际应用中样本的标签分布通常是不均衡的,分类算法的分类性能就变得比较差.为此,结合SLDA(Supervised LDA)有监督主题模型,提出一种不均衡文本分类新算法ITC-SLDA(Imbalanced Text Categorization based on Supervised LDA).基于SLDA主题模型,建立主题与稀少类别之间的精确映射,以提高少数类的分类精度.利用SLDA模型对未标注样本进行标注,提出一种新的未标注样本的置信度计算方法,以及类别约束的采样策略,旨在有效采样未标注样本,最终降低不均衡文本的倾斜度,提升不均衡文本的分类性能.实验结果表明,所提方法能明显提高不均衡文本分类任务中的Macro-F1和G-mean值.

著录项

  • 来源
    《计算机工程与应用》 |2021年第12期|144-154|共11页
  • 作者单位

    山东工商学院 计算机科学与技术学院 山东 烟台 264005;

    山东省高等学校协同创新中心:未来智能计算 山东 烟台 264005;

    山东省高校智能信息处理重点实验室(山东工商学院) 山东 烟台 264005;

    山东工商学院 计算机科学与技术学院 山东 烟台 264005;

    山东省高等学校协同创新中心:未来智能计算 山东 烟台 264005;

    山东省高校智能信息处理重点实验室(山东工商学院) 山东 烟台 264005;

    山东工商学院 计算机科学与技术学院 山东 烟台 264005;

    山东省高等学校协同创新中心:未来智能计算 山东 烟台 264005;

    山东省高校智能信息处理重点实验室(山东工商学院) 山东 烟台 264005;

    山东工商学院 计算机科学与技术学院 山东 烟台 264005;

    山东省高等学校协同创新中心:未来智能计算 山东 烟台 264005;

    山东省高校智能信息处理重点实验室(山东工商学院) 山东 烟台 264005;

    大连海事大学 信息科学技术学院 辽宁 大连 116026;

  • 原文格式 PDF
  • 正文语种 chi
  • 中图分类 自动推理、机器学习;
  • 关键词

    有监督主题模型; 半监督学习; 不均衡文本; 分类;

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号