首页> 外文会议>International Workshop on Semantic Evaluation >Nova-Wang at SemEval-2020 Task 12: OffensEmblert: an Ensemble of Offensive Language Classifiers
【24h】

Nova-Wang at SemEval-2020 Task 12: OffensEmblert: an Ensemble of Offensive Language Classifiers

机译:Nova-Wang在Semeval-2020任务12:冒犯监魂:攻击性语言分类器的集合

获取原文

摘要

This paper presents our contribution to the Offensive Language Classification Task (English SubTask A) of Semeval 2020. We propose different Bert models trained on several offensive language classification and profanity datasets, and combine their output predictions in an ensemble model. We experimented with different ensemble approaches, such as SVMs, Gradient boosting, AdaBoosting and Logistic Regression. We further propose an under-sampling approach of the current SOLID dataset, which removed the most uncertain partitions of the dataset, increasing the recall of the dataset. Our best model, an average ensemble of four different Bert models, achieved 11th place out of 82 participants with a macro F1 score of 0.91344 in the English SubTask A.
机译:本文提出了对Semeval 2020的令人反感语言分类任务(英语子间A)的贡献。我们提出了在几种攻击性语言分类和亵渎数据集上培训的不同BERT模型,并将其输出预测组合在集合模型中。 我们尝试了不同的集合方法,如SVM,梯度提升,adaboosting和Logistic回归。 我们进一步提出了一种当前实体数据集的下采样方法,该方法删除了数据集的最不确定的分区,增加了数据集的召回。 我们最好的型号,是四种不同BERT模型的平均集合,在82名参与者中实现了11个参与者,在英语子任务中的宏F1分数为0.91344。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号