一种解决命名实体识别数据集类别标记失衡的方法

许丽丹; 刘嘉勇; 何祥

首页> 中文期刊> 《四川大学学报：自然科学版》 >一种解决命名实体识别数据集类别标记失衡的方法

一种解决命名实体识别数据集类别标记失衡的方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

命名实体识别研究中常见的公开数据集普遍存在数据类别标记不平衡的问题,限制了基于统计学习模型方法性能的进一步提高.针对上述问题,提出了基于遗传算法的数据类别标记平衡方法.该方法基于原始数据集中已有的标记数据,通过修改遗传算法中的指标适应度函数和基因组合规则,合成类别分布均衡的文本用以扩充原始数据集,降低标记数据不平衡性从而改善命名实体识别的效果.为验证该方法的有效性,采用Bi-LSTM-CRF模型分别基于CoNLL 2003及JNLPBA数据集设计了该方法与平衡欠采样、随机过采样方法的对比实验.从实验中发现,提出的方法在CoNLL2003数据集上模型召回率提高3.26%,F 1值提高1.70%;在JNLPBA数据集上召回率提高2.44%,F 1值提高1.03%.实验结果表明,提出的方法能够有效地缓解类别标记失衡问题达到提高命名实体识别效果的目的.

著录项

来源
《四川大学学报：自然科学版》 |2020年第1期|82-88|共7页
作者
许丽丹; 刘嘉勇; 何祥;
展开▼
作者单位

四川大学网络空间安全学院;

成都610065;

四川大学电子信息学院;

成都610065;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
命名实体识别; 类别失衡; 数据合成; 统计学习模型; 遗传算法;

相似文献

中文文献
外文文献
专利

1. 一种基于混合策略的失衡数据集分类方法 [J] . 李鹏 ,王晓龙 ,刘远超 . 电子学报 . 2007,第011期
2. 针对弱标记的多标记数据集成学习分类方法 [J] . 李凤英 ,李宏 ,李培 . 微型机与应用 . 2012,第013期
3. 基于改进决策树算法的失衡数据集分类方法 [J] . 潘燕 . 长春工程学院学报（自然科学版） . 2019,第004期
4. 基于医疗类别的电子病历命名实体识别研究 [J] . 李飞 ,朱艳辉 ,王天吉 . 湖南工业大学学报 . 2018,第004期
5. 一个对不带类别标记文本进行分类的方法 [J] . 蒋志方 ,祝翠玲 ,吴强 . 计算机工程 . 2007,第012期
6. 基于类别的推荐——一种解决协同推荐中冷启动问题的方法 [C] . 罗喜军 ,王韬丞 ,杜小勇 . 第二十四届中国数据库学术会议 . 2007
7. 基于类别失衡数据集的改进支持向量机模型的研究 [A] . 张贝贝 . 2017

一种解决命名实体识别数据集类别标记失衡的方法

摘要

著录项

相似文献

相关主题

期刊订阅