CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法

谢海华; 李奥林; 李亚博; 陈志优; 程静; 吕肖庆; 汤帜

首页> 中文期刊> 《中文信息学报》 >CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法

CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

由于汉语语义表达的多样性和复杂性,中文错别字自动纠正目前存在很多挑战.现有的错别字纠正算法的性能普遍不够理想,而且需要大量高质量的语料进行训练.该文提出一种基于预训练语言模型的错别字纠正方法CPLM-CSC,能够显著地提高纠错性能.CPLM-CSC采用基于单字级别预训练语言模型来进行错别字检测,并采用掩字语言模型来进行错别字纠正.为了提高纠正性能,CPLM-CSC采用音近、形近字判断等多种筛选纠正结果的方法,并针对一些典型且特殊的错误,例如"的地得"误用,采取了专门的数据增强方法.CPLM-CSC在SIGHAN 2015的评测数据集上进行了测试,取得了0.654的F1值,其性能优于其他模型.

著录项

来源
《中文信息学报》 |2021年第5期|38-45|共8页
作者
谢海华; 李奥林; 李亚博; 陈志优; 程静; 吕肖庆; 汤帜;
展开▼
作者单位

北大方正集团有限公司数字出版技术国家重点实验室北京 100871;

北大方正集团有限公司数字出版技术国家重点实验室北京 100871;

北大方正集团有限公司数字出版技术国家重点实验室北京 100871;

北大方正集团有限公司数字出版技术国家重点实验室北京 100871;

北大方正集团有限公司数字出版技术国家重点实验室北京 100871;

北大方正集团有限公司数字出版技术国家重点实验室北京 100871;

北京大学王选计算机研究所北京 100871;

北大方正集团有限公司数字出版技术国家重点实验室北京 100871;

北京大学王选计算机研究所北京 100871;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
中文错别字纠正; 预训练语言模型; 单字级别模型;

相似文献

中文文献
外文文献
专利

1. 基于预训练语言模型的中文零指代消解 [J] . 申资卓 . 信息通信 . 2020,第005期
2. 预训练语言模型在中文电子病历命名实体识别上的应用 [J] . 吴小雪 ,张庆辉 . 电子质量 . 2020,第009期
3. 基于跨语种预训练语言模型XLM-R的神经机器翻译方法 [J] . 王倩 ,李茂西 ,吴水秀 . 北京大学学报:自然科学版 . 2022,第1期
4. 基于多语言预训练语言模型的译文质量估计方法 [J] . 陆金梁 ,张家俊 . 厦门大学学报（自然科学版） . 2020,第002期
5. 聚焦错别字,预防纠正有妙招——关于小学生错别字预防与纠正方法的几点思考 [J] . 郑玉娇 . 读与写：中旬 . 2021,第3期
6. CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法 [C] . Haihua XIE ,谢海华 ,Aolin LI . 第十八届中国计算语言学大会暨中国中文信息学会2019学术年会 . 2018
7. 基于预训练语言模型的中文短文本分类研究 [A] . 夏梓渊 . 2021

CPLM-CSC:基于单字级别预训练语言模型的中文错别字纠正方法

摘要

著录项

相似文献

相关主题

期刊订阅