基于数据增强和多任务特征学习的中文语法错误检测方法

机译：基于数据增强和多任务特征学习的中文语法错误检测方法

获取原文

页面导航

摘要
著录项
相似文献
相关主题

摘要

由于中文语法的复杂性，中文语法错误检测(CGED)的难度较大，而训练语料和相关研究的缺乏，使得CGED的效果还远达不到能够实用的程度。本文提出一种CGED模型，采用数据增强、预训练语言模型和基于语言学特征多任务学习的方式，弥补训练语料稀缺的不足。数据增强能够有效地扩充训练集，预训练语言模型蕴含丰富的语义信息有助于语法分析，基于语言学特征多任务学习对语言模型进行优化则可以使语言模型学习到跟语法错误检测相关的语言学特征。本文提出的方法在NLPTEA的CGED数据集进行测试，取得了优于其他模型的结果。

机译：由于中文语法的复杂性，中文语法错误检测(CGED)的难度较大，而训练语料和相关研究的缺乏，使得CGED的效果还远达不到能够实用的程度。本文提出一种CGED模型，采用数据增强、预训练语言模型和基于语言学特征多任务学习的方式，弥补训练语料稀缺的不足。数据增强能够有效地扩充训练集，预训练语言模型蕴含丰富的语义信息有助于语法分析，基于语言学特征多任务学习对语言模型进行优化则可以使语言模型学习到跟语法错误检测相关的语言学特征。本文提出的方法在NLPTEA的CGED数据集进行测试，取得了优于其他模型的结果。

著录项

来源
《Chinese National Conference on Computational Linguistic》|2020年|761-770|共10页
会议地点
作者
谢海华; 陈志优; 程静; 吕肖庆; 汤帜;
展开▼
作者单位

展开▼
会议组织
原文格式 PDF
正文语种
中图分类
关键词
中文语法错误检测; CGED; 数据增强; 多任务学习;

机译：中文语法错误检测;CGED;数据增强;多任务学习;

相似文献

外文文献
中文文献
专利

1. 基于数字属性和符号属性混合数据的网络异常入侵检测方法 [J] . 蔡龙征, 余胜生, 王晓峰, 上海大学学报（英文版） . 2006,第005期

机译：基于数字属性和符号属性混合数据的网络异常入侵检测方法
2. 基于图像的数据增强方法发展现状综述 [J] . Computer Science and Application . 2021,第2期

机译：基于图像的数据增强方法发展现状综述
3. 云计算环境下基于遗传算法的优化的多任务调度算法 [J] . Computer Science and Application . 2016,第6期

机译：云计算环境下基于遗传算法的优化的多任务调度算法
4. 大数据环境下基于T类模型和多元异构数据的交通流状态判断 [C] . 李经纬, 段喆, 黄伟 The 19th International Conference on Information Quality,Big Data: management amp; Data quality . 2014

机译：大数据环境下基于T类模型和多元异构数据的交通流状态判断
5. A Sensor Selection Strategy for Opportunistic Sensing with Mobility Resources =利用移动数据源进行基于机会的数据采集的一种采集者选择策略 [D] . Li, Qingtian. 2020

机译：A Sensor Selection Strategy for Opportunistic Sensing with Mobility Resources =利用移动数据源进行基于机会的数据采集的一种采集者选择策略
6. 基于TCGA数据库的EGFR突变型与野生型肺腺癌患者免疫微环境的差异性分析 [O] . 朱光胜 (Guangsheng ZHU), 李永文 (Yongwen LI), 施睿峰 (Ruifeng SHI), 2021

机译：基于TCGA数据库的EGFR突变型与野生型肺腺癌患者免疫微环境的差异性分析
7. 基于银行数据仓库的元数据管理系统 [O] . 谢福成, 王备战, 史亮, 2009

机译：基于银行数据仓库的元数据管理系统

基于数据增强和多任务特征学习的中文语法错误检测方法

摘要

著录项

相似文献

相关主题

期刊订阅