首页> 中国专利> 一种日语写作自动纠错方法及系统

一种日语写作自动纠错方法及系统

摘要

本发明公开了一种日语写作自动纠错方法及系统,方法包括以下步骤:将待检测的日语写作文本中的每个单词转换为词向量,将文本中的每个句子中的词向量进行特征提取,得到句子中的具有特征的词向量,并将其作为特征量,将句子中的词向量与特征量输入关联模型中,关联模型利用后馈传播的方式进行学习调整,得到句子中的每个词向量与特征量关联值,根据词性得到词向量与词向量之间组合的集合,选择集合中总的关联值最大的一组组合,标记组合中未被选择的词向量;将选择的组合根据知识图谱进行完善,生成纠错后的文本。本发明可以起到自动纠错的作用,帮助写作人员自动检测文本错误,节省了复查的时间,同时也提高了写作效率。

著录项

  • 公开/公告号CN112883917A

    专利类型发明专利

  • 公开/公告日2021-06-01

    原文格式PDF

  • 申请/专利权人 兰州理工大学;

    申请/专利号CN202110301196.8

  • 申请日2021-03-22

  • 分类号G06K9/00(20060101);G06K9/46(20060101);G06N20/00(20190101);

  • 代理机构42284 武汉菲翔知识产权代理有限公司;

  • 代理人贾双明

  • 地址 730050 甘肃省兰州市七里河区兰工坪路287号

  • 入库时间 2023-06-19 11:11:32

说明书

技术领域

本发明涉及计算机技术领域,特别涉及一种日语写作自动纠错方法及系统。

背景技术

近年来,随着我国对外开放的深入发展,小语种人才的需求越来越大,日本作为临近我国的经济体,与我国的联系日益紧密。经济活动需要复杂的交际,这就使得日语作为一门热门的语言,这种趋势带动了人们学习日语的热情,每年学习日语的学生人数呈直线上升趋势,但这种快速发展也增大了教师的压力,由于教师力量的稀缺,学生需要具备一定的自我检查的能力,但目前在写作的过程中,学生缺乏这种自查纠错的能力,且纠错过程不够科学,白白浪费时间,降低学习效率。

发明内容

为了至少解决或部分解决上述问题,提供一种日语写作自动纠错方法及系统。

为了达到上述目的,本发明提供了如下的技术方案:

本发明一种日语写作自动纠错方法,包括以下步骤:

S1:收集待检测的日语写作文本;

S2:将待检测的日语写作文本中的每个单词转换为词向量,将文本中的每个句子中的词向量进行特征提取,得到句子中的具有特征的词向量,并将其作为特征量,将句子中的词向量与特征量输入关联模型中,关联模型利用后馈传播的方式进行学习调整,得到句子中的每个词向量与特征量关联值,根据词性得到词向量与词向量之间组合的集合,选择集合中总的关联值最大的一组组合,标记组合中未被选择的词向量;

S3:将选择的组合根据知识树进行完善,生成纠错后的文本。

作为本发明的一种优选技术方案,所述步骤S2中,所述关联模型通过深度学习算法根据数据库建模,得到特征量与词向量的关联概率以及词向量与特征量的关联概率,将两个关联概率相除得到关联值。

作为本发明的一种优选技术方案,所述深度学习采用卷积神经网络完成,所述卷积神经网络由编码器路径和解码器路径组成,所述编码器路径和解码器路径均由卷积到批标准化到激活Relu函数的卷积单元形式的网络结构组成。

作为本发明的一种优选技术方案,所述步骤S3中,将组合中被选择的词向量作为节点,通过蒙特卡洛树进行搜索,完善组合中缺少的词向量,形成纠错文本。

本发明一种日语写作自动纠错系统,包括数据库、词向量转换模块、特征量提取模块、文本获取模块、关联模型、文本选择模块、错误标记模块、纠错模块;

所述文本获取模块用于获取待检测的日语写作文本;

所述词向量转换模块将获取的日语写作文本进行词向量转换;

所述特征提取模块提取文本中每个句子中最具有特征的词向量作为特征量;

所述关联模型根据数据库进行建模,将句子中的词向量与特征量采用深度学习算法,利用后馈传播的方式进行学习调整,得到句子中的每个词向量与特征量关联值;

所述文本选择模块根据词的词性得到词向量与特征量组合的集合,利用贪婪算法得到算集合中最大的关联值的组合,并选择该组合;

所述错误标记模块将组合中未选择的词向量进行标记,生成带有错误标记的文本;

所述纠错模块将选择后的组合通过知识树进行完善,生成纠错后的文本。

作为本发明的一种优选技术方案,还包括展示模块,所述展示模块将未被选择的词向量和添加完善的词向量进行对比展示。

作为本发明的一种优选技术方案,还包括统计模块,统计模块将写作中的错误率进行统计,生成得分数。

与现有技术相比,本发明的有益效果如下:

本发明可以起到自动纠错的作用,帮助写作人员自动检测文本错误,节省了复查的时间,同时也提高了写作效率,保障了写作质量的同时,提高了作者的写作水平。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1是本发明的方法流程图;

图2是本发明的整体系统结构图;

图中:1、文本获取模块;2、词向量转换模块;3、特征提取模块;4、关联模型;5、数据库;6、文本选择模块;7、错误标记模块;8、纠错模块;9、展示模块;10、统计模块。

具体实施方式

以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。其中附图中相同的标号全部指的是相同的部件。

此外,如果已知技术的详细描述对于示出本发明的特征是不必要的,则将其省略。

实施例1

如图1所示,本发明提供一种日语写作自动纠错方法,包括以下步骤:

S1:收集待检测的日语写作文本;

S2:将待检测的日语写作文本中的每个单词转换为词向量,将文本中的每个句子中的词向量进行特征提取,得到句子中的具有特征的词向量,并将其作为特征量,将句子中的词向量与特征量输入关联模型中,关联模型利用后馈传播的方式进行学习调整,得到句子中的每个词向量与特征量关联值,根据词性得到词向量与词向量之间组合的集合,选择集合中总的关联值最大的一组组合,标记组合中未被选择的词向量;

S3:将选择的组合根据知识树进行完善,生成纠错后的文本。

具体的,利用句子中的主要信息,比如说句子中的主要表达的含义,并利用主要信息与单词之间的关联性得到检测书写是否错误,在计算主要信息与单词关联性的过程中,我们先是采用特征提取的方式提取句子中的关键信息,并利用关联信息与单词的关联概率以及单词与关联信息的关联概率进行相除,得到关联值,特征量与词向量的关联概率以及词向量与特征量的关联概率采用卷积神经网络完成,卷积神经网络由编码器路径和解码器路径组成,所述编码器路径和解码器路径均由卷积到批标准化到激活Relu函数的卷积单元形式的网络结构组成,编码器路径利用卷积层生成编码器数据,然后使用批处理归一化进行归一化,使用ReLU激活函数将其激活,解码器路径使用反卷积层对编码器生成的数据进行解码,并使用批处理归一化进行归一化,使用ReLU激活函数将其激活。

得到每个单词与特征值的关联值之后,根据词性进行组合,词性指的是动词、名词等,然后找出组合中关联值最大的组合,该组合为作者表达的内容,由于词性的关系,如果写作有错误,那么有些词之间会产生冲突,出现未被选择的词向量,如果没有错误,那么所有词都会被选中,然后对未选择的词进行标记,并对组合中的词向量进行完善,完善过程中,将组合中被选择的词向量作为节点,通过蒙特卡洛树进行搜索,完善组合中缺少的词向量,形成纠错文本。

根据上述方法,如图2所示,本发明还提供一种日语写作自动纠错系统,包括数据库5、词向量转换模块2、特征量提取模块3、文本获取模块1、关联模型4、文本选择模块6、错误标记模块7、纠错模块8;

文本获取模块1用于获取待检测的日语写作文本;

词向量转换模块2将获取的日语写作文本进行词向量转换;

特征提取模块3提取文本中每个句子中最具有特征的词向量作为特征量;

关联模型4根据数据库5进行建模,将句子中的词向量与特征量采用深度学习算法,利用后馈传播的方式进行学习调整,得到句子中的每个词向量与特征量关联值;

文本选择模块6根据词的词性得到词向量与特征量组合的集合,利用贪婪算法得到算集合中最大的关联值的组合,并选择该组合;

错误标记模块7将组合中未选择的词向量进行标记,生成带有错误标记的文本;

纠错模块8将选择后的组合通过知识树进行完善,生成纠错后的文本。

为了方便写作人员对错误复查,还利用展示模块9将未被选择的词向量和添加完善的词向量进行对比展示,利用对比效果可以让写作人员知晓自己的错误点。

同时,利用统计模块10将写作中的错误率进行统计,生成得分数,可准确知晓自己的写作水平。

本发明可以起到自动纠错的作用,帮助写作人员自动检测文本错误,节省了复查的时间,同时也提高了写作效率,保障了写作质量的同时,提高了作者的写作水平。

最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号