首页> 中国专利> 一种智能化文本纠错模型训练方法

一种智能化文本纠错模型训练方法

摘要

本发明公开了一种智能化文本纠错模型训练方法,包括以下步骤:S1、获取待纠错文本;S2、错误检测,对待纠错文本进行错误检测,所述错误检测包括基于规则的错误检测和基于模型的错误检测;S3、候选召回,对检测后的文本进行候选召回,通过语言模型和混淆词典来召回正确的候选词;S4、候选排序,通过排序算法对召回的候选词进行打分排序,选择分数最高的一项进行替换;S5、候选筛选,得到最优的纠正方案。该种智能化文本纠错模型训练方法,通过待纠错文本进行错误检测、候选召回和候选排序三个主要流程,有效提高了文本纠错的准确率。

著录项

  • 公开/公告号CN112989806A

    专利类型发明专利

  • 公开/公告日2021-06-18

    原文格式PDF

  • 申请/专利权人 广州伟宏智能科技有限公司;

    申请/专利号CN202110371422.X

  • 申请日2021-04-07

  • 分类号G06F40/232(20200101);G06F40/242(20200101);G06F40/216(20200101);G06N3/04(20060101);G06N3/08(20060101);G06N20/20(20190101);

  • 代理机构44765 佛山市神机营专利代理事务所(普通合伙);

  • 代理人许尤庆

  • 地址 510000 广东省广州市天河区车陂启明大街93号B401房(仅限办公用途)

  • 入库时间 2023-06-19 11:29:13

说明书

技术领域

本发明涉及智能文本分析技术领域,具体为一种智能化文本纠错模型训练方法。

背景技术

文本纠错技术是实现中文语句自动检查、自动纠错的一项重要技术,其目的是提高语言正确性的同时减少人工校验成本。纠错模块作为自然语言处理最基础的模块,其重要程度不言而喻。在日常生活中,我们经常会在微信、微博等社交工具或公众号文章中发现许多错别字,同时随着各自社交网站的发展,语音对话在社交软件中在不断普及,为了使得接收语音方在不方便接收语音时,也能及时接收到对方发送的内容,因此语音对话也开始出现转文字的功能。但是由于语音对话较为口语化,在转文字过程中,容易出现错误句子,最终会导致接收方不明确对方的意图。

现有技术中为了实现文本纠错的功能,主要是通过利用基于规则的模型或基于统计的模型生成针对待纠正文本的多个候选文本,利用评分函数或者分类器对多个候选文本进行排序,从多个候选文本中筛选出最合理的文本。然而在基于规则的模型或者基于统计的模型进行文本纠错过程中,文本纠错的准确率较低,文本纠错效果并不能满足现阶段用户对文本纠错功能的需求,因此我们对此做出改进,提出一种智能化文本纠错模型训练方法。

发明内容

为了解决上述技术问题,本发明提供了如下的技术方案:

本发明一种智能化文本纠错模型训练方法,包括以下步骤:

S1、获取待纠错文本;

S2、错误检测,对待纠错文本进行错误检测,所述错误检测包括基于规则的错误检测和基于模型的错误检测;

S3、候选召回,对检测后的文本进行候选召回,通过语言模型和混淆词典来召回正确的候选词;

S4、候选排序,通过排序算法对召回的候选词进行打分排序,选择分数最高的一项进行替换;

S5、候选筛选,得到最优的纠正方案。

作为本发明的一种优选技术方案,S2中所述基于规则的错误检测包括拼音匹配检测和双向2gram检测;所述拼音匹配检测通过建立拼音到实体的映射字典,完成错词到拼音到实体的纠错流程;所述双向2gram检测是将语料中所有2gram的联合概率分布拟定为正态分布,通过正确2gram片段的出现概率远大于错误出现的概率来完成错误检测。

作为本发明的一种优选技术方案,S2中所述基于模型的错误检测包括基于nn语言错误检测和基于BiLstm改造的音字混合受限字表语言模型错误检测。

作为本发明的一种优选技术方案,所述基于nn语言错误检测是通过完形填空的方式来预测候选字的概率分布,若原字的概率不在topk里或与top1比值超过阈值,则认为有错;所述基于BiLstm改造的音字混合受限字表语言模型错误检测,是利用BiLstm,前向Lstm从左到右学习,后向Lstm从后到左学习,然后合并两个得到,得到先与输入的字向量做Attention得到,然后与拼接得到;再用与候选字向量做Attention,用Attention后的分数作为预测概率分布。

作为本发明的一种优选技术方案,S3中所述混淆词典包括基于近音、近型、编辑距离的1、2gram混淆词典,将1gram词及词频和1gram近音词词典使用双数组字典树存储,而2gram词典采用CSR数据结构存储,2gram的近音混淆词可以从以上词典里恢复出来。

作为本发明的一种优选技术方案,S4中所述候选排序包括一级粗排序和二级精排序,所述一级粗排序采用逻辑回归模型算法,过滤部分明显错误的答案,所述二级精排序采用Xgboost模型对候选进行打分,分数超过设定阈值且是Top1的作为最终候选。

作为本发明的一种优选技术方案,所述一级粗排序中逻辑回归抽取的特征主要包括频率比值、编辑距离、拼音jaccard距离、Ngram统计语言模型分数差值。

作为本发明的一种优选技术方案,二级精排序中的候选特征分为局部特征和全局特征,所述局部特征主要包括分词变化、频次变化、形音变化、PMI互信息变化、Ngram语言模型分数变化以及一些其他的基础特征。

本发明的有益效果是:该种智能化文本纠错模型训练方法,通过待纠错文本进行错误检测、候选召回和候选排序三个主要流程,有效提高了文本纠错的准确率;通过错误检测中的拼音匹配检测、双向2gram检测、基于nn语言错误检测和基于BiLstm改造的音字混合受限字表语言模型错误检测,有效提高了错误检测的精度及效率,进而便于快速实现对文本进行高质量的纠错;通过利用BiLstm,前向Lstm从左到右学习,后向Lstm从后到左学习,然后合并两个得到,得到先与输入的字向量做Attention得到,然后与拼接得到;再用与候选字向量做Attention,用Attention后的分数作为预测概率分布,有效缓解了邻近字也是错别字的情形,提高文本纠错的准确率。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:

图1是本发明一种智能化文本纠错模型训练方法的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。

实施例:如图1所示,本发明一种智能化文本纠错模型训练方法,包括以下步骤:

S1、获取待纠错文本;

S2、错误检测,对待纠错文本进行错误检测,所述错误检测包括基于规则的错误检测和基于模型的错误检测;

S3、候选召回,对检测后的文本进行候选召回,通过语言模型和混淆词典来召回正确的候选词;

S4、候选排序,通过排序算法对召回的候选词进行打分排序,选择分数最高的一项进行替换;

S5、候选筛选,得到最优的纠正方案。

其中,S2中所述基于规则的错误检测包括拼音匹配检测和双向2gram检测;所述拼音匹配检测通过建立拼音到实体的映射字典,完成错词到拼音到实体的纠错流程;所述双向2gram检测是将语料中所有2gram的联合概率分布拟定为正态分布,通过正确2gram片段的出现概率远大于错误出现的概率来完成错误检测。

其中,S2中所述基于模型的错误检测包括基于nn语言错误检测和基于BiLstm改造的音字混合受限字表语言模型错误检测。

其中,基于nn语言错误检测是通过完形填空的方式来预测候选字的概率分布,若原字的概率不在topk里或与top1比值超过阈值,则认为有错;所述基于BiLstm改造的音字混合受限字表语言模型错误检测,是利用BiLstm,前向Lstm从左到右学习,后向Lstm从后到左学习,然后合并两个得到,得到先与输入的字向量做Attention得到,然后与拼接得到;再用与候选字向量做Attention,用Attention后的分数作为预测概率分布。

其中,S3中所述混淆词典包括基于近音、近型、编辑距离的1、2gram混淆词典,将1gram词及词频和1gram近音词词典使用双数组字典树存储,而2gram词典采用CSR数据结构存储,2gram的近音混淆词可以从以上词典里恢复出来。

其中,S4中所述候选排序包括一级粗排序和二级精排序,所述一级粗排序采用逻辑回归模型算法,过滤部分明显错误的答案,所述二级精排序采用Xgboost模型对候选进行打分,分数超过设定阈值且是Top1的作为最终候选。

其中,一级粗排序中逻辑回归抽取的特征主要包括频率比值、编辑距离、拼音jaccard距离、Ngram统计语言模型分数差值。

其中,二级精排序中的候选特征分为局部特征和全局特征,所述局部特征主要包括分词变化、频次变化、形音变化、PMI互信息变化、Ngram语言模型分数变化以及一些其他的基础特征。

该种智能化文本纠错模型训练方法在使用时,通过待纠错文本进行错误检测、候选召回和候选排序三个主要流程,有效提高了文本纠错的准确率;通过错误检测中的拼音匹配检测、双向2gram检测、基于nn语言错误检测和基于BiLstm改造的音字混合受限字表语言模型错误检测,有效提高了错误检测的精度及效率,进而便于快速实现对文本进行高质量的纠错;通过利用BiLstm,前向Lstm从左到右学习,后向Lstm从后到左学习,然后合并两个得到,得到先与输入的字向量做Attention得到,然后与拼接得到;再用与候选字向量做Attention,用Attention后的分数作为预测概率分布,有效缓解了邻近字也是错别字的情形,提高文本纠错的准确率。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号