首页> 中国专利> 一种特定领域的语音识别文本纠错方法、系统和存储介质

一种特定领域的语音识别文本纠错方法、系统和存储介质

摘要

本发明公开了一种特定领域的语音识别文本纠错方法,包括:获取待纠错的文本序列;使用通用领域语料模型和特定领域语料模型识别文本序列中的每一个文本序列,得到通用领域判定结果和特定领域判定结果;当所述通用领域判定结果和所述特定领域判定结果是否都是存在错误字词且所述错误字词同一时,根据通用领域判定结果和特定领域判定结果确定候选词清单;将候选词依次代入文本序列中得到纠正序列;使用通用领域语料模型和特定领域语料模型验证纠正序列,若验证通过,输出纠正序列作为纠正结果。本发明的技术效果:有效防止疑似错误误判;大大减少了需要验证的候选词数量;候选词表更全,查全率高,纠错的准确率高。

著录项

  • 公开/公告号CN112489655A

    专利类型发明专利

  • 公开/公告日2021-03-12

    原文格式PDF

  • 申请/专利权人 元梦人文智能国际有限公司;

    申请/专利号CN202011294715.4

  • 发明设计人 顾文元;曾祥云;张雪源;

    申请日2020-11-18

  • 分类号G10L15/26(20060101);G10L15/28(20130101);G10L15/04(20130101);G06F40/232(20200101);

  • 代理机构11323 北京市隆安律师事务所;

  • 代理人何琦

  • 地址 中国香港中环夏慤道12号美国银行中心28楼2807室

  • 入库时间 2023-06-19 10:11:51

说明书

技术领域

本发明涉及语音识别纠错,特别涉及一种特定领域的语音识别文本纠错方法、系统和存储介质。

背景技术

近几年技术层面的突破,语音识别的差错率得到大幅降低,目前已经拥有许多应用场景,取得了很好的市场反响。比如智能手机上的语音输入法、智能音箱的语音处理、录音设备的联网转写功能等,都离不开语音识别的助攻。对于典型的语音界面人机交互系统而言,语音识别是最前端的一个模块,经过识别后的文本才能进行自然语言理解与加工处理,从而产生对应的交互返回给用户。

但是,语音识别的结果仍存在不可避免的误差。由于环境噪声、地方口音、设备自身等干扰因素的存在,语音识别转换后的文本段落经常带有一些异常数据,比如同音词、近似音词、错别字等预期之外的错误文本。这样的差错在文本段落中影响是不容小觑的,同音词会带来语义理解的严重偏差,字级别的错误还可能造成分词切分错误,从而导致词性标注、依存关系分析等一系列错误。因此,在语音识别技术瓶颈下,文本纠错成为非常关键的一个环节,良好的纠错能极大地改善输出文本质量。

现有研发语音识别后文本纠错的相关技术问题在于:而现有的技术方案往往依赖于单一的模型进行使用,故导致在实际的使用过程中,一旦遭遇特定领域词汇,纠错效率不能尽如人心,而如果使用特定领域进行优化,则有可能降低在通用词汇上的识别

发明内容

为解决现有技术中存在的由于使用单一模型而导致的误判率较高的问题,本发明提供一种特定领域的语音识别文本纠错方法,包括:

获取待纠错的文本序列;

使用预先训练好的通用领域语料模型识别所述文本序列,得到通用领域判定结果;所述通用领域判定结果包括所述文本序列中是否存在错误字词及所述错误字词的内容;

使用预先训练好的特定领域语料模型识别所述文本序列,得到特定领域判定结果;所述特定领域判定结果包括所述文本序列中是否存在错误字词及所述错误字词的内容;

当所述通用领域判定结果和所述特定领域判定结果是否都是存在错误字词且所述错误字词同一时,判断所述文本序列中存在错误,根据所述通用领域判定结果确定通用领域候选词清单,根据所述特定领域判定结果确定特定领域候选词清单。

将所述通用领域候选词清单和所述特定领域候选词清单中的候选词依次代入所述文本序列中得到纠正序列;

使用所述通用领域语料模型和所述特定领域语料模型验证所述纠正序列,若验证通过,输出所述纠正序列作为纠正结果。

优选地,所述根据所述通用领域判定结果确定通用领域候选词清单包括:

计算预先建立的通用领域词汇表中的词与所述错误字词的通用领域拼音编辑距离集;

获取所述通用领域词汇表中的词与所述错误字词的通用领域最大公共子串集;

根据所述通用领域拼音编辑距离集和所述通用领域最大公共子串集建立所述通用领域候选词清单。

在本技术方案中,通过两种模型分别进行识别,只有当两个模型都认为是错误的情况下,才会将其视为存在错误,可以克服因为对于名词的所述领域判断错误而导致的错误划分,将实际上正确的视为错误的,从而有效防止疑似错误误判。

优选地,所述根据所述特定领域判定结果确定特定领域候选词清单包括:

计算预先建立的特定领域词汇表中的词与所述错误字词的特定领域拼音编辑距离集;

获取所述特定领域词汇表中的词与所述错误字词的特定领域最大公共子串集;

根据所述特定领域拼音编辑距离集和所述特定领域最大公共子串集建立所述通用领域候选词清单。

在传统技术中,一般通过统计学评分来纠错,而这种纠错方法候选词表大,性能慢,而在本技术方案中通过分别计算拼音编辑距离和最大公共子串来确定对错误的字词的候选词清单,大大减少了需要验证的候选词数量,有效提高了纠错的效率。

优选地,所述获取待纠错的文本序列包括:获取语音识别文本;对所述语音识别文本进行分句处理得到文本序列。

优选地,根据所述通用领域判定结果确定通用领域候选词清单,根据所述特定领域判定结果确定特定领域候选词清单包括:

对所述文本序列进行分词处理,得到分词处理结果;

根据分词处理结果获取N-gram短语集;

统计所述分词处理结果中每个词的词频,得到词频集;

计算所述N-gram短语集中每个N-gram短语的相减项,得到相减项集;

根据所述相减项集和所述词频集计算所述N-gram短语集中对应的每个N-gram短语的伪概率;

根据所述N-gram短语的伪概率构建所述通用领域候选词清单和所述特定领域候选词清单

优选地,根据所述通用领域判定结果确定通用领域候选词清单,根据所述特定领域判定结果确定特定领域候选词清单还包括:

合并所述分词处理结果中的相同词汇。

优选地,根据所述通用领域判定结果确定通用领域候选词清单,根据所述特定领域判定结果确定特定领域候选词清单还包括:

统计所述N-gram短语集中每个N-gram短语在所述文本序列中第一个词的种类数量,并得到第一词集;

并根据所述词频集中的每个词的词频在所述第一词集中对应的词频调整所述词频集。

本发明还提供一种特定领域的语音识别文本纠错系统,包括:

通用领域识别模块,用于使用通用领域语料模型识别所述文本序列中的每一个文本序列,得到通用领域判定结果;所述通用领域判定结果包括所述文本序列中是否存在错误字词及所述错误字词的内容;

特定领域识别模块,用于使用特定领域语料模型识别所述文本序列中的每一个文本序列,得到特定领域判定结果;所述特定领域判定结果包括所述文本序列中是否存在错误字词及所述错误字词的内容;

实际候选词单产生模块,用于当所述通用领域判定结果和所述特定领域判定结果是否都是存在错误字词且所述错误字词同一时,判断所述文本序列中存在错误,根据所述通用领域判定结果确定通用领域候选词清单,根据所述特定领域判定结果确定特定领域候选词清单,否则,所述文本序列中不包含错误字词。

序列验证模块,用于将所述通用领域候选词清单和所述特定领域候选词清单中的候选词依次代入所述文本序列中得到纠正序列,使用所述通用领域语料模型和所述特定领域语料模型验证所述纠正序列,若验证通过,输出所述纠正序列作为纠正结果并产生纠正序列验证结果。

优选地,实际候选词单产生模块包括通用领域候选词清单构建模块,用于计算预先建立的通用领域词汇表中的词与所述错误字词的通用领域拼音编辑距离集;

获取所述通用领域词汇表中的词与所述错误字词的通用领域最大公共子串集;

根据所述通用领域拼音编辑距离集和所述通用领域最大公共子串集建立所述通用领域候选词清单。

优选地,实际候选词单产生模块还包括特定领域候选词清单构建模块,用于计算预先建立的特定领域词汇表中的词与所述错误字词的特定领域拼音编辑距离集;

获取所述特定领域词汇表中的词与所述错误字词的特定领域最大公共子串集;

根据所述特定领域拼音编辑距离集和所述特定领域最大公共子串集建立所述通用领域候选词清单。

优选地,还包括分句处理模块,用于获取语音识别文本;对所述语音识别文本进行分句处理得到文本序列。

优选地,所述实际候选词单产生模块包括:

分词处理模块,用于对所述文本序列进行分词处理,得到分词处理结果;

短语集产生模块,用于根据分词处理结果获取N-gram短语集;

词频集产生模块,用于统计所述分词处理结果中每个词的词频,得到词频集;

相减项集产生模块,用于计算所述N-gram短语集中每个N-gram短语的相减项,得到相减项集;

清单生成模块,用于根据所述相减项集和所述词频集计算所述N-gram短语集中对应的每个N-gram短语的伪概率,并根据所述N-gram短语的伪概率构建所述通用领域候选词清单和所述特定领域候选词清单

优选地,所述实际候选词单产生模块还包括:

同类词处理模块,用于合并所述分词处理结果中的相同词汇。

优选地,所述实际候选词单产生模块还包括:

词频调整模块,用于统计所述N-gram短语集中每个N-gram短语在所述文本序列中第一个词的种类数量,并得到第一词集,并根据所述词频集中的每个词的词频在所述第一词集中对应的词频调整所述词频集。

本发明还提供一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被配置为由处理器调用时,实现前述的方法的步骤。

本发明至少包括以下一项技术效果:

(1)综合通用领域的和特定领域模型的识别优势,有效防止疑似错误误判;

(2)只对根据拼音的编辑距离及最大公共子串确定的疑似错误字词的候选词清单作语言模型验证,大大减少了需要验证的候选词数量;

(3)用字数为单位建立候选词表,候选词表更全,查全率高,纠错的准确率高。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例1的流程示意图;

图2为本发明实施例2的流程示意图;

图3为本发明实施例3的流程示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示所述描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或集合的存在或添加。

为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘出了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。

还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。

另外,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。

实施例1:

如图1所示,本实施例提供一种特定领域的语音识别文本纠错方法,包括:

S1-1:获取语音识别文本;

S2:使用预先训练好的通用领域语料模型识别所述文本序列,得到通用领域判定结果;所述通用领域判定结果包括所述文本序列中是否存在错误字词及所述错误字词的内容

S3:使用预先训练好的特定领域语料模型识别所述文本序列,得到特定领域判定结果;所述特定领域判定结果包括所述文本序列中是否存在错误字词及所述错误字词的内容;

S4-1:当所述通用领域判定结果和所述特定领域判定结果是否都是存在错误字词且所述错误字词同一时,进入S4-2,否则进入S4-3;

S4-2:判断所述文本序列中存在错误,进入S4-4;

S4-3:所述文本序列中不包含错误字词;

S4-4:根据所述通用领域判定结果确定通用领域候选词清单,根据所述特定领域判定结果确定特定领域候选词清单;

S5:将所述通用领域候选词清单和所述特定领域候选词清单中的候选词依次代入所述文本序列中得到纠正序列;

S6:使用所述通用领域语料模型和所述特定领域语料模型验证所述纠正序列,若验证通过进入S7;

S7:输出所述纠正序列作为纠正结果。

在本实施例中,首先通过预先的通用领域大语料文本和特定领域大语料文本建立两个模型,一个是使用通用领域的语料文本构建,在通用的领域识别文本的错误具有良好的效果,另外一个使用特定领域,比如说针对化工领域进行了特定领域的文本加强,针对化工领域的文本的错误识别具有较好的效果,一般而言,这两个模型使用n-gram模型构建方法进行构建。

然后先对需要进行文本纠错的文本序列进行分句处理,若超过一句话,通过标点符号对其进行分句,从而获得多个文本序列,然后将每个文本序列导入到通用领域语料模型和特定领域语料模型中进行判断,得到相应的判断结果,进而判断在该文本序列中是否存在着错误字词,并分别根据两个判断结果生成通用领域候选词清单和特定领域候选词清单,然后将清单中的每一个词代入到文本序列中,再通过通用领域语料模型和特定领域语料模型判断纠正后的子序列是否正确。

具体而言,只有当错词被两个模型同时认定为错误的时候,才会将其视为错误,并进行纠正,正如前文所述,通用领域语料模型适用于常用的领域的文本的错误纠正,而特定领域语料模型则适用于特定的领域的文本的错误纠正,对于同样的一段文字,他可能会得出不一样的结论。

比如说现在存在一段文字:“计算机程序要具有鲁棒性”,若使用通用领域语料模型进行识别,那么其可能会将“鲁棒性”二字视为错别字,但若使用计算机领域的特定领域语料模型进行识别,则会将其视为正确的。

再比如说存在一段文字:“我在德州打扑克”,若使用通用领域语料模型识别,那么其可能会认为“我”这个主体在山东德州或者美国得克萨斯州打“扑克牌”这种游戏,从而认为这句话是正确的,但是如果使用特定领域语料模型,该模型经过德州扑克术语进行特定领域学习,那么可能会认为出现错误,实际的语序为“我在打德州扑克”,也就是说“我”这个主体在玩“德州扑克”这种游戏,从而认为该文本序列中存在错误。

而通过两种模型分别进行识别,只有当两个模型都认为是错误的情况下,才会将其视为存在错误,可以克服因为对于名词的所述领域判断错误而导致的错误划分,将实际上正确的视为错误的,从而有效防止疑似错误误判。

实施例2:

本实施例包括:

S1-1:获取语音识别;

S1-2:对所述语音识别文本进行分句处理得到文本序列;

S2:使用预先训练好的通用领域语料模型识别所述文本序列,得到通用领域判定结果;所述通用领域判定结果包括所述文本序列中是否存在错误字词及所述错误字词的内容

S3:使用预先训练好的特定领域语料模型识别所述文本序列,得到特定领域判定结果;所述特定领域判定结果包括所述文本序列中是否存在错误字词及所述错误字词的内容;

S4-1:当所述通用领域判定结果和所述特定领域判定结果是否都是存在错误字词且所述错误字词同一时,进入S4-2,否则进入S4-3;

S4-2:判断所述文本序列中存在错误,进入S4-4;

S4-3:所述文本序列中不包含错误字词;

S4-4-1:计算预先建立的通用领域词汇表中的词与所述错误字词的通用领域拼音编辑距离集;所述通用领域候选词清单和所述特定领域候选词清单根据字数为单位进行构建;

S4-4-2:获取所述通用领域词汇表中的词与所述错误字词的通用领域最大公共子串集;

S4-4-3:根据所述通用领域拼音编辑距离集和所述通用领域最大公共子串集建立所述通用领域候选词清单;

S4-4-4:计算预先建立的特定领域词汇表中的词与所述错误字词的特定领域拼音编辑距离集;

S4-4-5:获取所述特定领域词汇表中的词与所述错误字词的特定领域最大公共子串集;

S4-4-6:根据所述特定领域拼音编辑距离集和所述特定领域最大公共子串集建立所述通用领域候选词清单;

S5:将所述通用领域候选词清单和所述特定领域候选词清单中的候选词依次代入所述文本序列中得到纠正序列;

S6:使用所述通用领域语料模型和所述特定领域语料模型验证所述纠正序列,若验证通过进入S7;

S7:输出所述纠正序列作为纠正结果。

在本实施例中,首先通过预先的通用领域大语料文本和特定领域大语料文本建立两个模型,一个是使用通用领域的语料文本构建,在通用的领域识别文本的错误具有良好的效果,另外一个使用特定领域,比如说针对化工领域进行了特定领域的文本加强,针对化工领域的文本的错误识别具有较好的效果。

然后先对需要进行文本纠错的语音文本进行分句处理,若超过一句话,通过标点符号对其进行分句,从而获得多个文本序列,然后通过分别计算拼音编辑距离和最大公共子串来确定对错误的字词的候选词清单,大大减少了需要验证的候选词数量,有效提高了纠错的效率。

然后将每个文本序列导入到通用领域语料模型和特定领域语料模型中进行判断,得到相应的判断结果,只有当错词被两个模型同时认定为错误的时候,才会将其视为错误,并进行纠正,进而判断在该文本序列中是否存在着错误字词,并分别根据两个判断结果生成通用领域候选词清单和特定领域候选词清单,然后将清单中的每一个词代入到文本序列中,再通过通用领域语料模型和特定领域语料模型判断纠正后的子序列是否正确。

相对于使用拼音和字形来构建候选词表,用字数建立候选词表,候选词表更全,纠错的准确率高。

S4-4-3具体包括:

S4-4-3-1:对所述文本序列进行分词处理,得到分词处理结果;

S4-4-3-2:根据分词处理结果获取N-gram短语集;

S4-4-3-3:合并所述分词处理结果中的相同词汇。

S4-4-3-4:统计所述分词处理结果中每个词的词频,得到词频集;

S4-4-3-5:统计所述N-gram短语集中每个N-gram短语在所述文本序列中第一个词的种类数量,并得到第一词集;

S4-4-3-6:并根据所述词频集中的每个词的词频在所述第一词集中对应的词频调整所述词频集。

S4-4-3-7:计算所述N-gram短语集中每个N-gram短语的相减项,得到相减项集;

S4-4-3-8:根据所述相减项集和所述词频集计算所述N-gram短语集中对应的每个N-gram短语的伪概率;

S4-4-3-9:根据所述N-gram短语的伪概率构建所述通用领域候选词清单和所述特定领域候选词清单。

具体而言,即为:先对句子进行分词,得到分词后的结果。对分词后的结果分别计算1-gram、2-gram和3-gram,N-gram表示分词后连续的1个词,2个词,3个词。再把语料中相同的词进行合并,统计分词和N-gram短语后每个词的词频。然后对词频进行适当调整,主要方法是统计每个N-gram短语最近前面的第一个词出现不同词的数量,然后对每个词本身的次数N和统计整个语料中,这个词前面第一个词出现的次数M,最终通过取整加权求和的方式融合起来,得到融合后的词频权重。其后,计算每个N-gram短语的相减项。计算相减项的思想是因为那些经常出现的短语减去一个较小数值以后对这个短语概率影响不大,从而让那些不经常出现的短语也有机会获得比原来高的概率。因为高频短语的词频已经降低了,从而低频短语词频相对提升。计算每个N-gram短语的伪概率。伪概率不是最终的概率,是一个近似的概率。伪概率公式如下:

其中w为N-gram的每个短语,n取值为1,2,3分别表示1-gram、2-gram和3-gram,f(w)表示w的词频,x表示在1,2,3gram下所有词的词频求和,从而得到前述步骤中计算出来的每个词的相减项。

实施例3:

如图3所示,本发明还提供一种特定领域的语音识别文本纠错系统,包括:通用领域识别模块,用于使用通用领域语料模型识别所述文本序列中的每一个文本序列,得到通用领域判定结果;所述通用领域判定结果包括所述文本序列中是否存在错误字词及所述错误字词的内容;特定领域识别模块,用于使用特定领域语料模型识别所述文本序列中的每一个文本序列,得到特定领域判定结果;所述特定领域判定结果包括所述文本序列中是否存在错误字词及所述错误字词的内容;实际候选词单产生模块,用于当所述通用领域判定结果和所述特定领域判定结果是否都是存在错误字词且所述错误字词同一时,判断所述文本序列中存在错误,根据所述通用领域判定结果确定通用领域候选词清单,根据所述特定领域判定结果确定特定领域候选词清单,否则,所述文本序列中不包含错误字词。序列验证模块,用于将所述通用领域候选词清单和所述特定领域候选词清单中的候选词依次代入所述文本序列中得到纠正序列,使用所述通用领域语料模型和所述特定领域语料模型验证所述纠正序列,若验证通过,输出所述纠正序列作为纠正结果并产生纠正序列验证结果。

在本实施例中,首先通过预先的通用领域大语料文本和特定领域大语料文本建立两个模型,一个是使用通用领域的语料文本构建,在通用的领域识别文本的错误具有良好的效果,另外一个使用特定领域,比如说针对化工领域进行了特定领域的文本加强,针对化工领域的文本的错误识别具有较好的效果。

然后先对需要进行文本纠错的文本序列进行分句处理,若超过一句话,通过标点符号对其进行分句,从而获得多个文本序列,然后将每个文本序列导入到通用领域语料模型和特定领域语料模型中进行判断,得到相应的判断结果,进而判断在该文本序列中是否存在着错误字词,并分别根据两个判断结果生成通用领域候选词清单和特定领域候选词清单,然后将清单中的每一个词代入到文本序列中,再通过通用领域语料模型和特定领域语料模型判断纠正后的子序列是否正确。

实施例4:

本实施例基于实施例3,实际候选词单产生模块包括通用领域候选词清单构建模块,用于计算预先建立的通用领域词汇表中的词与所述错误字词的通用领域拼音编辑距离集;获取所述通用领域词汇表中的词与所述错误字词的通用领域最大公共子串集;根据所述通用领域拼音编辑距离集和所述通用领域最大公共子串集建立所述通用领域候选词清单。实际候选词单产生模块还包括特定领域候选词清单构建模块,用于计算预先建立的特定领域词汇表中的词与所述错误字词的特定领域拼音编辑距离集;获取所述特定领域词汇表中的词与所述错误字词的特定领域最大公共子串集;根据所述特定领域拼音编辑距离集和所述特定领域最大公共子串集建立所述通用领域候选词清单。还包括分句处理模块,用于获取语音识别文本;对所述语音识别文本进行分句处理得到文本序列。

在传统技术中,一般通过统计学评分来纠错,而这种纠错方法候选词表大,性能慢,而在本实施例中通过分别计算拼音编辑距离和最大公共子串来确定对错误的字词的候选词清单,大大减少了需要验证的候选词数量,有效提高了纠错的效率。

在本实施例中,只有当错词被两个模型同时认定为错误的时候,才会将其视为错误,并进行纠正,正如前文所述,通用领域语料模型适用于常用的领域的文本的错误纠正,而特定领域语料模型则适用于特定的领域的文本的错误纠正,对于同样的一段文字,他可能会得出不一样的结论。

比如说现在存在一段文字:“计算机程序要具有鲁棒性”,若使用通用领域语料模型进行识别,那么其可能会将“鲁棒性”二字视为错别字,但若使用计算机领域的特定领域语料模型进行识别,则会将其视为正确的。

再比如说存在一段文字:“我在德州打扑克”,若使用通用领域语料模型识别,那么其可能会认为“我”这个主体在山东德州或者美国得克萨斯州打“扑克牌”这种游戏,从而认为这句话是正确的,但是如果使用特定领域语料模型,该模型经过德州扑克术语进行特定领域学习,那么可能会认为出现错误,实际的语序为“我在打德州扑克”,也就是说“我”这个主体在玩“德州扑克”这种游戏,从而认为该文本序列中存在错误。

而通过两种模型分别进行识别,只有当两个模型都认为是错误的情况下,才会将其视为存在错误,可以克服因为对于名词的所述领域判断错误而导致的错误划分,将实际上正确的视为错误的,从而有效防止疑似错误误判。

同时相对于使用拼音和字形来构建候选词表,用字数建立候选词表,候选词表更全,纠错的准确率高。

优选地,所述实际候选词单产生模块包括:分词处理模块,用于对所述文本序列进行分词处理,得到分词处理结果;短语集产生模块,用于根据分词处理结果获取N-gram短语集;词频集产生模块,用于统计所述分词处理结果中每个词的词频,得到词频集;相减项集产生模块,用于计算所述N-gram短语集中每个N-gram短语的相减项,得到相减项集;清单生成模块,用于根据所述相减项集和所述词频集计算所述N-gram短语集中对应的每个N-gram短语的伪概率,并根据所述N-gram短语的伪概率构建所述通用领域候选词清单和所述特定领域候选词清单;所述实际候选词单产生模块还包括:同类词处理模块,用于合并所述分词处理结果中的相同词汇。所述实际候选词单产生模块还包括:词频调整模块,用于统计所述N-gram短语集中每个N-gram短语在所述文本序列中第一个词的种类数量,并得到第一词集,并根据所述词频集中的每个词的词频在所述第一词集中对应的词频调整所述词频集。

具体而言,即为:先对句子进行分词,得到分词后的结果。对分词后的结果分别计算1-gram、2-gram和3-gram,N-gram表示分词后连续的1个词,2个词,3个词。再把语料中相同的词进行合并,统计分词和N-gram短语后每个词的词频。然后对词频进行适当调整,主要方法是统计每个N-gram短语最近前面的第一个词出现不同词的数量,然后对每个词本身的次数N和统计整个语料中,这个词前面第一个词出现的次数M,最终通过取整加权求和的方式融合起来,得到融合后的词频权重。其后,计算每个N-gram短语的相减项。计算相减项的思想是因为那些经常出现的短语减去一个较小数值以后对这个短语概率影响不大,从而让那些不经常出现的短语也有机会获得比原来高的概率。因为高频短语的词频已经降低了,从而低频短语词频相对提升。计算每个N-gram短语的伪概率。伪概率不是最终的概率,是一个近似的概率。伪概率公式如下:

其中w为N-gram的每个短语,n取值为1,2,3分别表示1-gram、2-gram和3-gram,f(w)表示w的词频,x表示在1,2,3gram下所有词的词频求和,从而得到前述步骤中计算出来的每个词的相减项。

实施例5:

本实施例提供一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被配置为由处理器调用时,实现实施例1-4任一所述的方法的步骤。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号