首页> 中国专利> 用于自动评估写作的基于示例的错误检测系统、方法及错误检测设备

用于自动评估写作的基于示例的错误检测系统、方法及错误检测设备

摘要

本发明提供用于自动评估写作的基于示例的错误检测系统、用于该系统的方法和用于该系统的错误检测设备,其通过因特网或其它语言传输介质收集包括各种文体风格在内的示例语句,并且构建基于示例的数据库,其中,当写成的输入语句被输入时,输入语句被以语素为单位分解,从单独的语素产生按照预定窗口大小结合的语素序列,接着使用基于示例的数据库中示出的语素序列的频度来分析各个语素序列,由此检测每个语素中的错误并提出对错误的修改。

著录项

  • 公开/公告号CN103688254A

    专利类型发明专利

  • 公开/公告日2014-03-26

    原文格式PDF

  • 申请/专利权人 SK电信有限公司;

    申请/专利号CN201280034880.3

  • 申请日2012-10-24

  • 分类号G06F17/27;

  • 代理机构北京三友知识产权代理有限公司;

  • 代理人吕俊刚

  • 地址 韩国首尔

  • 入库时间 2023-12-17 02:34:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-11-16

    授权

    授权

  • 2014-04-23

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20121024

    实质审查的生效

  • 2014-03-26

    公开

    公开

说明书

技术领域

本公开涉及用于自动评估写作的错误检测,更具体地,涉及用于自动评估写作的 基于示例的错误检测系统、方法和设备,其以语素为单位分解写成的输入语句,从语 素产生按照预定窗口大小结合的语素序列,在基于示例的数据库(DB)中搜索每个 语素序列,并且针对语素分析所述语素被与语素序列一起排列的频度,由此基于示例 来检测各个语素的错误并且提出对检测到的错误的修改。

背景技术

最近,大学入学考试和本地企业的学业能力测试正在改变,以评估口语或写作的 实际英语水平。

也就是说,为了提高英语水平,教育部(MOE)开发了国家英语能力测试(NEAT) (基于因特网的听力、阅读、口语和写作评定)。NEAT目前作为示例被强制执行, 并且公务员考试或学习能力倾向测验(SAT)英语测试可以用NEAT代替。在这种英 语能力测试中,引入了自动化写作评估系统来评估写作能力。

自动化写作评估系统在语法上分析所写成的语句并且通过错误检测来评估写成 的语句在语法上是否合适。在此情况下,在分析写成的语句的过程中,不可避免地需 要分析语句的语素并且对语素进行词性标注处理。因为相关技术的语素分析和词性标 注装置仅依赖于词性(part-of-speech)序列信息而不另外考虑词汇表、词性、含义和 周围词的上下文共现(co-occurrence)关系,所以存在准确性显著下降的问题。

为了解决这个问题,已经提出了使用词典、语言模型等补充地应用单词的规则信 息和统计信息并且构建外围单词规则和单词上下文信息的错误检测和纠正方法。

具体地,语言模型可以利用概率基于语法统计信息来表示单词之间的连接关系, 从给定区域的很多文本语句容易地提取连接关系,并且在错误检测上具有高准确性。 然而,实际语言固有地随着时间和地点而变化而不是遵循标准化的规则,并且因而可 能经常与语法统计信息不同。例如,暗示的词语、因特网术语、新建立的现代语言等 违反语法,但是经常在真实生活中使用并且基于语法统计信息会被检测为错误。

因此,在写作评估中,需要一种即使在没有持续产生复杂规则但通过应用人们现 在频繁使用的模式也能够使得错误检测中的错误减到最小并准确地纠正检测到的错 误的方案。

发明内容

技术问题

根据一些实施方式,提供了用于自动评估写作的基于示例的错误检测系统、方法 和错误检测设备,通过因特网或其它语言传输介质收集包括各种文体风格在内的示例 语句,并且构建基于示例的数据库,其中,当输入了写成的输入语句时,输入语句被 以语素为单位分解,从语素产生按照预定窗口大小结合的语素序列,在基于示例的 DB中搜索各个语素序列,并且分析语素被与针对所述语素的语素序列一起排列的频 度,由此基于示例来检测各个语素的错误并且提出对检测到的错误的修改。

技术方案

根据一些实施方式,一种用于自动评估写作的错误检测系统包括示例构建设备和 错误检测设备。该示例构建设备被配置为通过语言传输介质收集包括多种文体风格的 示例语句,以语素为单位分解收集到的示例语句,并且在基于示例的索引DB中构建 示例语句。该错误检测设备被配置为当输入语句被输入时以语素为单位分解写成的输 入语句,基于所述语素产生按照任意窗口(n-窗口)大小结合的语素序列,在基于示 例的索引DB中搜索每个产生的语素序列,并且根据各个语素被与对应的语素序列一 起排列的频度来检测错误。

根据一些实施方式,一种错误检测设备包括输入语句分解单元、词性标注单元和 错误检测单元。该输入语句分解单元被配置为以语句和语素为单位对写成的输入语句 集合进行分解。该词性标记单元被配置为对所述语素进行词性标注。该错误检测单元 被配置为针对已被标注了词性的各个语素产生按照任意窗口(n-窗口)大小结合的语 素序列,在基于示例的索引DB中搜索每个产生的语素序列,并且根据各个语素被与 对应的语素序列一起排列的频度来检测错误部分。

根据一些实施方式,一种自动评估写作的错误检测方法包括:以语句和语素为单 位分解写成的输入语句的集合;对语素进行词性标注;针对已被标注了词性的各个语 素通过按照任意窗口(n-窗口)大小结合前向或后向定位的语素而产生语素序列;以 及在基于示例的索引DB中搜索每个产生的语素序列,以根据各个语素被与对应的语 素序列一起排列的频度来检测错误部分。

技术效果

根据此处公开的实施方式,通过基于自然表达而不是语言的标准化规则来收集并 且构建语句(示例语句),基于所收集和构建的语句(示例语句)对输入语句进行分 析以检测错误,并且如果需要则提出对错误的修改,提高了写作评估的性能。

附图说明

图1是例示根据至少一个实施方式的用于自动评估写作的错误检测系统的构造 的图。

图2是例示根据至少一个实施方式的错误检测系统的示例性构建设备的构造图。

图3是例示根据至少一个实施方式的错误检测系统的错误检测设备的构造图。

图4是例示图3的错误检测单元的构造图。

图5是例示要在图3的每个部件中执行的功能的说明图。

图6是例示由图3的错误检测单元获得的结果值的图。

图7是例示根据至少一个实施方式的构建自动化写作评估的基于示例的DB的方 法的流程图。

图8是例示根据至少一个实施方式的用于自动化写作评估的错误检测的方法的 流程图。

图9是例示图8的错误检测处理的详细示意图。

具体实施方式

以下描述详细参照附图。然而,本领域技术人员将理解,以下描述不限于以下具 体公开的实施方式并且按照各种不同形式实现,并且以下描述的范围不限于以下实施 方式。将省略已知的技术、要素、结构和处理以避免混淆本公开的主题。

此处所用的措辞“示例(example)”是指“使用中的示例”的词典含义,并且是 指其中特定单词在语言学领域使用的示例语句。具体地,此处使用的“示例”包括在 真实生活中使用的作为不遵循标准化规则的语句的全部语句以及包括各种文体风格 的语句,而不是其中基于标准化的语法结构构建语句的语料库(corpus)。

图1是例示根据至少一个实施方式的用于自动评估写作的错误检测系统的构造 的图。

错误检测系统可以包括示例构建设备200和错误检测设备100。

示例构建设备200通过从语言传输介质公开的语句集合(sentence set)收集示例 语句,以此来构建用于错误检测的大容量索引DB180。这个构建的索引DB180存储 基于各个示例的统计信息。

错误检测设备100利用示例构建设备200构建的索引DB180来检测输入到分析 单元的输入语句的错误,并且显示检测到的错误。另外,错误检测设备100通过提出 对检测到的错误的修改来执行错误纠正功能。

错误检测设备100的特征在于根据基于示例的统计信息来检测输入语句中的错 误。另外,错误检测设备100的特征在于使用N-语法(N-Gram)搜索方案,当检测 到错误时,按照任意窗口(window)为单位结合的部分为单位比较和搜索统计信息, 而不是以搜索完整的输入语句。

总体上,N-语法搜索方案包括以两个窗口为单位对部分(section)进行分类的二 元语法(bigram)、以三个窗口对部分进行分类的三元语法(trigram)等。这些方案 根据窗口大小考虑一个或更多个先前上下文的出现频度。

具体地,示例构建设备200按照图2例示那样构成。

参照图2,示例构建设备20包括示例收集单元210、示例分解单元220、N-语法 产生单元230以及构建单元240。

示例收集单元210从通过诸如因特网、新闻和报纸文章这样的语言传输介质公开 的大量语句集合收集示例语句。此时,假定示例语句包括真实生活中使用的全部语句、 包含各种文体风格的语句等。因为新闻和报纸文章中包含的错误的数量少于其它介质 中的错误,所以利用了新闻和报纸文章。

在预先输入了期望收集的关键词之后,在监测通过对应的语言传输介质公开的语 句集合时,如果存在应用了输入的关键词的示例语句,则示例收集单元210可以自动 地收集示例语句。

示例分解单元220以语句和语素为单位分解由示例收集单元210收集到的示例语 句。语句分解表示使用诸如句号、问号和感叹号这样的标点符号以语句为单位分解多 个示例语句的处理,并且语素分解表示以语素为单位分解被以语句为单位分解了的每 个示例语句的处理。

N-语法产生单元230针对被示例分解单元220分解的每个语素产生按照任意的n 窗口大小结合的语素序列。此时,通过基于每个语素结合前向或后向定位的语素而产 生语素序列。例如,从示例语句“I want to go to school”利用3窗口大小产生的语素 序列可以被产生为针对语素“I”的语素序列“I want to”、针对语素“want”的语素 序列“want to go”和“(空)I want”、以及针对语素“to”的语素序列“I want to”和 “to go to”。当在索引DB180中构建示例语句时,这些序列被用于以语句和语素为 单位存储示例语句。

构建单元240将N-语法产生单元230产生的语素序列和对应的示例语句进行匹 配并在索引DB(在图1中由180表示)中创建。

因此,如上所述地构造的示例构建装置200通过图7例示的处理进行构建。

首先,示例收集单元210通过诸如因特网、新闻和报纸文章这样的语言传输介质 从大量的语句集合收集期望的样本语句(S100)。此时,在预先输入了期望收集的关 键词之后,在监测通过对应的语言传输介质公开的语句集合时,如果存在应用了所输 入的关键词的示例语句,则自动地收集示例语句,使得期望的示例语句被收集。

之后,示例分解单元220将由示例收集单元210收集到的示例语句的集合分解为 语句和语素(S110)

之后,N-语法产生单元230针对每个语素产生按照任意窗口大小结合的语素序列 (S120)。

之后,构建单元240将在先前操作中生成的语素序列和对应的示例语句进行匹配 并且在索引DB中创建(S130)。

图3是例示根据至少一个实施方式的错误检测系统的错误检测设备的构造图。

错误检测设备100包括输入语句分解单元110、词性标注单元120、错误检测单 元140、错误纠正单元150、词性词典160和索引DB180。

输入语句分解单元110接收写成的语句集合并且以语句和语素为单位分解输入 的语句集合。

在此,如在示例构建装置200中描述的,语句分解表示使用诸如句号、问号和感 叹号这样的标点符号以语句为单位分解多个示例语句的处理。语素分解表示以语素为 单位分解被以语句为单位分解的各个示例语句的处理。在英语中,单词自身是语素, 因为由于语言的性质,在单词后面不安排助词。

词性标注单元120基于存储在词性词典160中的词性信息向输入语句分解单元 110分解的每个语素标记对应的词性。词性是名称、动词、介词、形容词、副词、冠 词、叹词等。

例如,参照图5,当输入了输入语句(a)“I would like to live in the city.”时,输 入语句分解单元110将输入语句分解为要素“I,”“would,”“like,”“to,”“live,”“in,” “the,”“city,”和句号(.),如(b)所示。词性标注单元120向分解的语素顺序地标 注名词(I)、动词(would)、动词(like)、介词(to)、动词(live)、介词(in)、冠 词(the)、名词(city)等,如在(c)中那样。

再次参照图3,错误检测单元140针对已由词性标注单元120标注了词性的各个 语素产生按照任意窗口大小结合的语素序列,在索引DB180中搜索每个产生的语素 序列,并且根据各个语素被与相应的语素序列一起排列的频度来检测错误。错误检测 单元140以给定部分为单位进行搜索而不针对完整的输入语句进行搜索,并且与搜索 整个输入语句的方法相比可以进行快速和准确的错误检测。

错误纠正单元150提取被与通过错误检测单元140搜索到的语素序列一起排列的 语素,并且具体地,按照频度的降序提取语素,并且提出对检测到的错误的修改。

尽管错误检测单元150如上所述在提出修改的方法中使用作为错误检测方案而 应用的N-语法搜索方案可以仅提出有错部分的语素,但还可以使用通过搜索与整个 语句相似的语句简单地提议k个更高阶类似语句的方法。

图4是例示错误检测单元140的详细构造图。

具体地,错误检测单元140包括N-语法产生单元141、搜索单元143、兼容性计 算单元145和错误确定单元147。

类似于在示例构建装置(图2中的200)中的N-语法产生单元(图2中的230), N-语法产生单元141通过基于已被词性标注单元(图2中的120)标注了词性的各个 语素按照任意窗口大小结合前向或后向定位的语素而产生语素序列。

具体地,根据至少一个实施方式的N-语法产生单元141可以基于每个语素,通 过按照任意窗口大小结合前向定位的语素而产生前向语素序列,并且通过按照任意窗 口大小结合后向定位的语素而产生后向语素序列。

例如,考虑能够从输入语句针对语素“live”生成的前向语素序列,图5的(d) 的(1)例示了基于语素“live”的语素序列的示例(按照至少2到5个窗口单位的语 素序列的示例。也就是说,按照2窗口单位结合的语素序列是“to live”,并且按照3 窗口单位结合的语素序列是“like to live”。增加了一个窗口的语素序列是“would like  to live”和“I would like to live.”。因此,可以提取在包括语素“live”的语素序列中 语素“live”在语素“to”之后的出现频度,或者语素“live”在“like to,”、“would like  to,”和“I would like to”之后的出现频度。

另一方面,可以如在(d)的(2)中例示的那样基于语素“live”产生针对后向 定位的语素“in,”、“the,”和“city”按照任意窗口大小结合的语素序列。按照2窗口 单位结合的后向语素序列可以产生为“live in,”,按照3窗口单位结合的后向语素序 列可以产生为“live in the,”,并且按照4窗口单位结合的后向语素序列可以产生为“live  in the city.”。

此时,N-语法产生单元141可以预设窗口大小,产生与所设定的窗口大小相对应 的语素序列,并且在错误检测中利用产生的语素序列。对于详细的检测,优选的是通 过如在二元语法或三元语法中那样改变窗口大小来产生各个语素序列并分析各个语 素序列。在此情况下,因为在索引DB中存储的语素序列的容量显著增加并且复杂, 所以还能够仅考虑一个窗口大小来产生语素序列并且分析语素序列。

搜索单元143针对输入语句中包括的各个语素在由多个示例语句构建的索引DB (图3中的180)中搜索是否存在由N-语法产生单元141产生的语素序列。

兼容性计算单元145提取各个语素被与从搜索单元143搜索到的语素序列一起排 列的频度,并且基于所提取的频度来计算兼容性。计算出的兼容性由指示针对各个语 素的语素序列的频度的分数表示。

此时,当在前向和后向都发现由N-语法产生单元141产生的语素序列时,兼容 性计算单元145可以计算前向语素序列和后向语素序列中的每一个相对于一个语素 的兼容性,并且通过对兼容性集成来计算集成兼容性。

另外,当针对前向语素序列和后向语素序列计算兼容性时,兼容性计算单元145 可以根据各个语素的语素序列的出现频度应用不同的权重。例如,当后向语素序列中 存在按照2窗口单位结合的语素序列“live in”、按照3窗口单位结合的语素序列“live  in the”和按照4窗口单位结合的语素序列“live in the city”时,通过向具有较大数的 窗口的语素分配较大的权重并且参照更多信息来确定兼容性。

错误确定单元147使用由兼容性计算单元145计算的各个语素的兼容性来产生图 表,并且通过确定在所产生的图表中是否存在具有针对每个语素的低于阈值或减少了 给定值或更多的兼容性分数的区间来检测错误部分。

此时,错误确定单元147可以分别产生针对前向的兼容性、后向的兼容性、以及 集成兼容性中的每一种的图表。

在图6所例示的示例中,(a)例示输入语句,并且(b)例示针对该输入语句计 算的各个语素的兼容性。

如在(b)中例示的,score_f(Wm)是前向兼容性,其表示在前向语素序列中各个 语素被与所述前向语素序列一起排列的频度;score_b(Wm)是后向兼容性,其表示在 后向语素序列中各个语素被与所述后向语素序列一起排列的频度;并且score(Wm)是 通过对前向兼容性和后向兼容性取平均值而获得的集成兼容性。

(c)例示了使用(b)中例示的集成兼容性产生的图表。从此图表中看到,由于 在“A”周围漏词等,小于或等于阈值,所以存在错误,即,在语素“live”周围。

将描述使用以上的错误检测设备来检测错误的方法

图8是例示根据至少一个实施方式的自动化写作评估的错误检测的方法的流程 图。图9是例示图8的错误检测处理的详细示意图。

在此,假定由示例构建设备预先构建了利用错误检测的基于示例的DB,并且将 主要描述错误检测设备执行的操作。

首先,参照图8,当错误检测设备接收到写成的输入语句的集合时,输入语句集 合被以语句和语素为单位分解(S200)。

之后,错误检测设备基于词性词典对每个语素标注相应的词性(S210)。

之后,错误检测设备针对已被标注了词性的各个语素产生按照任意窗口大小结合 的语素序列,在基于示例的DB中搜索每个产生的语素序列,并且通过比较操作检测 错误(S220)。将参照图9详细描述具体错误检测。

之后,当提出了对检测到的错误的修改时,可以执行按频度的降序提取与从基于 示例的索引DB搜索到的语素序列中的语素序列一起排列的语素的处理,或者执行通 过提取和提议多个类似语句来使能进行纠正的处理(S230)。

接着,参照图9,在错误检测操作S220中,针对输入语句的各个语素具体产生 按照任意窗口大小结合的语素序列(S221)。如上所述,语素序列可以基于各个语素 被分类为和产生为前向结合的前向语素序列和后向结合的后向语素序列。

之后,针对各个语素在索引DB中搜索是否存在产生的语素序列(S222)。

之后,提取各个语素被与搜索到的语素序列一起排列的频度,并且基于所提取的 频度来计算兼容性(S223和S224)。兼容性被转换为作为被与对应的语素序列一起排 列的公共语素是否适当的程度的分数,与兼容性分数有关的计算方法与以上描述的方 法相同。

之后,产生针对所计算的兼容性的图表,并且可以使用产生的图表来检测错误 (S225)。例如,通过确定图表中针对各个语素的兼容性分数是否低于阈值或减小了 给定值或更多来检测有错部分。

尽管已经具体示出和描述了各个实施方式,但本领域的技术人员可以理解的是, 在不脱离本公开的主题和范围的情况下可以做出形式和细节上的各种修改。本公开和 附图中使用的特定术语是用于示例性的目的,而不被认为是本公开的限制。

工业实用性

如上文完整讨论的,相关技术的自动写作评估系统难以通过使用基于单词规则和 单词上下文信息的词典、语言模型等检测错误来评估不遵循标准化规则的写作。然而, 根据此处公开的实施方式,通过因特网或者其它语言传输介质收集包括各种文体风格 的示例语句,并且构建基于示例的数据库,其中,当书写的输入语句被输入时,输入 语句被以语素为单位分解,从所述语素产生按照预定窗口大小结合的语素序列,接着 使用基于示例的数据库中示出的语素序列的频度来分析每个语素序列,因而检测每个 语素的错误并且改进自动评估的性能。按此方式,所公开的实施方式不仅可以应用于 评估算法,而且还可以应用于大学入学考试和在本国企业进行的英语能力测试和英语 写作测试等,因而使得能够进行自动评估。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号