首页> 中国专利> 创建语言模型和假名-汉字转换的方法和设备

创建语言模型和假名-汉字转换的方法和设备

摘要

一种能够防止由向一元语法的常规回退所导致的质量退化的语言模型的创建方法。具有相同显示和读音的词类可从存储设备(206)获得。通过组合所获得的词类来创建群集(204)。所创建的群集(204)存储在存储设备(206)中。另外,当输入拆分群集的指令(212)时,根据所输入的指令(212)来拆分(210)存储在存储设备(206)中的群集。组合(218)存储在存储设备中的群集的两个,计算(222)所组合的群集在文本语料库中出现的概率。将所组合的群集与指示所计算的概率的二元语法相关联,并存储到存储设备中。

著录项

  • 公开/公告号CN101208689A

    专利类型发明专利

  • 公开/公告日2008-06-25

    原文格式PDF

  • 申请/专利权人 微软公司;

    申请/专利号CN200680022858.1

  • 发明设计人 M·瑞;Y·佐藤;M·关;

    申请日2006-06-23

  • 分类号G06F17/27(20060101);G06F17/20(20060101);G06F17/21(20060101);G10L15/00(20060101);

  • 代理机构31100 上海专利商标事务所有限公司;

  • 代理人张政权

  • 地址 美国华盛顿州

  • 入库时间 2023-12-17 20:19:29

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-07-07

    未缴年费专利权终止 IPC(主分类):G06F17/27 专利号:ZL2006800228581 申请日:20060623 授权公告日:20100526

    专利权的终止

  • 2015-05-20

    专利权的转移 IPC(主分类):G06F17/27 变更前: 变更后: 登记生效日:20150430 申请日:20060623

    专利申请权、专利权的转移

  • 2010-05-26

    授权

    授权

  • 2008-08-20

    实质审查的生效

    实质审查的生效

  • 2008-06-25

    公开

    公开

说明书

发明领域

本发明涉及一种创建语言模型的方法、假名-汉字转换的方法、及其设备,尤 其涉及一种创建由文本表面信息定义的群集(cluster)的语言模型创建方法、假名 -汉字转换的方法、及其设备、和计算机可读存储介质。

相关领域描述

传统的假名-汉字转换系统被认为是一种使用词类(parts-of-speech)表的系统。 词类表指示词类B接在词类A后出现的概率。换言之,词类表主要指示词类和词 的分组的二元语法。在下文中,这样的群集词类和词的分组称为群集二元语法。注 意到,词类是一种就通过词法(词的形式)、语法功能(主语或副词)和语义信息 (专有名词或名词)的结合的词分组而言的词行为的抽象。

另一方面,在语音识别领域发展起来的三元语法语言模型尝试应用于假名-汉 字转换系统,并且这种系统已部分实现。该三元语法语言模型使用了一个词在前面 某两个词之后出现的概率(三元语法)。例如,词w3在两个词w1和w2之后出 现的概率表示为p(w3|w1w2)。

这种三元语法是在词的层面上而不是在词组的层面上获取语言现象。因此, 它在获取现象上更加有效率。注意到,三元语法语言模型仅通过使用表面信息而非 任何深层语义或语法抽象来获取人类语言中词的行为。

语言模型技术因其分析层面而比传统技术有更高的准确率。

然而,它有如下所述的缺点。传统语言模型引擎在三元语法或二元语法不具 有足够可靠的概率时回退到一元语法。即,如果p(w3|w1w2)是不可靠的,则采 用p(w3|w2)。然后,如果p(w3|w2)也是不可靠的,则采用p(w3)。例如, 如果由于三元语法和二元语法为零而回退到一元语法,则w2的出现概率p可写作:

P(w3)=p(w3|w1w2)

=p(w3|w2)如果p(w3|w1w2)太小而不可靠

=p(w3)如果p(w3|w2)太小而不可靠

然而,向一元语法的常规回退可能引起严重的错误,因为一元语法仅表示一 个词的出现而并不考虑任何上下文信息。

另一方面,传统的假名-汉字转换系统使用如上所述的词类群集二元语法。它 始终使用上下文信息(即在前词的词类或者在后词的词类)。

因此,在某些最坏情况下,常规语言模型引擎从使用上下文信息的传统假名- 汉字转换引擎降级。这是制约用户将传统系统升级到三元语法假名-汉字转换系统 的原因之一。

另一方面,传统的使用词类对词所进行分组存在另一个缺点。确切词类可能 需要人类语义知识。例如,词“Akita”可能是一个地名或者人名,但是只有人才 能确定。

同样,在传统假名-汉字转换系统中使用词类进行的常规词分组并不适于统计 计算。

发明概述

本发明提供了能够防止由向一元语法的回退引起的质量退化的一种创建语言 模型的方法、假名-汉字转换方法、及其设备、和计算机可读介质。

本发明也提供了使用适于统计计算的词类对词进行分组的一种创建语言模式 的方法、假名-汉字转换方法、及其设备、和计算机可读介质。

根据本发明的一个方面,提供了使用具有与存储设备中的显示、读音和词类 相关联的词的计算机来创建语言模型的方法,存储设备由计算机处理单元执行的该 方法包括以下步骤:从存储设备中获取具有相同显示和读音的词类;通过组合所获 取的词类来创建群集;以及将所创建的群集存储到存储设备中。

该方法可以还包括步骤:输入拆分群集的指令;根据输入指令拆分存储在存 储设备中的群集。

该方法可以还包括步骤:输入字符串;通过向包含在输入字符串中的每个词 赋予词类来获取文本语料库(text corpus);组合存储在存储设备中的两个群集;计 算在文本语料库中组合群集的出现概率;以及将组合群集与指示所计算的概率的群 集二元语法相关联并且将具有群集二元语法的组合群集存储到存储设备中。

根据本发明的另一方面,提供了由计算机实现的假名-汉字转换方法,该计算 机具有指示N个词的组合的出现概率的N元语法和指示两个词类群集的组合的出 现概率的群集二元语法,其中群集中的至少一个包括至少两个词类,该方法包括以 下步骤:输入字符串的读音;拆分所输入的读音;将所拆分的读音转换成假名或汉 字以生成所转换字符串的候选;获取指示包含在所转换字符串的候选中的N个词 的组合的出现概率的N元语法;获取指示包含在所转换字符串的候选中的两个群 集的组合的出现概率的群集二元语法;以及,根据所获得的N元语法和群集二元 语法来确定所转换字符串的候选的次序。

根据本发明的另一方面,提供了创建语言模型的设备,包括:存储装置,用 于存储与显示、读音和词类相关联的词上的信息;词获取装置,用于从该存储装置 中获得具有相同显示和读音的词类;群集创建装置,用于通过组合所获取的词类来 创建群集群集;以及群集存储控制装置,用于将所创建的群集存储到存储装置中群 集。

根据本发明的另一方面,提供了假名-汉字转换设备,包括:存储装置,用于 存储指示N个词的组合的出现概率的N元语法以及指示两个词类群集的组合的出 现概率的群集两元语法,其中群集中的至少一个包括至少两个词类;读音输入装置, 用于输入字符串读音;读音拆分装置,用于拆分输入读音;候选生成装置,用于将 所拆分的读音转换为假名或汉字以生成所转换字符串的候选;N元语法获取装置, 用于获取指示包含在所转换字符串的候选中的N个词的组合的出现概率的N元语 法;群集二元语法获取装置,用于获取指示包含在所转换字符串的候选中的两个群 集的组合的出现概率的群集二元语法群集;以及确定装置,用于根据所获取的N 元语法和群集二元语法来确定所转换字符串的候选的次序。

根据本发明的另一方面,提供了具有存储其上的计算机可执行指令的计算机 可读存储介质,其中这些计算机可执行指令使计算机执行上述方法。

本发明提供了一种新的群集方案,该方案基于词类但是结合了机器难于捕获 的语义/语法差别。该些群集仅由能被机器区别和处理的文本表面属性来构建。本 发明通过该新的群集二元语法来代替向一元语法的回退。因为在最坏的情况下,最 终手段是群集二元语法,所以它考虑了词的上下文。

通过将基于词类的最优群集用作三元语法语言模型的最终手段,本发明可提 供更高的质量。

此外,因为本发明产生能由计算机统计处理的词类群集,所以本发明的语言 建模技术有比传统技术更高的准确率。

结合附图参考以下实施例的描述,本发明的上述和其它的目的、效果、特征 和优点将变得显而易见。

附图说明

图1示出实现本发明的示例性环境的框图;

图2示出根据本发明一实施例的创建语言模型的设备的功能配置的示意框图;

图3在概念上示出词典中的信息;

图4示出根据本发明创建语言模型的过程的流程图;

图5示出向词典中给出的群集的示例;

图6示出由计算机将群集拆分至计算机可处理程度的过程的示例的流程图;

图7示出根据本发明一实施例的从由创建语言模型的设备所创建的群集计算 群集二元语法的过程的流程图;

图8示出根据本发明一实施例的使用群集二元语法的假名-汉字转换设备的功 能配置的框图;

图9示出根据本发明一实施例的由假名-汉字转换设备执行的假名-汉字转换 方法的过程。

较佳实施例的描述

现在,在下文中将参照附图对本发明的较佳实施例进行详细描述。

根据本发明一实施例,尽管本文所描述的方法能在单个独立计算机系统中实 现,但通常,它也能在由相互连接以形成分布式计算机网络的多个计算机系统上实 现。

图1示出实施本发明的环境400。环境400具有被视为主计算机系统的计算机 系统410。如本文所使用的,术语“计算机系统”被宽泛地解释和定义为“执行程 序以显示和操作文本、图形、符号、音频、视频和/或数字的一个或多个设备或机 器”。

本发明用于许多其它通用或专用计算机系统环境或配置。适用于本发明的公 知计算系统、环境和/或配置包括,但并不局限于:个人计算机、服务器计算机、 手持或膝上型设备、平板设备、多处理器系统、基于微处理器的系统、机顶盒、可 编程消费电子产品、网络PC、微型计算机、大型计算机、包括上述系统或设备中 任一个的分布式计算环境等。

本发明可以在诸如程序模块的可由计算机执行的计算机可执行指令的一般上 下文中描述。通常,程序模块包括执行特定任务或者实施特定的抽象数据类型的例 程、程序、对象、组件、数据结构等。本发明也可以在分布式计算环境中实现,其 中任务由通过通信网络链接的远程处理设备来执行。在分布式计算环境中,程序模 块可以位于包括存储器存储设备的本地和远程计算机存储介质中。

参照图1,实施本发明的示例性系统包括计算机410形式的通用计算设备。计 算机410的组件可以包括,但不限于处理单元420、系统存储器430和将包括系统 存储器的各种系统组件耦合到处理单元420系统总线421。系统总线421可以是包 括存储器总线或存储器控制器、外围总线和使用各种总线架构中任一种的局域总线 的若干类型的总线架构中的任一种。作为示例而非限制,这种架构包括工业标准架 构(ISA)总线、微通道架构(MCA)总线、增强的工业标准架构(EISA)总线、 视频电子标准协会(VESA)局域总线、加速图形端口(AGP)总线以及也被称作 Mezzanine总线的外围组件互连(PCI)总线。

计算机410通常包括各种计算机可读介质。计算机可读介质可以是可由计算 机410访问的任何可用介质,并且包括易失性和非易失性介质以及可移动和不可移 动介质。作为示例而非限制,计算机可读介质可以包括计算机存储介质和通信介质。 计算机存储介质包括可由任何方法或技术实现用于存储诸如计算机可读指令、数据 结构、程序模块或其它数据的易失性和非易失性、可移动和不可移动介质。计算机 存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、 数字多功能光盘(DVD)或其它光盘存储、盒式磁带、磁带、磁盘存储或其它磁 性存储设备、或者可用于存储所需信息并可由计算机410访问的任何其它介质。通 信介质通常体现在诸如载波或其它传输机制的调制数据信号中的计算机可读指令、 数据结构、程序模块或其它数据,并且包括任何信息传输介质。术语调制数据信号 表示以在该信号中编码信息的方式设定或更改其特征中的一个或多个的信号。作为 示例而非限制,通信介质包括诸如有线网络或者直接接线连接的有线介质以及诸如 声学、RF、红外和其它无线介质的无线介质。上述中的任一个的组合也应该包括 在计算机可读介质的范围内。

系统存储器430包括以诸如只读存储器(ROM)431和随机存取存储器(RAM) 432的易失性和/或非易失性存储器形式的计算机存储介质。包括在诸如启动过程中 帮助在计算机410内的元件之间传递信息的基本例程的基本输入/输出系统433 (BIOS)通常存储在ROM 431。RAM 432通常包括可由处理单元420即时访问和 /或正在其上操作的数据和/或程序模块。作为示例而非限制,图1示出操作系统434、 文件系统435、应用程序436、其它程序模块437和程序数据438。

计算机410也可以包括其它的可移动/不可移动、易失性/非易失性计算机存储 介质。仅作为示例,图1示出了从不可移动、非易失性的磁性介质读取或向其写入 的硬盘驱动器441,从可移动、非易失性磁盘452读取或向其写入的磁盘驱动器451, 以及从诸如CD ROM或其它光学介质的可移动、非易失性光盘456读取或向其写 入的光盘驱动器455。其它能用于示例性操作环境的可移动/不可移动的、易失性/ 非易失性计算机存储介质包括,但不限于磁带盒、闪存卡、数字多功能光盘、数字 录像带、固态RAM、固态ROM等。硬盘驱动器411通常通过诸如接口440的不 可移动存储器接口连接到系统总线421,并且磁盘驱动器451和光盘驱动器455通 常通过例如接口450的可移动存储器接口连接到系统总线421。

如上所述以及图1所示的驱动器及其关联计算机存储介质为计算机410提供 计算机可读指令、数据结构、程序模块和其它数据的存储。例如在图1中,硬盘驱 动器441被示为存储操作系统444、应用程序445、其它程序模块146和程序数据 447。注意到,这些组件与操作系统434、应用程序436、其它程序模块437和程序 数据438可相同或不同。在此向操作系统444、应用程序445、其它程序模块146 和程序数据447赋予不同的附图标记以至少表示它们是不同的副本。用户通过诸如 平板(电子数字转换器)464、麦克风463、键盘462和通常是指鼠标、轨迹球或 触摸板的定点设备461的输入设备向计算机410输入命令和信息,。其它输入设备 (未示出)可以包括操纵杆、游戏垫、圆盘式卫星天线、扫描仪等。这些和其它输 入设备通常通过耦合到系统总线的用户输入接口460连接到处理单元420,但也可 以通过诸如并行端口、游戏端口或通用串行总线(USB)的其它接口和总线结构来 连接。显示器491或其它类型的显示设备也经由诸如视频接口490的接口连接到系 统总线421。监视器491也可以和可将诸如手写的数字化输入经由诸如触摸屏界面 的界面输入到计算机系统410中的触摸屏面板等一体化。注意,监视器和/或触摸 屏面板可物理耦合到容纳诸如平板型计算机的计算机设备410的外壳,其中触摸屏 面板主要充当平板464。此外,诸如计算设备410的计算机也可以包括诸如扬声器 495和打印机496的其它外围输出设备,该些外围输出设备可通过输出外围接口494 等来连接。

计算机410可以通过使用到诸如远程计算机480的一个或多个远程计算机的 逻辑连接而在网络化环境中操作。远程计算机480可以是个人计算机、服务器、路 由器、网络PC、对等设备或其它公共网络节点,并且通常包括以上相对于计算机 410描述的元件中多个或全部,但是在图1中仅示出了存储设备481。图1描述的 逻辑连接包括局域网(LAN)471和广域网(WAN)473,还包括其它的网络。这 样的网络环境在办公室、企业范围计算机网络、内联网和因特网中十分常见。

当在LAN网络环境中使用时,计算机410通过网络接口或适配器470连接到 LAN 471。当在WAN网络环境中使用时,计算机410通常包括调制解调器472或 用于在诸如因特网的WAN 473上建立通信的其它装置。或内置或外置的调制解调 器472可以经由用户输入接口460或其它合适机制连接到系统总线421。在网络化 环境中,相对计算机410描述的程序模块或其部分可以存储在远程存储器存储设备 中。作为示例而非限制,图1示出了驻留于存储器设备481的远程应用程序485。 应该理解,所示网络连接是示例性的,也可使用在计算机之间建立通信链路的其它 装置。

相关于为了实现用于例示实施例的过程而执行的逻辑操作,在该计算机环境 中对本发明的实施例进行描述。

图2示出根据本发明一实施例的语言模型创建设备的功能配置的示意框图。

语言模型创建设备200至少包括词获取单元202、群集创建单元204、存储单 元206、群集存储控制单元208、群集拆分单元210、指令输入单元212、字符串输 入单元214、文本语料库获取单元216、组合单元218、群集二元语法存储控制单 元220和计算单元222。

存储单元206配备有硬盘驱动器441、非易失性磁盘452、非易失性光盘456 等,并且至少存储词典数据。词典包括关联显示(拼字法)、读音(语音符号)和 词类的词信息。语言模型创建设备200的其它组件的功能由处理单元420来实现, 该处理单元420执行存储在系统存储器430中的程序指令或者控制参照图1描述的 硬件组件。

词获取单元202获取具有相同显示和读音的词的词类。

群集创建单元204通过组合由词获取单元202获取的词的词类来创建群集。

群集存储控制单元208将群集创建单元204所创建的群集存储到存储单元206 中。

指令输入单元212配置有鼠标461、平板464、键盘462、用户输入接口460 等,并且输入根据词类拆分群集的指令。

群集拆分单元210根据由指令输入单元212输入的指令将存储在存储单元206 中的群集拆分。

字符串输入单元214配置有不可移动、非易失性的存储器接口440、可移动、 非易失性的存储器接口450等,并且输入存储在硬盘驱动器441、非易失性磁盘452、 非易失性光盘456等中的字符串数据(例如包含在新闻报纸文章上的字符串)。

文本语料库获取单元216通过向由字符串输入单元214输入的字符串中包含 的每个词给出读音和词类来获得。

组合单元218组合存储在存储单元206中的两个群集。

计算单元222计算由组合单元218组合的群集的出现概率。

群集二元语法存储控制单元220将由组合单元218组合的群集与指示由计算 单元222计算的概率的群集二元语法相关联。

图3在概念上示出存储单元206的词典中的信息。词典包括显示(秋田、蔵 王)、读音(akita,zaou)和词类(地名和人名)。更具体地,词类与显示和读音 相关联。如图所示,显示(秋田)和读音(akita)的组合与两个词类相关联。

图4示出由语言模型创建设备200来执行的根据本发明实施例的创建语言模 型过程的流程图。

在步骤S302中,词获取单元202从存储单元206中获取具有相同显示和读音 的词的词类。在图3示出的示例中,获取到具有显示(秋田)和读音(akita)的词 的词类信息。在步骤S304中,群集创建单元204通过使用OR算符来组合所获取 的词的词类以创建群集。在图5示出的示例中,创建了“人名或地名”的扩充词类 的群集。向所创建的群集赋予新ID。

如上所述创建的群集与存储在词典中的每个词的信息相关联。例如,群集“人 名或地名”被赋给具有显示“秋田”和读音“akita”的词。

在步骤S306中,群集存储控制单元208存储所创建的群集。

重复以上过程直到对词典中所有词的信息的考察全部完成。

图6示出了对由上述过程创建的群集进行拆分以便计算机能够用它在语言模 型创建设备200中执行统计工作的例程的一个示例的流程图。该例程可以对由图4 所示过程所创建的所有群集来执行。

假定感兴趣的群集是“词类A或词类B”。只要用训练语料库上的表面现象 能在机械上标识出A和B的出现,则该群集就能被拆分成两个单独的群集A和B。

例如,词“めめ(aa)”的词类可被认为是感叹词或在具有S行中不规则动 词变化的动词之前的副词。当这个词出现在语料库中且具有S行中不规则动词变 化的词在词“めめ”之后时,诸如“めめすればよかつたのに(“aa sureba yokattanoni”)”,这个词的词类被判定为S行中不规则动词变化。在这种情况下, “感叹词或在具有S行的不规则动词变化的动词之前的副词”群集能被拆分成“感 叹词”和“在具有S行的不规则动词变化的动词之前的副词”。

另一方面,不可能确定具有显示“秋田”和读音“めきた”的词的词类是人 名还是地名。相应地,可以确定这个词的词类属于“人名或地名”的扩充词类。

事实上,是通过计算效果来执行拆分的。语言模型通过假定拆分以采用字符 错误率来评估效果而创建。如果错误减少,则这种拆分就被采用。例如,假定通过 合并词“めめ”的可能词类来创建群集,则它的错误率被评估为3%。同样的,假 定该群集拆分成两个群集,则它的错误率被评估为2%。在这种情况下,将采用更 小的后者。

在步骤S602中,指令输入单元212接收根据词类拆分群集的指令。

群集是用一个或多个OR算符组合的词类信息。这里,该指令指定如何将许 多词类划分成组。

在步骤S604中,语言模型创建设备200在拆分之前将群集维持在缓冲区(未 示出)中,并且根据所输入的指令来拆分存储在存储单元206中的群集。

向每一个被拆分的群集赋予新ID。这里,如果在分组之后创建了由一个词类 组成的群集,则向给群集给出典型的词类ID。

在步骤S606中,群集拆分单元210对所拆分的群集进行评估。更具体地,它 将所拆分的群集自动转换为假名或汉字字符串,将转换后的字符串与预存的正确字 符串进行比较,然后计算作为结果的字符错误率。以多种拆分方式对所拆分的群集 执行这种操作,然后确定具有最小错误率的拆分方式。

接着,在步骤S608中,判定所拆分的群集是否比拆分之前更可靠。如果是, 例程转至步骤S602,然后执行群集的进一步拆分。另一方面,如果所拆分的群集 被判定为不可靠,则放弃所拆分的群集并将存储在缓冲区的群集判定为最小的组。

参照图7,描述了计算群集二元语法的过程,该群集二元语法来自由语言模型 创建设备200所创建的群集。

在步骤S702中,字符串输入单元214接收字符串输入。

在步骤S704中,通过向包含在输入字符串中的每个词给出读音和词类来创建 文本语料库。注意,所给出的词类不是扩充词类。

顺便提及,一般在文本语料库的获取中,自动向词添加读音和词类,然后, 文本语料库获取单元216在用户操作下校正错误添加的信息。

在步骤S706中,计算单元222组合存储在存储单元206中群集的两个。然后 计算在文本语料库中的所得组合群集的出现概率(群集二元语法)。

在步骤S708中,将组合群集与指示所计算的概率的群集二元语法相关联地存 储在存储单元206中。在此,群集二元语法的信息可以是预定的符号而非数值。

上述例程能提供最优的群集。

图8是示出通过使用包括了如上所述创建的群集二元语法的语言模型来执行 假名-汉字转换的假名-汉字转换设备的功能配置示例的框图。

假名-汉字转换设备800包括读音输入单元802、读音拆分单元804、候选生成 单元806、存储单元808、三元语法获取单元810、二元语法获取单元812、群集二 元语法获取单元814、确定单元816和显示单元818。

存储单元808存储由上述例程创建的群集二元语法、指示三个词的组合的出 现概率的三元语法和指示两个词的组合的出现概率的二元语法。

读音输入单元802由鼠标461、平板464、键盘462、用户输入接口等构成, 并且输入字符串的读音。

读音拆分单元804将由读音输入单元802输入的字符串的读音进行拆分。

候选生成单元806将由读音拆分单元804拆分的读音转换成假名或汉字,以 生成所转换的字符串的候选。

三元语法获取单元810从存储在存储单元808中的三元语法获取满足预定条 件的数值。

二元语法获取单元812从存储在存储单元808中的二元语法获取满足预定条 件的数值。

群集二元语法获取单元814从存储在存储单元808中的群集二元语法获取满 足预定条件的数值。

确定单元816根据从存储单元808获取的三元语法、二元语法和群集二元语 法来确定假名-汉字转换字符串候选的优先级。

参照图9,接下来描述使用由假名-汉字转换设备800执行的N元语法(三 元和二元)来进行假名-汉字转换的方法的过程。

在本实施例中,当三元语法和二元语法都为零时回退到群集二元语法。在本 示例中,p可表示如下:

p(w3)=p(w3|w1w2)

=Count(Ci-1Ci)Count(wi)Count(Ci-1)Count(Ci)

这里,w1、w2和w3分别表示词且Ci表示群集。此外,P(Ci|Ci-1)表示在Ci-1在Ci之前的情况下群集Ci的出现概率。P(wi|Ci)是Ci的词是wi的概率。

最后一个公式的左边项示出了P(Ci|Ci-1)是Ci在Ci-1之后的情形数除以Ci-1出 现次数。类似地,从最后一个公式的右边项来看,P(wi|Ci)示出了词wi的出现次数 除以Ci的出现(即属于群集Ci的所有词的出现)次数。

在步骤S902中,读音输入单元802以例如假名串的形式输入字符串的读音。

在步骤S904中,读音拆分单元804拆分所输入字符串的读音。

在步骤S906中,候选生成单元806将所拆分的读音转换成假名或汉字,以生 成所转换字符串的候选。

在步骤S908中,三元语法获取单元810从存储单元808获取三元语法,该三 元语法指示了包含在所生成字符串的每个候选中的三个词序列的出现概率。

在步骤S910中,三元语法获取单元810判定所获取的概率是否小于等于预定 值Ta。如果小于Ta,则进程转至步骤S912。二元语法获取单元812从存储单元 808中获取二元语法,该二元语法指示了包含在步骤S910中判定所使用的三个词 中的两个词的次序的出现概率。

在步骤S914中,判定所获取的二元语法是否小于等于预定值Tb。如果二元 语法小于等于Tb,则转至步骤S918。然后,群集二元语法获取单元814从存储单 元808获取群集二元语法,该群集二元语法指示与两个词的次序对应的群集次序的 出现概率。

在步骤S920中,确定单元816根据所获取的三元语法、二元语法或者群集二 元语法来确定候选的优先级,并且根据优先次序对所转换字符串的候选进行排序。

在步骤S922中,确定单元816以基于优先次序排序的次序在显示器818上显 示所转换字符串。

例如,假定在步骤S902中输入读音“makikokaininnni”。

在这种情况下,输入读音可被如下拆分:

makiko-kaininn-ni

所转换字符串的候选可能包括如下:

(卷き込或真貴子)-(任或懐妊)-(に或似)

下表说明了所转换字符串的候选的组合的三元语法的示例。

  候选   概率   卷き込-任-に   卷き込-任-似   卷き込-妊-に   卷き込-懐妊-似   真貴子-任-に   真貴子-任-似   真貴子-懐妊-に   真貴子-懐妊-似   0   0   0   0   0.00001   0   0.00001   0

下表说明了所转换字符串的候选的组合的示例。

  候选   概率   卷き込-任   卷き込-懐妊   真貴子-任   真貴子-懐妊   任-に   任-似   懐妊-に   懐妊-似   0   0   0.00001   0.00001   0.00001   0   0.00001   0

如果假名-汉字转换设备800判定三元语法和二元语法都不能信任,则使用 向群集二元语法的回退作为最终手段。假定提供了以下的群集二元语法。

 群集类型   概率  [具有M行中的五段动词变化的动词词干(卷き込)]-[其后跟有  具有S行中的不规则动词变化的动词的名词(任,懐妊)]   0  [名词(真貴子)]-[其后跟有具有S行中不规则动词变化的动词  的名词(任,懐妊)]   0.1  其后跟有具有S行中的不规则动词变化的动词的名词中“任”  的占有概率   0.001  在其后跟有具有S行中的不规则动词变化的动词的名词中“懐妊”  的占有该率   0.0001

参考上表,“真貴子任”的概率为:{[名词(真貴子)]-[其后跟有具有 S行中的不规则动词变化的动词的名词(解任,懐妊)]}的概率*[其后跟有具有 S行中的不规则动词变化的动词的名词中“解任”的占有概率]=0.1*0.001=0.0001, 并且这一概率在两个词的上述次序中具有最大的概率。同样地,使用向群集二元语 法的回退能阻止诸如“卷き込任”的转换中的错误,其中在具有S行的不规则 动词变化的动词之前的名词在动词词干后。

根据上述例程,群集可基于可被机器识别的表面属性来构建。

而且,因为将向一元语法的回退替换为群集二元语法意味着群集二元语法是 最终手段,所以假名-汉字转换可在考虑上下文的情况下来执行。

除非特别指出,否则本文所阐述和说明的方法的实现或执行的次序并非必要 的。即,发明人认为这些方法中的元素可以以任何次序来执行,并且除非特别指出, 否则这些方法可以包括比所公开的元素更多或更少的元素。

应该理解,本发明的一些目标和其它有益结果可以在考虑上述讨论的情况下 完成。

在上述的配置和方法中,可在不背离本发明实施例范围的情况下做出各种修 改。

例如,如图2所示的功能框可以分解为多组如图4、6、7所示的流程图。因 此,它们可以配置成一种执行图4所示方法的设备、执行图6所示方法的另一设备、 以及执行图7所示方法的其它设备。而且,有可能配置执行图4、6、7所示的方法 的任意组合的设备。

此外,有可能配置一种包括如图2所示功能和图8所示功能的设备。

此外,尽管上述实施例参照图9并描述使用阈值来轮流获取三元语法、二元 语法和群集二元语法的示例,但是也有可能在计算三元语法、二元语法和群集二元 语法的全部之后将最高概率用于判定而不使用阈值。

此外,尽管上述实施例已经描述了使用三元语法、二元语法和群集二元语法 执行假名-汉字转换的示例,但是可通过在任何N元语法的假名-汉字转换(N 不小于2)中采用向群集二元语法的回退来取得同样的效果。

因此,可以认为在附图中示出的所有内容可被解释为说明而非限制。

本发明已经通过较佳实施例得到详细描述,从以上描述对本领域技术人员显 而易见的是可在不背离本发明可最宽范围的情况下做出各种变化和修改,因此权利 要求旨在覆盖所有落入本发明实质精神的各种变化和修改。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号