首页> 中国专利> 设备控制装置、声音识别装置、代理装置、车载设备控制装置、导航装置、音响装置、设备控制方法、声音识别方法、代理处理方法、车载设备控制方法、导航方法、音响装置控制方法和程序

设备控制装置、声音识别装置、代理装置、车载设备控制装置、导航装置、音响装置、设备控制方法、声音识别方法、代理处理方法、车载设备控制方法、导航方法、音响装置控制方法和程序

摘要

声音识别部(2)对声音输入部(1)输入的说话者的声音实施声音识别,确定该声音有可能表示的单词和其得分,自然语言分析部(3)确定这些单词的词类,将表示这些单词的单词数据供给到代理处理部(7)中。代理处理部(7)存储定义取得单词数据等的数据取得处理、判别处理、输入输出处理的处理项目数据和定义从第一个处理向下一个处理的转移后对该转移给予加权系数的数据即线路,通过执行处理项目数据和线路作为整体所表示的流程,控制属于输入输出对象设备组(6)的设备,以恰当地掌握说话者的要求,满足其要求。

著录项

  • 公开/公告号CN1898721A

    专利类型发明专利

  • 公开/公告日2007-01-17

    原文格式PDF

  • 申请/专利权人 株式会社建伍;

    申请/专利号CN200480038936.8

  • 发明设计人 佐藤宁;

    申请日2004-12-24

  • 分类号G10L15/22(20060101);B60R16/02(20060101);G01C21/00(20060101);G08G1/0969(20060101);G09B29/10(20060101);G10L15/00(20060101);G10L15/18(20060101);G10L15/28(20060101);

  • 代理机构72002 永新专利商标代理有限公司;

  • 代理人陈英俊

  • 地址 日本东京都

  • 入库时间 2023-12-17 18:08:16

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2014-03-26

    专利权的转移 IPC(主分类):G10L15/22 变更前: 变更后: 登记生效日:20140304 申请日:20041224

    专利申请权、专利权的转移

  • 2011-12-07

    授权

    授权

  • 2007-03-14

    实质审查的生效

    实质审查的生效

  • 2007-01-17

    公开

    公开

说明书

技术领域

本发明涉及设备控制装置、声音识别装置、代理装置、车载设备控制装置、导航装置、音响装置、设备控制方法、声音识别方法、代理处理方法、车载设备控制方法、导航方法、音响装置控制方法和程序。

背景技术

近年来,使用着使用声音识别技术来识别声音,响应识别结果控制电气设备等的方法。该方法具体地说是识别输入的声音所表示的单词,判别被识别的单词是否与规定的关键字一致,基于判别结果控制外部的设备(例如,参照专利文献1)。

专利文献1:日本特开平8-339288号公报

但是,要完全识别人用语言形式发出的指示很困难。因此,在上述的方法中,有时不能恰当地响应人用语言形式发出的指示。

发明内容

本发明鉴于上述情况,其目的在于提供一种能够适当地响应人用语言形式发出的指示来控制设备的设备控制装置、声音识别装置、代理装置、车载设备控制装置、导航装置、音响装置、设备控制方法、声音识别方法、代理处理方法、车载设备控制方法、导航方法、音响装置控制方法或程序。

为了达到上述目的,本发明的第一观点涉及的设备控制装置,具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定单元(7),基于上述声音识别单元(2)确定的语句,确定上述声音的说话者的说话内容;处理执行单元(7),基于已确定的内容,确定对作为控制对象的外部设备应执行的控制的内容,并执行该控制。

也可以是,上述声音识别单元(2,3)具有确定已确定的语句的词类的词类确定单元(3),上述确定单元(7)仅基于上述声音识别单元(2)确定的语句中的、被确定为是规定词类的语句,来确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)判别上述声音识别单元(2,3)确定的语句中的、被确定为是规定词类的多个语句的组合是否满足规定的条件,基于判别结果,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)保持将语句与1个以上的范畴建立对应的信息,基于上述声音识别单元所确定的语句被分类的范畴,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)对于上述处理执行单元(7)的各个处理,保持建立了不同意思的语句或者范畴的多个对应的对应信息,基于上述声音识别单元确定的语句或者范畴的组合、和上述对应信息,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)保持将语句与1个以上的范畴建立对应的信息,基于上述声音识别单元(2,3)确定的多个语句共同被分类的范畴,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)对于上述处理执行单元(7)的各个处理分配并保持多个语句,在上述声音识别单元(2,3)确定的语句中的至少一个是对上述处理分配的语句时,执行对应的处理。

也可以是,在不能判别输入的声音的意思时,上述确定单元(7)促使用更容易判别的表现进行输入。

也可以是,还具有取得来自外部设备的信息的信息取得单元(7),上述确定单元(7)基于由上述信息取得单元(7)得到的信息,选择进行输出的输出内容。

此外,本发明的第二观点涉及的设备控制装置,具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定单元(7),基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;处理确定单元(7),基于已确定的内容,确定对作为控制对象的外部设备应执行的控制的内容;信息取得单元(7),经规定的通信单元(74)取得信息;以及声音输出单元(5),基于上述信息取得单元(7)取得的信息,输出声音;在上述处理确定单元(7)确定的控制是输出由上述信息取得单元(7)取得的信息的控制时,上述声音输出单元(5)基于该信息输出声音。

此外,本发明的第三观点涉及的声音识别装置,具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定单元(7),基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;处理执行单元(7),基于已确定的内容,确定应该执行的处理,并执行该处理。

也可以是,上述声音识别单元(2,3)具有确定已确定的语句的词类的词类确定单元(3);上述确定单元(7)仅基于上述声音识别单元(2,3)确定的语句中的、被确定为是规定词类的语句,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)保持将语句与1个以上的范畴建立对应的信息,基于上述声音识别单元确定的语句被分类的范畴,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)对于上述处理执行单元(7)的各个处理,保持建立了不同意思的语句或者范畴的多个对应的对应信息,基于上述声音识别单元确定的语句或者范畴的组合、和上述对应信息,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)保持将语句与1个以上的范畴建立对应的信息,基于上述声音识别单元确定的多个语句共同被分类的范畴,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)对上述处理执行单元(7)的各个处理分配并保持多个语句,在上述声音识别单元(2,3)确定的语句中的至少一个是对上述处理分配的语句时,执行对应的处理。

也可以是,上述确定单元(7)在不能判别输入的声音的意思时,促使用更容易判别的表现进行输入。

也可以是,还具有取得来自外部设备的信息的信息取得单元(7);上述确定单元(7)基于由上述信息取得单元(7)得到的信息,选择进行输出的输出内容。

此外,本发明的第四观点涉及的声音识别装置,具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音所表示的语句;确定单元(7),基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;处理确定单元(7),基于已确定的内容,确定应执行的处理;信息取得单元(7),通过规定的通信单元(74)取得信息;以及声音输出单元(5),基于上述信息取得单元(7)取得的信息,输出声音;在上述处理确定单元(7)确定的处理是输出由上述信息取得单元(7)取得的信息的处理时,上述声音输出单元(5)基于该信息输出声音。

此外,本发明的第五观点涉及的代理装置,具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音所表示的语句;确定单元(7),基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;处理执行单元(7),基于已确定的内容,确定应该执行的处理,执行该处理。

上述声音识别单元(2,3)具有确定已确定的语句的词类的词类确定单元(3);上述确定单元(7)仅基于上述声音识别单元(2,3)确定的语句中的、被确定为是规定词类的语句,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)判别上述声音识别单元(2,3)确定的语句中的、被确定为是规定词类的多个语句的组合是否满足规定的条件,并基于判别结果,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)保持将语句与1个以上的范畴建立对应的信息,基于上述声音识别单元确定的语句被分类的范畴,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)对于上述处理执行单元(7)的各个处理,保持建立了不同意思的语句或者范畴的多个对应的对应信息,基于上述声音识别单元(2,3)确定的语句或者范畴的组合、和上述对应信息,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)保持将语句与1个以上的范畴建立对应的信息,基于上述声音识别单元(2,3)确定的多个语句共同被分类的范畴,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)对于上述处理执行单元(7)的各个处理分配并保持多个语句,在上述声音识别单元(2,3)确定的语句中的至少一个是对上述处理分配的语句时,执行对应的处理。

也可以是,上述确定单元(7)在不能判别输入的声音的意思时,促使用更容易判别的表现进行输入。

也可以是,还具有取得来自外部设备的信息的信息取得单元(7);上述确定单元(7)基于由上述信息取得单元(7)得到的信息,选择进行输出的输出内容。

也可以是,上述处理执行单元(7)具有在作为应执行处理而确定的处理是向说话者提示从外部接收到的信息的处理时,通过产生读该信息的声音来执行该提示的单元。

此外,本发明的第六观点涉及的代理装置,具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定单元(7),基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;处理确定单元(7),基于已确定的内容,确定应执行的处理;信息取得单元(7),通过规定的通信单元(74)取得信息;以及声音输出单元(5),基于上述信息取得单元(7)取得的信息,输出声音;在上述处理确定单元(7)确定的处理是输出由上述信息取得单元(7)取得的信息的处理时,上述声音输出单元(5)基于该信息输出声音。

此外,本发明的第七观点涉及的车载设备控制装置,构成为可搭载在已搭载了外部的车载设备的车辆中,其具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定单元(7),基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;以及处理执行单元(7),基于已确定的内容,确定对上述车载设备应执行的控制的内容,执行该控制。

也可以是,上述声音识别单元(2,3)具有确定已确定的语句的词类的词类确定单元(3);上述确定单元(7)仅基于上述声音识别单元(2,3)确定的语句中的、被确定为是规定词类的语句,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)保持将语句与1个以上的范畴建立对应的信息,基于上述声音识别单元(2,3)确定的语句被分类的范畴,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)对于上述处理执行单元(7)的各个处理,保持建立了不同意思的语句或者范畴的多个对应的对应信息,基于上述声音识别单元确定的语句或者范畴的组合、和上述对应信息,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)保持将语句与1个以上的范畴建立对应的信息,基于上述声音识别单元(2,3)确定的多个语句共同被分类的范畴,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)对于上述处理执行单元(7)的各个处理分配并保持多个语句,在上述声音识别单元(2,3)确定的语句中的至少一个是对上述处理分配的语句时,执行对应的处理。

也可以是,上述确定单元(7)在不能判别输入的声音的意思时,促使用更容易判别的表现进行输入。

也可以是,还具有取得来自外部设备的信息的信息取得单元(7);上述确定单元(7)基于由上述信息取得单元(7)得到的信息,选择进行输出的输出内容。

此外,本发明的第八观点涉及的车载设备控制装置,构成为可搭载在已搭载了外部的车载设备的车辆中,其具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定单元(7),基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;处理确定单元(7),基于已确定的内容,确定对上述车载设备应执行的控制的内容;信息取得单元(7),通过规定的通信单元(74)取得信息;以及声音输出单元(5),基于上述信息取得单元(7)取得的信息,输出声音;在上述处理确定单元(7)确定的控制是输出由上述信息取得单元(7)取得的信息的控制时,上述声音输出单元(5)基于该信息输出声音。

此外,本发明的第九观点涉及的导航装置,构成为可以搭载在车辆中,其具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定单元(7),基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;以及处理执行单元(7),基于已确定的内容,确定应执行的导航处理的内容,执行该导航处理。

也可以是,上述声音识别单元(2,3)具有确定已确定的语句的词类的词类确定单元(3);上述确定单元(7)仅基于上述声音识别单元(2,3)确定的语句中的、被确定为是规定词类的语句,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)保持将语句与1个以上的范畴建立对应的信息,基于上述声音识别单元(2,3)确定的语句被分类的范畴,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)对于上述处理执行单元(7)的各个处理,保持建立了不同意思的语句或者范畴的多个对应的对应信息,基于上述声音识别单元(2,3)确定的语句或者范畴的组合、和上述对应信息,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)保持将语句与1个以上的范畴建立对应的信息,基于上述声音识别单元(2,3)确定的多个语句共同被分类的范畴,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)对上述处理执行单元(7)的各个处理分配并保持多个语句,在上述声音识别单元(2,3)确定的语句中的至少一个是对上述处理分配的语句时,执行对应的处理。

也可以是,上述确定单元(7)在不能判别输入的声音的意思时,促使用更容易判别的表现进行输入。

也可以是,还具有取得来自外部设备的信息的信息取得单元(7);上述确定单元(7)基于由上述信息取得单元(7)得到的信息,选择进行输出的输出内容。

此外,本发明的第十观点涉及的导航装置,构成为可以搭载在车辆中,其具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定单元(7),基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;处理确定单元(7),基于已确定的内容,确定应执行的导航处理的内容;信息取得单元(7),通过规定的通信单元(74)取得信息;以及声音输出单元(5),基于上述信息取得单元(7)取得的信息,输出声音;在上述处理确定单元(7)确定的导航处理是输出由上述信息取得单元(7)取得的信息的处理时,上述声音输出单元(5)基于该信息输出声音。

此外,本发明的第十一观点涉及的音响装置,具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定单元(7),基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;以及处理执行单元(7),基于已确定的内容,确定应该执行的声音处理的内容,控制该外部的设备,使得执行该声音处理或者让外部的设备执行该声音处理。

也可以是,上述声音识别单元(2,3)具有确定已确定的语句的词类的词类确定单元(3);上述确定单元(7)仅基于上述声音识别单元(2,3)确定的语句中的、被确定为是规定词类的语句,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)保持将语句与1个以上的范畴建立对应的信息,基于上述声音识别单元(2,3)确定的语句被分类的范畴,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)对于上述处理执行单元(7)的各个处理,保持建立了不同意思的语句或者范畴的多个对应的对应信息,基于上述声音识别单元(2,3)确定的语句或者范畴的组合、和上述对应信息,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)保持将语句与1个以上的范畴建立对应的信息,基于上述声音识别单元(2,3)确定的多个语句共同被分类的范畴,确定上述声音的说话者的说话内容。

也可以是,上述确定单元(7)对上述处理执行单元(7)的各个处理分配并保持多个语句,在上述声音识别单元(2,3)确定的语句中的至少一个是对上述处理分配的语句时,执行对应的处理。

也可以是,上述确定单元(7)在不能判别输入的声音的意思时,促使用更容易判别的表现进行输入。

也可以是,还具有取得来自外部设备的信息的信息取得单元(7);上述确定单元(7)基于由上述信息取得单元(7)得到的信息,选择进行输出的输出内容。

此外,本发明的第十二观点涉及的音响装置,具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定单元,基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;处理确定单元(7),基于已确定的内容,确定应执行的声音处理;信息取得单元(7),通过规定的通信单元(74)取得信息;以及声音输出单元(5),基于上述信息取得单元(7)取得的信息,输出声音;在上述处理确定单元(7)确定的声音处理是输出由上述信息取得单元(7)取得的信息的处理时,上述声音输出单元(5)基于该信息输出声音。

此外,本发明的第十三观点涉及的设备控制方法,包括下述步骤:声音识别步骤,取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定步骤,基于在上述声音识别步骤确定的语句,确定上述声音的说话者的说话内容;处理执行步骤,基于已确定的内容,确定对作为控制对象的外部设备应执行的控制的内容,执行该控制。

此外,本发明的第十四观点涉及的设备控制方法,包括下述步骤:声音识别步骤,取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定步骤,基于在上述声音识别步骤确定的语句,确定上述声音的说话者的说话内容;处理确定步骤,基于已确定的内容,确定对作为控制对象的外部设备应执行的控制的内容;信息取得步骤,通过规定的通信装置取得信息;以及声音输出步骤,基于在上述信息取得步骤取得的信息,输出声音;在由上述处理确定步骤确定的控制是输出在上述信息取得步骤取得的信息的控制时,在上述声音输出步骤基于该信息输出声音。

此外,本发明的第十五观点涉及的声音识别方法,包括下述步骤:声音识别步骤,取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定步骤,基于在上述声音识别步骤确定的语句,确定上述声音的说话者的说话内容;处理执行步骤,基于已确定的内容,确定应执行的处理,并执行该处理。

此外,本发明的第十六观点涉及的声音识别方法,包括下述步骤:声音识别步骤,取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定步骤,基于在上述声音识别步骤确定的语句,确定上述声音的说话者的说话内容;处理确定步骤,基于已确定的内容,确定应执行的处理;信息取得步骤,通过规定的通信装置取得信息;以及声音输出步骤,基于在上述信息取得步骤取得的信息,输出声音;在由上述处理确定步骤确定的处理是输出在上述信息取得步骤取得的信息的处理时,在上述声音输出步骤基于该信息输出声音。

此外,本发明的第十七观点涉及的代理处理方法,包括下述步骤:声音识别步骤,取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定步骤,基于在上述声音识别步骤确定的语句,确定上述声音的说话者的说话内容;处理执行步骤,基于已确定的内容,确定应执行的处理,执行该处理。

此外,本发明的第十八观点涉及的代理处理方法,包括下述步骤:声音识别步骤,取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定步骤,基于在上述声音识别步骤确定的语句,确定上述声音的说话者的说话内容;处理确定步骤,基于已确定的内容,确定应执行的处理;信息取得步骤,通过规定的通信装置取得信息;以及声音输出步骤,基于在上述信息取得步骤取得的信息,输出声音;在由上述处理确定步骤确定的处理是输出在上述信息取得步骤取得的信息的处理时,在上述声音输出步骤基于该信息输出声音。

此外,本发明的第十九观点涉及的车载设备控制方法,用于控制搭载在车辆中的车载设备,其包括下述步骤:声音识别步骤,取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定步骤,基于在上述声音识别步骤确定的语句,确定上述声音的说话者的说话内容;以及处理执行步骤,基于已确定的内容,确定对上述车载设备应执行的控制的内容,执行该控制。

此外,本发明的第二十观点涉及的车载设备控制方法,用于控制搭载在车辆中的车载设备,包括下述步骤:声音识别步骤,取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定步骤,基于在上述声音识别步骤确定的语句,确定上述声音的说话者的说话内容;处理确定步骤,基于已确定的内容,确定对上述车载设备应执行的控制的内容;信息取得步骤,通过规定的通信装置取得信息;以及声音输出步骤,基于在上述信息取得步骤取得的信息,输出声音;在上述处理确定步骤确定的控制是输出在上述信息取得步骤取得的信息的控制时,在上述声音输出步骤基于该信息输出声音。

此外,本发明的第二十一观点涉及的导航方法,包括下述步骤:声音识别步骤,取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定步骤,基于在上述声音识别步骤确定的语句,确定上述声音的说话者的说话内容;处理执行步骤,基于已确定的内容,确定应执行的导航处理的内容,执行该导航处理。

此外,本发明的第二十二观点涉及的导航方法,包括下述步骤:声音识别步骤,取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定步骤,基于在上述声音识别步骤确定的语句,确定上述声音的说话者的说话内容;处理确定步骤,基于已确定的内容,确定应执行的导航处理的内容;信息取得步骤,通过规定的通信装置取得信息;以及声音输出步骤,基于在上述信息取得步骤取得的信息,输出声音;在由上述处理确定步骤确定的导航处理是输出在上述信息取得步骤取得的信息的处理时,在上述声音输出步骤基于该信息输出声音。

此外,本发明的第二十三观点涉及的音响装置控制方法,包括下述步骤:声音识别步骤,取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定步骤,基于在上述声音识别步骤确定的语句,确定上述声音的说话者的说话内容;以及处理执行步骤,基于已确定的内容,确定应执行的声音处理的内容,控制该外部的音响装置,使得执行该声音处理或者让外部的音响装置执行该声音处理。

此外,本发明的第二十四观点涉及的音响装置控制方法,包括下述步骤:声音识别步骤,取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定步骤,基于在上述声音识别步骤确定的语句,确定上述声音的说话者的说话内容;处理确定步骤,基于已确定的内容,确定应该使外部的音响装置执行的声音处理的内容;信息取得步骤,通过规定的通信装置取得信息;以及声音输出步骤,基于在上述信息取得步骤取得的信息,输出声音;在由上述处理确定步骤确定的声音处理是输出在上述信息取得步骤取得的信息的处理时,在上述声音输出步骤基于该信息输出声音。

此外,本发明的第二十五观点涉及的程序,用于使计算机具有设备控制装置的功能,该设备控制装置具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定单元(7),基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;以及处理执行单元(7),基于已确定的内容,确定对作为控制对象的外部设备应执行的控制的内容,并执行该控制。

此外,本发明的第二十六观点涉及的程序,用于使计算机具有设备控制装置的功能,该设备控制装置具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定单元,基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;处理确定单元(7),基于已确定的内容,确定对作为控制对象的外部设备应执行的控制的内容;信息取得单元(7),通过规定的通信单元(74)取得信息;以及声音输出单元(5),基于上述信息取得单元(7)取得的信息,输出声音;在上述处理确定单元(7)确定的控制是输出在上述信息取得单元(7)取得的信息的控制时,上述声音输出单元(5)基于该信息输出声音。

此外,本发明的第二十七观点涉及的程序,用于使计算机具有声音识别装置的功能,该声音识别装置具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定单元(7),基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;处理执行单元(7),基于已确定的内容,确定应执行的处理,执行该处理。

此外,本发明的第二十八观点涉及的程序,用于使计算机具有声音识别装置的功能,该声音识别装置具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定单元(7),基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;处理确定单元(7),基于已确定的内容,确定应执行的处理;信息取得单元(7),通过规定的通信装置(74)取得信息;以及声音输出单元(5),基于上述信息取得单元(7)取得的信息,输出声音;在上述处理确定单元(7)确定的处理是输出在上述信息取得单元(7)取得的信息的处理时,上述声音输出单元(5)基于该信息输出声音。

此外,本发明的第二十九观点涉及的程序,用于使计算机具有代理装置的功能,该代理装置具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定单元(7),基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;处理执行单元(7),基于已确定的内容,确定应执行的处理,执行该处理。

此外,本发明的第三十观点涉及的程序,用于使计算机具有代理装置的功能,该代理装置具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定单元(7),基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;处理确定单元(7),基于已确定的内容,确定应执行的处理;信息取得单元(7),通过规定的通信单元(74)取得信息;以及声音输出单元(5),基于上述信息取得单元(7)取得的信息,输出声音;在上述处理确定单元(7)确定的处理是输出在上述信息取得单元(7)取得的信息的处理时,上述声音输出单元(5)基于该信息输出声音。

此外,本发明的第三十一观点涉及的程序,用于使计算机具有车载设备控制装置的功能,所述车载设备控制装置构成为可搭载在已搭载了外部的车载设备的车辆中,该车载设备控制装置具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定单元(7),基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;以及处理执行单元(7),基于已确定的内容,确定对上述车载设备应执行的控制的内容,执行该控制。

此外,本发明的第三十二观点涉及的程序,用于使计算机具有车载设备控制装置的功能,所述车载设备控制装置构成为可搭载在已搭载了外部的车载设备的车辆中,该车载设备控制装置具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定单元(7),基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;处理确定单元(7),基于已确定的内容,确定对上述车载设备应执行的控制的内容;信息取得单元(7),通过规定的通信单元(74)取得信息;以及声音输出单元(5),基于上述信息取得单元(7)取得的信息,输出声音;在上述处理确定单元(7)确定的控制是输出在上述信息取得单元(7)取得的信息的控制时,上述声音输出单元(5)基于该信息输出声音。

此外,本发明的第三十三观点涉及的程序,用于使计算机具有导航装置的功能,所述导航装置构成为可搭载在车辆中,该导航装置具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定单元(7),基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;以及处理执行单元(7),基于已确定的内容,确定应执行的导航处理的内容,执行该导航处理。

此外,本发明的第三十四观点涉及的程序,用于使计算机具有导航装置的功能,所述导航装置构成为可搭载在车辆中,该导航装置具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定单元,基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;处理确定单元,基于已确定的内容,确定应执行的导航处理的内容;信息取得单元(7),通过规定的通信单元(74)取得信息;以及声音输出单元(5),基于上述信息取得单元(7)取得的信息,输出声音;在上述处理确定单元(7)确定的导航处理是输出在上述信息取得单元(7)取得的信息的处理时,上述声音输出单元(5)基于该信息输出声音。

此外,本发明的第三十五观点涉及的程序,用于使计算机具有音响装置的功能,该音响装置具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音表示的语句;确定单元(7),基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;以及处理执行单元(7),基于已确定的内容,确定应执行的声音处理的内容,控制该外部的设备,使得执行该声音处理或者让外部的设备执行该声音处理。

此外,本发明的第三十六观点涉及的程序,用于使计算机具有音响装置的功能,该音响装置具有:声音识别单元(2,3),取得表示声音的声音数据,通过对该声音数据实施声音识别,确定该声音所表示的语句;确定单元(7),基于上述声音识别单元(2,3)确定的语句,确定上述声音的说话者的说话内容;处理确定单元(7),基于已确定的内容,确定应执行的声音处理;信息取得单元(7),通过规定的通信单元(74)取得信息;以及声音输出单元(5),基于上述信息取得单元(7)取得的信息,输出声音;在上述处理确定单元(7)确定的声音处理是输出在上述信息取得单元(7)取得的信息的处理时,上述声音输出单元(5)基于该信息输出声音。

发明效果

根据本发明,实现了能够恰当地响应人用语言的形式发出的指示后控制设备的设备控制装置、声音识别装置、代理装置、车载设备控制装置、导航装置、音响装置、设备控制方法、声音识别方法、代理处理方法、车载设备控制方法、导航方法、音响装置控制方法或程序。

附图说明

图1是示出本发明的实施方式涉及的代理装置的图。

图2是本实施方式涉及的代理装置的更详细的结构图。

图3是模式地示出范畴词典的具体例的图。

图4是用于说明触发取得处理的图。

图5是用于说明判别处理的图。

图6是用于说明带询问的判别处理的图。

图7是用于说明输出处理的图。

图8是示出线路的图。

图9是示出处理项目数据库和线路数据库作为整体所表示的流程的图。

图10是用于说明加权系数的设定的图。

图11是表示为了将搭乘者引导到吃饭的地方而执行的处理的流程图。

图12是表示为了将搭乘者引导到吃饭的地方而执行的处理的流程图。

图13是表示为了将搭乘者引导到吃饭的地方而执行的处理的流程图。

图14是表示为了将搭乘者引导到吃饭的地方而执行的处理的流程图。

图15是表示为了将搭乘者引导到吃饭的地方而执行的处理的流程图。

图16是表示为了将搭乘者引导到吃饭的地方而执行的处理的流程图。

图17是表示为了将搭乘者引导到吃饭的地方而执行的处理的流程图。

图18是示出表的数据结构的图。

附图标记的说明

1声音输入部

2语言识别部

3自然语言分析部

4声音合成处理部

5声音输出部

6输入输出对象设备组

61导航部

62时钟

7代理处理部

具体实施方式

以下,参照附图说明本实施方式。

(第一实施方式)

首先,说明本发明的第一实施方式涉及的代理装置。该代理装置根据输入信息转移状态进行处理。此外,在以下的说明中,该代理装置具有车载用的导航装置的功能。此外,该代理装置的一部分具有声音识别装置的功能。

图1是示出该代理装置的结构的方框图。如图所示,该代理装置包括声音输入部1、声音识别部2、自然语言分析部3、声音合成处理部4、声音输出部5、输入输出对象设备组6和代理处理部7。

声音输入部1输入声音,根据输入的声音生成数字形式的声音数据,将该声音数据供给到声音识别部2。具体地说,声音输入部1如图2所示,例如由麦克风11、AF(Audio Frequency即,音频)放大器12、内置了采样保持电路的A/D(模拟-数字)转换器13等构成。麦克风11将声音转换为声音信号后输出。AF放大器12将来自麦克风11的声音信号放大后输出。A/D转换器13采样来自AF放大器的放大后的声音信号,通过进行A/D转换,生成数字声音数据,供给声音识别部2。

如图2所示,声音识别部2、自然语言分析部3、声音合成处理部4和代理处理部7分别包括例如由CPU(中央处理器)等构成的处理器21、31、41、71,存储该处理器21、31、41、71执行的程序的ROM(只读存储器)和硬盘装置等非易失性存储器(在本实施方式中以ROM为例进行说明)22、32、42、72,具有成为处理器的工作区的存储区域的RAM(随机存取存储器)等易失性存储器23、33、43、73。

再有,也可以由一个处理器、一个非易失性存储器、一个易失性存储器构成声音识别部2、自然语言分析部3、声音合成处理部4和代理处理部7的一部分或全部的功能。

声音识别部2对从声音输入部1供给的声音数据进行声音识别处理。

当从声音输入部1被供给声音数据时,声音识别部2进行了例如去掉该声音数据中包含的噪声的处理等之后,通过参照后述的代理处理部7内的单词数据库D3,进行对该声音数据实施声音识别的处理,来确定该声音数据有可能表示的全部单词的候补和该候补的似然度(得分)S。

具体地说,声音识别部2例如计算出输入的声音和在单词数据库D3中登记的全部单词的匹配程度、即似然度(得分)S,识别哪个单词的得分S最高。例如,在供给了表示“喂,???空了”这个文章,但是“???”的部分表示可识别为“肚子”和“坟墓”(肚子和坟墓的日语发音相似)这样的声音的声音数据的情况下,对于“???”部分,计算对于各个单词的得分S,如对于“肚子”的得分S是80%,对于单词“坟墓”的得分S是65%等。然后,选择表示了最高值的“肚子”作为是该部分“???”所表示的单词。然后,声音识别部2生成表示“喂,肚子空了”的识别结果的文本字符串(或者单词ID(IDentifier),供给自然语言分析部3。

再有,声音识别部2进行的声音识别的方法任意。此外,对于得分S的值比规定值低的单词,不选择作为候补。另外,也可以对一个声音输入确定多个单词的候补。然后,生成表示已确定的候补和该候补的得分S的数据(以下称为单词数据),向代理处理部7供给。再有,单词数据可以包含单词信息本身和得分S,但实际上包含单词ID和得分S,在数据的处理上有利。

自然语言分析部3通过进行对从声音识别部2供给的单词数据(或者文本数据)实施词素分析的处理等,按词类分类该单词数据所表示的单词,对单词数据附加表示分类结果的数据,并供给代理处理部7。再有,自然语言分析部3进行的分类的方法任意,例如,最好使用奈良尖端科学技术大学开发的日本语词素分析的方法即“ChaSen”等。

声音合成处理部4的非易失性存储器42存储音片数据库D1和素片数据库D2,所述音片数据库D1存储表示单词的波形的数据,所述素片数据库D2存储表示用于构成音素的波形的数据。

音片数据库D1存储表示单词的波形的数据。素片数据库D2存储表示用于构成音素的波形的数据。声音合成处理部4使用在音片数据库D1和/或素片数据库D2存储的数据,生成表示读从代理处理部6供给的文章数据的声音的数字声音数据。

声音合成处理部4向声音输出部5供给生成的声音数据。

生成数字声音数据的方法任意,但例如可以使用录音编辑方式和规则合成方式(Rule-based synthesis)。再有,录音编辑方式例如是让播音员预先读单词单位或词节单位的声音,将它们接连合并后输出的方式。或者,也可以将播音员读出的一系列的声音在后面的处理中划分为单词单位或词节单位存储起来,将它们接连合并后进行输出。此外,规则合成方式是将音韵(辅音和元音)、假名、及更细化的单位的音素和素片这样的比较小的单位连接合并后进行输出的方式。

声音输出部5再现从声音合成处理部4供给的数字声音数据所表示的声音。更详细地说,声音输出部5如图2所示,具有D/A(数字-模拟)转换器51、AF放大器52和扬声器53。

D/A转换器51对从声音合成处理部4供给的数字声音数据进行D/A转换,转换为模拟声音信号。AF放大器52放大模拟声音信号。扬声器53按照模拟声音信号进行振动,再现并放出模拟声音数据所表示的声音。

输入输出对象设备组6由例如导航部61、时钟62等构成。

导航部61由GPS(全球定位系统)的移动站、液晶显示器等显示装置、使用了处理器的公知的汽车驾驶导航系统等构成。导航部61存储着表示地图的地图信息,按照代理处理部7供给的控制信号检测车辆的当前位置,生成表示检测出的当前位置对应地图上的哪个位置的数据,与表示当前位置附近地图的地图信息一起供给代理处理部7。此外,与表示当前位置的图形一起,显示当前位置附近的地图。

时钟62由例如石英振荡器和定时器电路等构成,连续地生成表示当前时刻的数据,向代理处理部7供给。再有,也可以通过导航部61供给从GPS得到的时刻信息。

代理处理部7具有由调制解调器和数据包通信终端等构成的通信控制装置74,通过该通信控制装置,经外部的网络(例如通过无线电话线路的因特网)同后述的传输服务器100连接。

代理处理部7的非易失性存储器72存储单词数据库D3。单词数据库D3是存储多个单词数据和用于表示该单词归类在什么样的概念或范畴下面的范畴词典的数据库。

范畴词典具有如图3所示的数据结构。即,范畴词典将表示单词的数据和表示该单词所属的范畴的数据相互建立对应后存储起来。例如,在图3所示的例子中,单词“空了”与范畴“吃饭”相对应。再有,一个单词也可以属于多个范畴。(例如在图3所示的例子中,单词“肚子”与范畴“吃饭”及“医院”相对应。

然后,在同一文章中包含着多个单词的情况下,该代理装置通过仅将这些单词共同所属的范畴作为这些单词所属的范畴来处理,就能根据文章前后关系掌握说这些单词的意图。例如在图3中示出的例子中,在从自然语言分析部3向代理处理部7供给了构成文章“肚子空了”的单词数据的集合的情况下,代理处理部7能够在进行该文章涉及的处理中,仅将单词“肚子”和“空了”共同所属的范畴即“吃饭”作为单词“肚子”和“空了”所属的范畴来处理。同样地,在单词数据的集合表示用户说出的“想去吃饭啊”的情况下,能够在进行文章“想去吃饭啊”涉及的处理中,仅将单词“吃饭”和“想去”共同所属的范畴即“吃饭”作为单词“吃饭”和“想去”所属的范畴来处理。

此外,代理处理部7也可以仅将从自然语言分析部3供给的单词数据中的、表示特定词类的单词数据(例如仅是名词和动词)使用于自己进行的后续的处理中。

再有,不需要从多个单词的组合来确定单词所属的范畴。例如,由于单词“饿了”仅与范畴“吃饭”对应,因此,在供给了表示单词“饿了”的单词数据的情况下,代理处理部7不必与其他单词组合进行判别处理,可以将该单词数据作为属于范畴“吃饭”的数据来处理。

此外,代理处理部7的非易失性存储器还存储着过去经验数据库D6、日餐馆数据库D7、西餐馆数据库D8和中餐馆数据库D9。过去经验数据库D6是存储代理处理部7让导航部61显示地图上的位置或设定为目的地的餐馆名称的数据库。日餐馆数据库D7、西餐馆数据库D8和中餐馆数据库D9分别是存储日餐馆的名称、西餐馆的名称和中餐馆的名称的数据库。

代理处理部7的非易失性存储器还存储着处理项目数据库D4和线路数据库D5。

处理项目数据库D4是存储了对每个处理项目(指针)记述代理处理部7进行的触发取得处理(TGxx)、判别处理(BRxx或QBxx)和输入输出处理(后述的SPxx或EXxx)的内容的数据(处理项目数据)的数据库。再有,“xx”是识别号码。

记述在处理项目数据库D4存储的处理项目中的、“触发取得处理(TGxx)”的内容的数据,包括确定使这些处理开始的触发的触发数据(指定作为触发所取得的数据内容的数据)和后述的前进方向决定用的转移常数(表示向该前进方向转移的程度,是成为后述的加权系数J的计算基准的常数)。触发数据是任意的,例如,是从导航部61供给的表示车辆当前位置的数据和从时钟62供给的表示当前时刻的数据、及从自然语言分析部3供给的上述的单词数据。或者,触发数据也可以是从代理处理部7自身所进行的处理递交的数据。此外,在触发取得处理中取得的数据是单词数据的情况下,也可以取代该单词数据所表示的单词,而记述该单词数据所表示的单词被分类的范畴。但是,多个触发取得处理不基于相互表示同一单词的单词数据和相互属于同一范畴的单词数据进行工作这样地记述触发取得处理的内容。若不这样记述,就成为根据某个单词数据而要执行多个工作。

图4(a)中示出触发取得处理TGxx的例子。在该例子中,触发TG01是取得作为触发的范畴“吃饭”(识别被归类为范畴“吃饭”的单词(在图3的例子中,是单词“空了”、“饿了”、“肚子”、“吃”、“去”、“設定”、“什么地方”、“在哪里”、“吃饭”))的处理,用于决定是否前进到该处理的后续处理(转移)的转移常数k是0.8。图4(b)中示出触发取得处理TG01的流程图。

触发取得处理TG00是取得单词“没兴趣”的处理。触发取得处理TG51是取得单词“日餐”的处理。触发取得处理TG52是取得单词“西餐”的处理。触发取得处理TG53是取得单词“中餐”的处理。

记述存储在处理项目数据库D4中的“判别处理(BRxx)”的内容的数据,包括着按照各判别处理分别记述了判别条件、作为判别结果可得到的结果的列表、后述的返回方向的转移常数k的数据。记述判别处理的内容的数据,包含着按照各判别结果记述了用于决定前进方向的转移常数k的数据。

图5(a)中示出判别处理BRxx的例子。在该例子中,判别处理BR01是“判别是(a)12点之前,(b)12点以后且14点之前,(c)14点以后中的哪一个”。在判别为是(a)12点以前时,用于决定是否前进到后续处理的转移常数k是0.4,在判别为是(b)12点以后且14点之前时,用于决定是否前进到后续处理的转移常数k是0.3,在判别为是(c)14点以后时,用于决定是否前进到后续处理的转移常数k是0.4。图5(b)中示出该例子的流程图。图5(b)中示出的节点BR01.1是表示处理开始点的始点节点,节点BR01.2是判定为(a)12点以前时的前进方向的节点,其转移常数k是0.4。另外,节点BR01.3是判定为(b)12点以后且14点之前时的前进方向的节点,其转移常数k是0.3,节点BR01.4是判定为(c)14点以后时的前进方向的节点,其转移常数k是0.4。

“判别处理”有时也可以从任意的取得源取得用于判别的数据。作为取得源,考虑例如声音识别部2、自然语言分析部3和代理处理部7所执行的其他处理,属于输入输出对象设备组6的设备,以及其他外部设备等。然后,该情况下,记述判别处理的内容的数据最好进一步包括例如指定用于判别的数据取得源的数据。

此外,在“判别处理”中,也可以在判别之前向规定的输出目的地输出规定的数据(该情况下,将表示处理的标记设定为例如QBxx)。例如,考虑在判别之前向声音合成处理部4提交表示规定提问的数据。在判别处理中,在判别之前输出规定数据的情况下,记述判别处理的内容的数据包括例如指定进行输出的数据的内容和该数据的输出目的地的数据。

图6(a)中示出判别处理QBxx的例子。在该例子中,例如,判别处理QB01向利用者询问“去吃饭吗?”,其应答(利用者的回答)为“是”时的前进方向的转移常数k是0.7,为“不”时的前进方向的转移常数k是0.4。图6(b)中示出该例子的流程图。图6(b)中示出的节点QB01.1是表示处理开始点的始点节点,节点QB01.2是对于询问判别为指定了“去吃饭”时的前进方向的节点,其转移常数k是0.7。另外,节点QB01.3是判别为指定了“不去吃饭”时的前进方向的节点,其转移常数k是0.4。此外,判别处理QB02在向利用者询问“那么去便利店?”,其应答(利用者的回答)为“是”时的前进方向的转移常数k是0.5,是“不”时的前进方向的转移常数k是0.3。

处理项目数据库D4中存储的记述“输入输出处理”的内容的数据由指定进行输入或输出的数据的内容的数据构成。输入数据和输出数据可以具有任意的内容。例如,输出数据可以是表示通过声音合成处理部4使声音输出部5发出的声音的读的数据和控制外部设备的控制信号。此外,输入数据可以是例如从外部的设备供给的数据。

图7(a)中示出输出处理EXxx的例子。在该例子中,输出处理EX02是“进行导航引导”的工作,进行工作后处理的前进方向的转移常数k是0.8。图7(b)中示出该例子的流程图。图7(b)中示出的节点EX01.1是表示处理开始点的始点节点,节点EX01.2是表示处理结束的节点,转移常数k是0.8。再有,关于输出处理EXxx,也可以不进行转移常数k的设定等,而是将表示处理结束的节点的选择作为必须的处理。

线路数据库D5由记述多个处理(TG、BRxx、QBxx、SPxx、EXxx)间的转移的数据(以下将该转移定义数据称作线路)的集合构成。线路由例如图8中示出的格式记述的数据构成。线路Wn(W1、W2…)如图所示,是关于从先行的处理X(From(X))向后续的处理Y(To(Y))的转移(From(X)To(Y)),指定该先行的处理(X)、该后续的处理(Y)和对该转移付与的加权系数J的数据。再有,在先行的处理X是判别处理的情况下,需要记述到该判别处理是从哪个判别结果的转移。具体地说,例如,是对于具有基于声音数据判别对于提问的回答这样的处理项目作为先行的处理项目的一个线路,定义表示肯定的单词“去”“嗯”“是的”,对于其他线路定义表示否定的单词“不去”“否”等。

再有,也可以利用代理处理部7等,按照执行了连接的线路所示出的转移的实绩,重写上述处理项目数据所记述的转移常数k。例如,在执行确定的线路所表示的转移的频度大于规定量的情况下,代理处理部7通过将表示该线路所示的转移的转移源的处理项目的处理项目数据中记述着的转移常数k的值重写为比以前大的值,就容易引起该线路所示出的转移等。因此,其结果,进行用户意图的应答的概率就增高。

然后,代理处理部7执行处理项目数据库D4和线路数据库D5所代表的整体的流程。例如能够记述如图9(a)所示的流程。

在此,参照图9(a)详细地说明具体是如何进行代理处理部7的处理。如图所示,在由线路W01定义为执行先行的第一处理P1后转移到后续的第二处理P2,此外,由线路W03定义为执行第二处理P2后转移到后续的第三处理P3时,代理处理部7进行以下的处理。

再有,如图所示,设定处理P1是判别是否供给表示单词“去”的单词数据的处理,设定处理P2是判别是否供给表示单词“吃饭”的单词数据的的处理,设定处理P3是判别是否从导航部61取得示出饭店或医院在哪个位置的信息的处理。再有,如图所示,关于处理P1~P3,将各前进方向的转移常数k都设定为0.5。该情况下,例如如图9(b)所示地定义线路。此外,代理处理部7仅取得声音识别部2供给到自然语言分析部3的单词数据中的、表示在自然语言分析部3中分类为名词或动词的单词的单词数据。

首先,在代理处理部7到达第一处理P1时,代理处理部7计算线路W01、W03和W05的各个加权系数J,将计算结果写入到线路W01、W03和W05中。根据各处理中预先设定的前进方向的转移常数k,决定这些值。

具体地说,在处理到达处理P1时,线路W01的加权系数J就等于处理P1的线路所涉及的转移常数k的值即0.5。

处理P2的线路W03的加权系数J,成为处理P1的线路W01所涉及的转移常数k=0.5乘以处理P2的线路W03所涉及的转移常数k=0.5的结果即0.25。

线路W05的加权系数J,成为在处理P1的线路W01所涉及的转移常数k=0.5乘以处理P2的线路W03所涉及的转移常数k=0.5的结果上,进一步乘以处理P3的线路W05所涉及的转移常数k=0.5的结果,即0.125。

如此地计算以某个处理为基点时的各个线路的加权系数J。这样,当前的状态一转移,就以当前的处理为基点,每次都计算加权系数J。

具体地说,当前的状态一转移到处理P2,线路W03的加权系数J就成为与处理P2的线路W03所涉及的转移常数k相等的值0.5,线路W05的加权系数J成为处理P2的线路W03所涉及的转移常数k=0.5和处理P3的线路W05所涉及的转移常数k=0.5的积,即0.25。此外,这时,代理处理部7再次写入反方向、即返回到处理P1的方向所涉及的线路W01的加权系数J。在转移到处理P2的情况下,线路W01所涉及的返回方向的转移常数k=0.1仍等于线路W01的加权系数J。在转移到处理P3的情况下,线路W03所涉及的返回方向的转移常数k=0.1仍等于线路W03的加权系数J。然后,转移了处理P3的状态下的线路W01的加权系数J,就成为在转移到处理P3的状态下的线路W03的转移常数k=0.1上乘以处理P2的返回方向的转移常数k=0.1的值、即0.01。

图9(c)中示出各线路Wn的加权系数J的变化。

不仅关于关联的流程的处理,而且关于全部流程的全部线路设定加权系数J的计算。在此,关于不与当前的处理关联的线路,最好分配预定的低的计数值。但是,特别是关于以触发取得处理为先行处理的线路,要较高地设定加权系数J。通过这样,就能够也跳转到与之前进行的会话内容显著不同的会话中。

再有,对各线路分别设定条件。具体地说,对W01设定单词“去”作为条件,对W03设定单词“吃饭”作为条件。然后,在从自然语言分析部3供给了单词数据时,在该单词数据是示出单词“去”的情况下,对W01设定该单词数据所示出的得分S。此外,在从自然语言分析部3供给的单词数据是示出单词“吃饭”的情况下,对W03设定该单词数据所示出的得分S。再有,也可以对各线路设定多个不同的单词作为条件。例如,在对某一个线路分配意思是“吃饭”的单词“吃饭”“进餐”等作为条件的同时,分配意思是“去”的单词“去”“做”等作为条件。然后,在从自然语言分析部3供给的单词数据是单词“吃饭”和单词“去”的情况下,对该线路设定各自的得分S。然后,基于该设定的得分S求该线路的计算结果。该情况下,也可以合计各得分S,或者也可以求平均值。

另外,对各线路设定的条件不限于对某种意思设定单一的单词。例如,也可以设定表示同一意思的不同多个单词作为条件。该条件的设定只要存储着这些单词与线路的关系就行,将得分S计算的对象单词存储在上述单词数据库D3中。

例如,在进行声音识别时,关于输入的声音,声音识别部2对单词数据库D3中登记着的全部单词进行得分S的计算,至少生成有关得到了规定以上的得分的单词的单词数据,通过自然语言分析部3向代理处理部7输出单词数据。接着,代理处理部7判别输入的各单词数据与哪个线路相关联,对关联的各线路设定单词数据所示出的得分S。若这样做,即使在对于多个线路设定相同的单词作为条件的情况中,只要一次输入的声音信号与单词的得分S的计算就够了。然后,分别对相关联的线路S设定得到的各单词的得分S。再有,有时对于一个线路S得到多个得分S的情况,但该情况下,例如最好选择值最高的得分S。

这样,若对于一个线路分别设定了例如“yes”“是”“好的”等表示同一种意思的单词数据,用户即使用“yes”“是”“好的”的任一种声音发出指示,也都能够得到恰当的结果作为声音识别的得分S。

此外,有时利用判别处理得到来自输入输出对象设备组6的信息作为输入信息。该情况下,最好例如构成声音识别部2的处理器21,在上述非易失性存储器等中存储示出输入输出对象设备组6的各设备的状态作为(例如与上述的“单词数据库D3”同样的)状态数据库,参照状态数据库决定输入信息示出哪个设备的哪种状态,将它和得分S作为状态数据供给到代理处理部7中。再有,若与声音识别的情况不同,对应的状态处于状态数据库中,则得分S就最好必须要变为100%。然后,代理处理部7判别与状态数据所示出的状态关联的线路,对各线路设定得分S。

下面,参照图10说明这样构成的系统整体的工作。

所述声音输入部1和声音识别部2及自然语言分析部3独立地进行工作,取入声音并进行分析,将单词数据提供给代理处理部7。

然后,从自然语言分析部3等一供给判别条件所涉及的(一个或多个)单词数据(或者状态数据),代理处理部7就进行以下的处理。

识别供给的单词(步骤S11),判别它是否与单词数据库DB4中登记的单词相当(步骤S12)。若没登记(步骤S12的“否”),就结束单词输入处理。

另一方面,若已登记(步骤S12的“是”),就有关该单词或该单词所属的“范畴”变为条件的处理,计算单词的似然度即得分S与线路的加权系数J的积S·J(步骤S13)。

例如,在执行图9(a)示出的流程的情况中,处理指针PP指示着第一处理。该情况下的各线路的加权系数J如图9(c)所示。

在该状态中,假设输入了示出得分S80%的单词“去”和得分S50%的单词“吃饭”的单词数据。

在图9(a)和(b)中示出的例子中,在第一处理P1中,单词“去”与判别条件关联,在第三处理P3中,单词“吃饭”与判别条件关联。

如图9(c-1)所示,以输入表示单词“去”的单词数据的处理为先行处理的线路W01的加权系数J是0.5,以输入表示单词“吃饭”的单词数据的处理为先行处理的线路W03的加权系数J是0.25。该情况下,关于线路W51和W53求得的似然度和加权系数J的积S·J如数学式1和2所示。

(数学式1)关于线路W01的判别结果:对“去”的得分S(=80%)×线路W01的加权系数J(=0.5)=40

(数学式2)关于线路W03的判别结果:对“吃饭”的得分S(=50%)×线路W03的加权系数J(=0.25)=12.5

代理处理部7关于流程具有的全部线路进行求得分S与加权系数J的积S·J的上述处理。

接着,代理处理部7选择计算的积S·J最大的线路(图10的步骤S14)。代理处理部7前进控制到选择的线路的后续处理(步骤S15)。例如,在关于线路W01求得的积S·J示出了最高的值的情况下,识别为输入的单词数据示出单词“去”,线路W01转移到作为后续处理的第二处理P2中。通常,若以当前的执行中的处理为起点,则线路的加权系数J就比较大。因此,一般地转移到下一个处理中,但有时在用与以前完全不同的单词输入了似然度S高的单词的情况下,也开始与该单词相对应的处理。例如,在上述的例子中,在对于“去”的得分S是30%,对于“吃饭”的得分S是80%的情况下,各自的积S·J等于15和20,该情况下,就选择线路W03。这在该代理装置的用户熟知处理的流程,跳过当前的处理跳转到邻近的其他处理的情况等时特别有效。

当处理转移时,代理处理部7就基于转移后的状态,再次计算各线路的加权系数J(步骤S16)。

之后,按照该处理的内容进行处理(步骤S17)。在该例子中,执行第二处理P2。

再有,对于从触发取得处理开始的转移,可以设定某种程度的高的加权系数。具体地说,例如,在处理P1中先进行取得示出“去”的单词的单词数据的触发取得处理,对于定义从该触发取得处理开始向处理P1的转移的线路,给予例如加权系数J=1.0。于是,例如,在代理处理部7的处理属于该触发取得处理涉及的流程的情况下,若用户说“去吃饭”,例如得到对于单词“去”的得分S80%的单词数据,该得分S与“用户是否说了‘去’的判断”所涉及的线路的加权系数J的积S·J就等于80%×1.0即80。若该值是比其他线路的判别结果大的值,就识别为输入的声音是“去”,代理处理部7的处理就跳转到处理P1。另一方面,若极低地设定其他的线路的加权系数J,跳转到由这些其他线路定义的处理的可能性就极低,作为结果,就能够沿着设想的会话的流向提高识别率。

在该实施方式中,也能引起向返回方向的转移。但是,现实中很多情况下倒回会话不好。因此,最好将返回方向的转移常数k设定为比前进方向的转移常数k低的值。于是,即使假设从输入的声音得到高得分S的单词数据,由于关于写入了返回方向的转移常数k作为加权系数J的线路求得的积S·J成为低的值,因此,就能够将向返回方向的转移的可能性抑制得很低。

此外,代理处理部7也可以将求得的积S·J不符合规定的条件的处理(例如,积S·J的值不到规定值的处理)从执行转移的对象除外,来进行处理。

再有,例如如图8所示,线路用从处理项目向处理项目的转移的形式来定义转移。然后,通过用如图8所示的形态记述线路并存储在数据库中,就能如计算机的宏处理这样地定义各处理项目彼此之间的关系。这样,能够容易地连接各处理项目。

此外,由于成为触发的处理项目变为基于作为实际连接的线路所涉及的条件的单词等(也有时对于其他的输入对象设备群6的状态)的得分S和加权系数J的判别结果的计算,因此,在线路的定义中,不定义触发取得处理项目作为线路的开始点,而定义线路本身作为转移源。

另外,由于如上所述地根据线路定义着各处理项目的连接关系,因此,能够简单地附加转移目的地。例如,在“热”的声音输入之后,用户希望休息,输入“寻找家庭餐馆”的声音的机会很多的情况下,对家庭饭店的检索处理项目自动地附加线路。于是,在自动附加了线路后,通过某种程度地增大与家庭饭店检索处理项目连接的线路的加权系数J,就能够恰当地与该输入“请寻找家庭餐馆”相对应。(但是,在该情况下,代理处理部7存储包括例如示出家庭饭店的位置的信息的地图数据等,或者对外部的地图数据等进行存取。)

最好计数从某个处理项目向某个处理项目(或者线路)的跳转的次数,在其达到了规定次数时自动进行该线路的自动附加。

下面,参照图11~图17说明该代理装置用于将用户即搭乘者引导到吃饭场所所执行的处理。以下,处理项目数据库和线路数据库例如作为整体记述着如图11~图17所示的流程。

在图11~图17中示出的流程中,在触发取得处理步骤TG1中,从自然语言分析部3一供给示出属于范畴“吃饭”的单词的单词数据,代理处理部7就取得后提交给判别处理步骤QB1。由于在触发取得处理步骤TG1中取得的单词最好是分类为“吃饭”的范畴的单词,因此,若利用范畴词典将例如“饭”、“食物”等任意的单词分类为“吃饭”的范畴,该代理装置就响应各种各样的单词执行判别处理步骤QB1以下的处理。

代理处理部7在判别处理步骤QB1中,首先向声音合成处理部4供给表示文章“去吃饭?”的单词数据。声音合成处理部4生成表示读出该文章的声音的声音数据后供给到声音输出部5中,声音输出部5再现该声音数据所表示的声音。然后,代理处理部7等待从自然语言分析部3供给属于范畴“肯定”或“否定”的单词数据,一供给适合的单词数据,就判别该数据属于“肯定”或“否定”的哪一个。然后,一判别为属于“肯定”,就转移处理到判别处理步骤QB3,一判别为属于“否定”,就转移处理到判别处理步骤QB2。

再有,也可以不是基于范畴的处理,而是对于各线路、例如定义从QB1向QB3的状态转移的线路,设定表示肯定的单词“是”“好的”等作为条件,此外,对于定义从QB1向QB2的状态转移的线路,设定表示否定的单词“不”、“不去”等作为条件。这样就从自然语言分析部3对线路直接设定与输入声音相对应的单词的得分S。例如,若对于输入声音的单词“好的”的得分S是80%,就对于定义从QB1向QB3的状态转移的线路设定该得分S。

然后,在将各单词分类为上述的范畴的情况中也同样,但利用在此得到的各得分S与线路中设定的加权系数J的乘法求得线路的计算结果,转移状态到该计算结果示出最高值的线路。

此外,在属于“肯定”或“否定”的任一个范畴的单词的单词数据都没供给的情况下,向声音合成处理部4供给表示文章“请回答是或不”的单词数据。声音合成处理部4生成表示读该文章的声音的声音数据后供给到声音输出部5,使声音输出部5再现该声音数据所表示的声音。然后,等待供给属于范畴“肯定”或“否定”的单词数据,一供给属于某个范畴的单词数据,就按照该单词数据的范畴,转移处理到判别处理步骤QB1的处理中的各转移目的地的某一个(判别处理步骤QB6)。

或者,在触发取得处理步骤TG0中,从自然语言分析部3一供给示出单词“没兴趣”的单词数据,代理处理部7就取得后提交给判别处理步骤QB0。然后,在判别处理步骤QB0中,判别该单词“没兴趣”与其他单词的所属范畴的重合等的结果,作为属于哪个范畴的单词来对待。然后,一判别为属于范畴“吃饭”,就转移处理到判别处理步骤QB3,一判别为属于其他范畴,就作为用取得属于适合的范畴的单词的触发取得处理取得该单词数据的处理继续进行。

在判别处理步骤QB2中,代理处理部7首先与上述的判别处理步骤QB1同样地,通过声音合成处理部4使声音输出部5再现读出文章“那么,去便利店?”的声音。然后,等待从自然语言分析部3供给属于范畴“肯定”或“否定”的单词数据,一供给适合的单词数据,就判别该数据属于“肯定”或“否定”的哪一个。然后,一判别为属于“肯定”,就转移处理到输入输出处理步骤SP2,一判别为属于“否定”,就转移处理到输入输出处理步骤SP3。此外,在这些的哪个范畴的单词的单词数据都没供给的情况下,使声音输出部5再现读出文章“请回答是或不?”的声音,等待供给属于范畴“肯定”或“否定”的单词数据,按照供给的单词数据的范畴,转移处理到判别处理步骤QB2的处理中的各转移目的地的某一个(判别处理步骤QB4)。

在输入输出处理步骤SP2中,代理处理部7通过声音合成处理部4,使声音输出部5再现读出文章“引导便利店”的声音,转移处理到输入输出步骤EX2。然后,在输入输出处理步骤EX2中,向导航部61发送指示显示搭载了该代理装置的车辆在地图上的当前位置和在该地图上的示出便利店的位置的信息的控制信号。导航部61按照该指示,显示车辆在地图上的当前位置和在该地图上的示出便利店位置的信息,开始向该便利店的导向。

在输入输出处理步骤SP3中,代理处理部7通过声音合成处理部4,使声音输出部5再现读出文章“请注意安全驾驶”的声音,转移处理到输入输出处理步骤EX3。然后,在输入输出处理步骤EX3中,通过向导航部61发送控制信号,使导航部61显示车辆在地图上的当前位置。

另一方面,在判别处理步骤QB3中,代理处理部7使声音输出部5读出文章“决定了餐馆吗?”,等待供给属于范畴“肯定”或“否定”的单词数据,一供给适合的单词数据,就判别属于哪个范畴。然后,一判别为属于“肯定”,就转移处理到判别处理步骤QB7,一判别为属于“否定”,就转移处理到判别处理步骤BR1。此外,在这些的哪个范畴的单词的单词数据都没供给的情况下,使声音输出部5再现读出文章“请回答是或不?”的声音,等待供给属于范畴“肯定”或“否定”的单词数据,按照供给的单词数据的范畴,转移处理到判别处理步骤QB3的处理中的各转移目的地的某一个。

在判别处理步骤QB7中,代理处理部7通过声音合成处理部4,使声音输出部5读出文章“店的名称?”,等待供给单词数据,一供给,就检索该单词数据所示出的饭店,若是适合的饭店,就向导航部61发送指示显示车辆在地图上的当前位置和在该地图上示出该饭店的位置的信息的控制信号。然后,若有适合的饭店,导航部61就显示示出车辆在地图上的当前位置和该地图上的饭店的位置的信息,开始向该饭店的导向(步骤EX100)。另一方面,若没有适合的饭店,导航部61就将该意思的信息返回给代理处理部7,代理处理部7转移处理到输入输出处理步骤SP5。在输入输出处理步骤SP5中,代理处理部7使声音输出部5读出文章“附近没有”,转移处理到判别处理步骤BR1。

在判别处理BR1中,代理处理部7从时钟62取得示出当前的时刻的数据,判别该数据所示出的时刻是(a)12点以前、(b)12点后14点前、(c)14点以后中的哪个。然后,若判别为是(a)12点以前,就使声音输出部5读出文章“是上午”(输入输出处理步骤SP8),转移处理到判别处理步骤QB10。若判别为是(b)12点后14点前,就使声音输出部5读出文章“是午餐”(输入输出处理步骤SP10),转移处理到判别处理步骤QB12。若判别为是(c)14点以后,就使声音输出部5读出文章“是喝茶时间”(输入输出处理步骤SP9),转移处理到判别处理步骤QB10。

另一方面,在判别处理步骤QB10中,代理处理部7使声音输出部5读出文章“检索推荐的店吗?)”,等待供给属于范畴“肯定”或“否定”的单词数据,一供给适合的单词数据,就判别属于哪个范畴。然后,若判别为属于“肯定”,就转移处理到输入输出处理步骤SP14,若判别为属于“否定”,就转移处理到判别处理步骤QB12。此外,在这些的哪个范畴的单词的单词数据都没供给的情况下,使声音输出部5再现读出文章“请回答是或不”的声音,等待供给属于范畴“肯定”或“否定”的单词数据,按照供给的单词数据的范畴,转移处理到判别处理步骤QB10的处理中的各转移目的地的某一个(判别处理步骤QB13)。

在输入输出处理步骤SP14中,代理处理部7检索车辆的当前位置附近的饭店,向导航部61供给示出检索到的饭店的名称的数据,发送指示显示车辆在地图上的当前位置和在该地图上示出该饭店的位置的信息的控制信号。然后,导航部61一供给饭店的名称,代理处理部7就使声音输出部5读出该名称。另一方面,导航部61显示车辆在地图上的当前位置和在该地图上示出该饭店的位置的信息,开始向该饭店的导向(步骤EX5)。

在判别处理步骤QB12中,代理处理部7使声音输出部5读出文章“检索过去经验DB吗?”,等待供给属于范畴“肯定”或“否定”的单词数据,一供给适合的单词数据,就判别属于哪个范畴。然后,若判别为属于“肯定”,就转移处理到输入输出处理步骤SP15,若判别为属于“否定”,就转移处理到判别处理步骤QB11。此外,在这些的哪个范畴的单词的单词数据都没供给的情况下,使声音输出部5再现读出文章“请回答是或不?”的声音,等待供给属于范畴“肯定”或“否定”的单词数据,按照供给的单词数据的范畴,转移处理到判别处理步骤QB12的处理中的各转移目的地的某一个(判别处理步骤QB14)。

在输入输出处理步骤SP15中,代理处理部7以过去经验数据库例如导航部61供给的信息所示出的车辆的当前位置为检索关键字进行检索,使声音输出部5读出检索到的饭店的名称。然后,代理处理部7向导航部61发送指示显示车辆在地图上的当前位置和示出检索到的饭店在该地图上的位置的信息的控制信号。导航部61显示车辆在地图上的当前位置和在该地图上示出该饭店的位置的信息,开始向该饭店的导向(步骤EX6)。

在判别处理步骤QB11中,代理处理部7使声音输出部5读出文章“那么,日餐、西餐和中餐哪个好?”,等待供给表示单词“日餐”、“西餐”或“中餐”的单词数据,一供给适合的单词数据,就判别是哪个单词。然后,若判别为是“日餐”,就转移处理到输入输出处理步骤EX51,若判别为是“西餐”,就转移处理到判别处理步骤EX52,若判别为是“中餐”,就转移处理到输入输出处理步骤EX53。此外,在这些的哪个范畴的单词的单词数据都没供给的情况下,使声音输出部5再现读出文章“请回答是日餐、西餐、中餐”的声音,等待供给表示单词“日餐”、“西餐”或“中餐”的单词数据,按照供给的单词数据的范畴,转移处理到判别处理步骤QB11的处理中的各转移目的地的某一个(判别处理步骤QB15)。

在输入输出处理步骤EX51中,代理处理部7以日餐馆数据库、例如导航部61供给的信息所示出的车辆的当前位置为检索关键字进行检索,转移处理到判别处理步骤QB16。再有,代理处理部7在触发取得处理步骤TG51中取得了表示单词“日餐”的单词数据时,也转移处理到输入输出处理步骤EX51。

此外,在输入输出处理步骤EX52中,与输入输出处理步骤EX51同样地检索西餐馆数据库,在输入输出处理步骤EX53中,与输入输出处理步骤EX51同样地检索中餐馆数据库,如图所示地转移处理到判别处理步骤QB17或QB18。再有,代理处理部7在触发取得处理步骤TG52中取得了表示单词“西餐”的单词数据时,也转移处理到输入输出处理步骤EX52。在触发取得处理步骤TG53中取得了表示单词“中餐”的单词数据时,也转移处理到输入输出处理步骤EX53。

在判别处理步骤QB16、QB17或QB18中,代理处理部7使声音输出部5读出在输入输出处理步骤EX51、EX52或EX53中检索到的饭店的名称和促进确认的文章,等待供给属于范畴“肯定”或“否定”的单词数据,一供给适合的单词数据,就判别属于哪个范畴,若判别为属于“肯定”,就转移处理到输入输出处理步骤SP17、SP18或SP19,若判别为属于“否定”,就转移处理到输入输出处理步骤SP16。此外,在这些的哪个范畴的单词的单词数据都没供给的情况下,使声音输出部5再现读出文章“请回答是或不?”的声音,等待供给属于范畴“肯定”或“否定”的单词数据,按照供给的单词数据的范畴,转移处理到判别处理步骤QB16、QB17或QB18的处理中的各转移目的地的某一个(判别处理步骤QB19、QB20或QB21)。

然后,在输入输出处理步骤SP17、SP18或SP19中,代理处理部7使声音输出部5读出文章“进行引导”,向导航部61发送指示显示车辆在地图上的当前位置和示出在输入输出步骤EX51、EX52或EX53中检索到的饭店在该地图上的位置的信息的控制信号。导航部61显示车辆在地图上的当前位置和在该地图上示出该饭店的位置的信息,开始向该饭店的导向(步骤EX8、EX9或EX10)。

另一方面,在输入输出处理步骤SP16中,代理处理部7使声音输出部5读出文章“随便吧。请用Web检索餐馆信息看看吧”。然后,代理处理部7通过自己的通信控制装置向外部的网络进行访问,以当前位置为基准,进行示出饭店的位置的信息的检索(输入输出处理步骤EX7)。然后,一检索出适合的信息,例如,就使导航部61显示车辆在地图上的当前位置和在该地图上示出该饭店的位置的信息。

再有,如上所述,利用声音识别部2对供给到代理处理部7中的单词数据附加得分,由于按照加权系数J与得分S的积S·J成为最大的线路所示出的内容进行处理的转移,因此,有时流程跳转后进行与上述的顺序不同的处理。然后,对于具有成为触发的处理项目作为先行处理项目的线路,若将转移常数k设定为某种程度的高的值,作为结果,该线路的加权系数J也成为高的值,就容易引起跳转,代理处理部7就也能够与突然的话题转换相对应。例如,在识别“肚子饿了”的声音输入,提问“去吃饭吗?”后,用户说了“没兴趣”的情况下,计算与取得单词“没兴趣”的单词数据的处理项目相对应的线路中设定着的单词“没兴趣”的识别得分S与加权系数J的积S·J,此外,也计算与判断处理“去吃饭吗?”相连的线路中设定的单词的得分S与加权系数J的积S·J(当然,也对其他线路分别进行计算)。作为结果,若关于单词“没兴趣”所求得的积示出最大的值,代理处理部7就跳转处理的流程,向取得单词“没兴趣”的单词数据的处理项目的后续处理项目转移。

以上说明的代理装置若恰当地记述示出处理内容的数据和线路,就能够响应用户的自然说话,恰当地判断为了满足用户的需求,对哪个设备加以什么样的控制为好,然后对设备施加遵照判断结果的控制。

再有,该代理装置的结构不限于上述结构。

例如,单词数据库D3不一定仅存储表示单词的数据,也可以将表示由多个单词构成的语句的数据作为单词数据库D3的要素进行存储,也可以将表示单词的一部分或音素的数据作为单词数据库D3的要素进行存储。此外,单词等不一定需要归类在确定的概念下面,在进行归类的情况下,用于进行归类的数据也可以未必取范畴词典的形式。

此外,取代声音识别部2向自然语言分析部3供给识别了用户所说的全部声音的结果,也可以仅识别某确定的单词,直接向代理处理部7供给识别后的单词(字确定(word spotting)方式)。该情况下,该代理装置不需要具有自然语言分析部3。

此外,代理处理部7也可以基于这些多个单词用什么样的组合包含在同一文章中来决定多个单词所属的范畴。该情况下,代理处理部7存储例如图18中示出数据结构的表,最好通过参照该表来决定成组的多个单词的范畴。再有,图18中例示的表示出了例如在同一文章中包含着单词“肚子”和单词“饿了”的情况下,在进行该文章涉及的处理时,将这2个单词作为属于范畴“吃饭”的单词来对待。此外,在同一文章中包含着单词“設定”和单词“目的地”的情况下,在进行该文章涉及的处理时,将这2个单词作为属于范畴“导航设定”的单词来对待。

此外,代理处理部7也可以基于过去执行了该线路所表示的转移的数等,按照规定的基准,使与线路相对应的转移常数k变化,重写线路,使得加权系数J变为基于变化后的转移常数k计算的值。

具体地说,例如,在线路数据库D5中,关于各个线路存储着执行了该线路所表示的转移的次数。然后,代理处理部7每重新进行一次该转移,就通过重写该次数的值来增量1个该次数的值,将与各个线路相对应的转移常数k重写为例如与关于该线路所存储的次数成比例的值。

再有,在上述实施例中说明了线路中设定的条件是对于各个线路所设定的,但不限于此。例如,也可以在判别处理中记述各线路的条件。该情况下,预先确定各条件与哪个线路相对应。

此外,代理处理部7也可以按照被提交到这些处理中的数据、伴随着这些处理而输入的数据和其他任意条件,使在判别处理和输入输出处理中输出的数据进行变化。

此外,该代理装置也可以具有用于按照代理处理部7的控制输出图像的显示装置(例如,液晶显示器等),也可以代理处理部7在输入输出处理和判别处理中控制该显示装置,使得每个处理显示一次规定的图像。

此外,代理处理部7也可以由相互连接的多个数据处理装置(例如,计算机等)构成,这些数据处理装置分担进行由触发取得处理、判别处理、输入输出处理等各种处理和线路形成为整体的流程。该情况下,构成代理处理部7的各个数据处理装置只要存储代理处理部7所能执行的整个流程中的、表示有可能自己执行的部分的数据,作为处理项目数据库和线路数据库的要素就足够了。然后,若各个数据处理装置所存储的数据成为了宏定义了该数据处理装置执行的部分的处理的数据,也就容易使多个数据处理装置进行分散处理。

此外,该代理装置也可以具有多个声音输入部1和自然语言分析部3或者声音输出部5。

此外,声音输入部1也可以具有从例如记录了表示声音的数据的记录媒体(例如,软(注册商标)磁盘、CD、MO等)读出波形信号后供给到自然语言分析部3中的记录媒体驱动装置(例如,软(注册商标)磁盘驱动器、CD-ROM驱动器、MO驱动器等)。

此外,该代理装置不限于例如汽车驾驶导航系统的控制,也可以进行其他设备的控制。从而,可以控制车载设备的控制装置,可以控制空调等空调设备,可以控制利用电动机的动力进行开关的窗的开关、照明的点亮/熄灭、电动雨刷的启动/停止。

此外,也可以控制音响设备。作为音响设备的控制,例如,可以适用于收音机的调谐控制和再现CD、MD、DVD等记录媒体中记录的声音和图像的记录媒体驱动装置的控制。

作为音响设备的控制的具体方式,例如,考虑有使用范畴词典,将构成例如想变更CD播放器再现的乐曲的用户有可能用于指示的表现(例如,“变更曲目”“另外的曲目”“不同的曲目”等)的单词的组合(例如,“曲目”和“变更”、“另外”和“曲目”、“不同”和“曲目”等)分类为“曲目变更”的范畴,在CD播放器正在再现CD中记录的乐曲时,在发出属于范畴“曲目变更”的单词的组合的声音,从声音识别部2经过自然语言分析部3向代理处理部7供给了表示适合的各单词的单词数据时,代理处理部7与其响应(具体地说,转移到取得属于范畴“曲目变更”的单词数据的范畴处理项目的后续的处理项目)后,向CD播放器发送指示变更再现中的磁道的控制信号等。再有,也可以对于一个线路,与“曲目”的单词一起设定“变更”“另外”“不同”的单词作为条件。这样,就从自然语言分析部3直接对线路设定与输入声音相对应的单词的得分。在从自然语言分析部3供给的单词数据是单词“曲目”和单词“变更”的情况下,对其线路设定各自的得分。然后,基于该设定的得分求该线路的计算结果。该情况下,可以合计各得分,或者也可以求平均值。然后,在将各单词分类为上述的范畴的情况下也同样,但利用在此得到的各得分与线路中设定的加权系数J的乘法来求线路的计算结果,转移状态到该计算结果示出最高值的线路。

此外,作为其他的具体例,考虑有代理处理部7使声音输出部5输出“这个曲子可以吗?”的声音,之后,在供给了属于“肯定”的单词(“嗯”、“好的”“OK”等)或者属于否定的范畴的单词(例如“不”、“错了”、“不行”、“其它的”等)的单词数据时,按照供给的单词数据的范畴,对CD播放器指示乐曲的再现和停止。

[第二实施方式]

根据情况,有时用户发生含糊的表现。例如,“没兴趣”单词可以表现“音乐再现”“曲目变更”“买东西”或者“吃饭”等各种各样的要求。以下关于在发出了这样的含糊的表现的指示时确定该指示的意图的本发明的第二实施方式的代理装置进行说明。

该代理装置的物理结构与例如图1中示出的第一实施方式的结构实质上相同。但是,在该代理装置的输入输出对象设备组6中,加之导航部61和时钟62,还包括着CD播放器。此外,由范畴词典定义的范畴的至少一部分与属于输入输出对象设备组6的至少某个设备建立对应。

在向该代理装置的代理处理部7供给了表示单词“没兴趣”的单词数据的情况下,代理处理部7检索单词“没兴趣”所属的范畴。其结果,例如,假设属于“音乐再现”“曲目变更”“买东西”“吃饭”这4个范畴,接着,代理处理部7从属于输入输出对象设备组6的设备中的、与这些范畴相对应的设备中,取得示出该设备当前的工作状态的信息。

在取得的信息示出了CD播放器还没再现任何声音的情况下,代理处理部7通过使声音输出部5发出例如“放放音乐?或者去买东西?还是去吃饭?”的声音,来促进选择上述4个范畴中的除了“乐曲变更”的“音乐再现”“买东西”“吃饭”3个范畴的某一个。

然后,用户发出“播放CD”或者其他属于范畴“CD再现”的单词或包含这样单词的文章的声音,向代理处理部7一供给属于范畴“CD再现”的单词的单词数据,代理处理部7就向取得属于范畴“CD再现”的单词的单词数据的触发取得处理的后续的处理转移。其结果,使声音输出部5发出例如“再现CD啊”的声音,向CD播放器发送指示声音的再现的控制信号。

此外,用户发出包含单词“嗯”的文章“想听听歌”或者其他属于范畴“音乐”的单词或包含这样单词的文章的声音,向代理处理部7一供给属于范畴“音乐”的单词的单词数据,代理处理部7就向取得属于范畴“音乐”的单词的单词数据的触发取得处理的后续的处理转移。

同样地,用户发出属于范畴“吃饭”的单词或包含这样单词的文章的声音,向代理处理部7一供给属于范畴“吃饭”的单词的单词数据,代理处理部7就向取得属于范畴“吃饭”的单词的单词数据的触发取得处理的后续的处理转移。该情况下,转移状态到如图11所示的QB3。

再有,在示出属于输入输出对象设备组6的设备的当前的工作状态的信息示出了CD播放器再现着声音的情况下,代理处理部7通过使声音输出部5发出例如“是变更曲目?还是买东西?还是去吃饭?”的声音,来促使选择上述4个范畴中的除了“音乐再现”的“曲目变更”、“买东西”、“吃饭”3个范畴的某一个。

通过进行以上说明的工作,本发明的第二实施方式的代理装置基于示出用户的含糊指示的声音,恰当地确定用户的意图。

[第三实施方式]

上述的各实施方式的代理装置确切地判断用户的要求,此外,从含糊的指示具体地导出用户的要求进行设备的控制。但是,作为用户,不仅判断自己单方发出的要求,而且有时必须要有谈话的人。例如,考虑一个人驾驶汽车的用户很多情况下都有这样的感觉。但是,若在驾驶汽车时使用便携式电话进行交谈,就有危险并且通话费增多的问题。

若代理装置成为用户的谈话对象,就解决了这样的问题。以下说明实现与用户的会话的本发明的第三实施方式涉及的代理装置。

该代理装置的物理结构实质上与例如上述的第一实施方式的结构相同。但是,该代理装置的输入输出对象设备组6包括有接收FM多重广播后抽出文字信息,随时供给到代理处理部7中的收音机接收机、或者通过外部的通信线路取得文字信息后随时供给到代理处理部中的终端的接收机,代理处理部7在自己的非易失性存储器中累积该收音机接收机或者终端所供给的文字信息。然后,在读出累积的文字信息时,生成并存储示出已进行了读出的数据。

然后,一执行取得例如表示单词“有什么新闻吗?”的单词数据的触发取得处理,就执行例如以下说明的处理,作为该触发取得处理的后续的处理。

例如,自己的非易失性存储器中累积的文字信息中一有还未读出的信息,代理处理部7就使声音输出部5发出读出通知该文字信息的种类的报文(例如,“有关于体育和社会经济的新闻”等)的声音。

再有,若接收到的文字信息中有预先示出分类的信息,就基于此信息确定该文字信息的种类。在没有的情况下,代理处理部7基于该文字信息的内容进行判断。具体地说,例如,在包含“○○党的干部因为贪污而不得已进行更换…”等的内容的文字信息中,基于“○○党”、“贪污”的单词判断为是社会类报导。同样地,在包含“根据○○株式会社发表的发表决算,该公司的股价高涨…”的内容的文字信息中,基于“发表决算”“股价”的单词判断为是经济类报导。此外,在包含“足球的○○(队名)在○○(哪个)比赛中胜利,必将获得优胜”的内容的文字信息中,基于“足球”“比赛”“优胜”的单词判断为是体育类报导。

然后,一供给用户发出的表示文章“请告诉体育新闻”的单词数据的集合,代理处理部7就使声音输出部5发出读出自己累积的文字信息中的、还未读出的反映了体育类报导的文章(例如,“足球的○○(队名)在○○(哪个)比赛中胜利,必将获得优胜”等)的声音。

再有,在新闻等中接收的文字信息多数在文章中使用“已经”等表现,与通常的会话不相称。因此,最好不原样读出文字信息,而如上所述地将文章的语尾置换为“呀(んだつて)”等、使用在朋友之间的会话的语尾中的词语。

此外,代理处理部7也可以在使声音输出部5读出文字信息时,首先仅读出文字信息的一部分(例如,起首的段落),等待用户发出请求该文字信息的详细内容的声音(例如,询问“有更详细的信息吗?”的声音,在发出了以后,与其响应读出剩余的部分。

此外,代理处理部7响应用户发出请求该文字信息的详细内容的声音,检索自己累积的文字信息,判别是否已经读出全文,在判别为已读出的情况下,输出“就这些”的声音,此外,在有详细部分的情况下,在输出了“有,那么就读出全文”的声音之后,输出读出适合的详细部分的声音。

此外,也可以在用户发出了包括对于使声音输出部5读出的文字信息的提问的声音时,代理处理部7对此响应,从自己累积的文字信息中检索出能成为该提问的回答,使声音输出部5读出。例如,在用户发出了“在与哪儿的比赛中获胜”的提问时,检索解说该比赛的结果的文字信息,若检索出来,就读出该文字信息等。此外,也可以在提问“下一次的比赛是什么时候?”的情况下,检索解说下一次比赛的日程的文字信息,若检索出来,就读出它等。

然后,其结果,在用户进一步提问“有入场券吗?”等,代理处理部7就基于此前的与用户的会话内容,确定“队名”和“比赛日”,在使声音输出部5发出了例如“请稍等”的声音后,通过外部的网络等与售票处连接,询问有无适合的入场券。

其结果,在得到了还可以购买该入场券的回答的情况下,代理处理部7就通过使声音输出部5读出“现在还有。○座位○○日元,买吗?”等说明入场券的销售状况的声音,促使用户回答。对此,在用户回答了“购买”“订购”“买”等表示肯定的单词的情况下,响应表示该单词的单词数据,转移到帮助买票的处理(例如,帮助转帐等周知的处理)。

另一方面,在得到了入场券已售完的回答的情况下,代理处理部7使声音输出部5读出“真遗憾,已经满员”等文章,结束一系列的处理,除此以外若还有未输出的文字信息,就转移到输出该文字信息的处理。

通过进行以上说明的工作,本发明的第三实施方式的代理装置不仅进行用户所期望的控制,而且实现与用户的会话。再有,上述的代理装置与用户的会话也可以适用于音响装置中。例如,音响装置基于用户通过因特网等预先登记的艺术家条件,取得信息后存储在存储器中。基于艺术家条件分类取得的信息。然后,用户一询问“有新信息吗?”等,代理装置就检索存储器内容,若有还未提示的信息,就利用声音输出进行提示。当然,这时也可以伴有影像信息。例如,若该新信息是有关新唱片集的信息,代理装置就进一步向用户确认该唱片集的购买,向因特网CD商店取得购买手续,以便一取得了解就购买它。此外,同样地,若是音乐会信息,代理装置就向用户确认该音乐会的入场券的购买,向因特网CD商店取得购买手续,以便一取得了解就购买它。再有,基于上述实施例进行这些声音识别处理等。

以上说明了本发明的实施方式,但通过组合实施如上述实施方式中示出的以下的某些处理,能恰当地识别用户所说的各种各样的表现的声音,执行相对应的处理。

1.对各线路设定在该线路中作为相同意思来对待的单词作为多个条件。

2.对各线路设定一个或多个单词被分类的范畴。

3.对各线路设定不同意思的单词或范畴作为多个条件。

4.在同一文章(输入声音)中包含着多个单词的情况下,通过仅将这些单词共同所属的范畴作为这些单词所属的范畴进行处理,就能根据文章的前后关系掌握说出这些单词的意图。

5.将单词数据所具有的范畴作为该单词数据的意思来进行处理。

6.在触发取得处理中取得的数据是单词数据的情况下,取代该单词数据所表示的单词,线路中设定的条件记述归类了该单词数据所表示的单词的范畴。

7.在不能判别输入的声音的意思时,促进用更容易判别的表现的输入。

8.基于从外部取得的信息,变更对用户提示的内容。

再有,本发明涉及的设备控制装置可以不依靠于专用的系统,而使用通常的计算机系统来实现。

例如,通过从存储了用于执行上述的声音输入部1、自然语言分析部3、声音合成处理部4、声音输出部5和代理处理部7的工作的程序的记录媒体,向与输入输出对象设备组6连接的个人计算机安装该程序,就能够构成执行上述处理的代理装置。然后,作为相当于图1的代理装置的工作的处理,执行该程序的个人计算机执行例如图9(a)中示出的流程。

再有,也可以向例如通信线路的布告板(BBS)上载让个人计算机进行上述代理装置的功能的程序,通过通信线路传输它,此外,也可以利用表示该程序的信号调制载波,传输得到的调制波,接收到了该调制波的装置解调调制波后复原该程序。然后,启动该程序,在OS的控制下,通过与其他应用程序同样地执行,就能够执行上述的处理。

再有,在OS分担一部分处理的情况下,或者,在OS构成本发明的一个结构要素的一部分的情况下,也可以在记录媒体中存储除了该部分以外的程序。该情况下,在本发明中,在其记录媒体中也存储着用于执行计算机所执行的各功能或者步骤的程序。

本发明包括在2003年12月26日申请的、基于特愿2003-436976的说明书、专利请求的范围、附图和请求书。在本说明书中包括上述申请中的公开的整体作为参照。

工业上的可利用性

本发明可以利用于能够恰当地响应人用语言的形式发出的指示后控制设备的各种各样的设备控制装置等。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号