首页> 中国专利> 交流支持程序、交流支持方法、交流支持系统、终端装置以及非语言表达程序

交流支持程序、交流支持方法、交流支持系统、终端装置以及非语言表达程序

摘要

一种支持用户的交流的交流支持程序,所述交流支持程序使计算机执行如下步骤:使能标识交流对象的标识信息和表示交流对象的状态的状态动画一体地显示。

著录项

  • 公开/公告号CN114787759A

    专利类型发明专利

  • 公开/公告日2022-07-22

    原文格式PDF

  • 申请/专利权人 住友电气工业株式会社;

    申请/专利号CN202180004742.X

  • 申请日2021-03-12

  • 分类号G06F3/0484;G06F3/16;G06T13/80;G10L15/00;G10L15/10;H04M1/00;H04M3/56;

  • 代理机构北京品源专利代理有限公司;

  • 代理人吕琳;朴秀玉

  • 地址 日本大阪府大阪市

  • 入库时间 2023-06-19 16:04:54

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-22

    公开

    国际专利申请公布

说明书

技术领域

本公开的一个方面涉及交流支持程序、交流支持方法、交流支持系统、终端装置以及非语言表达程序。

本申请主张基于2020年10月14日提出申请的日本申请第2020-173201号的优先权,并援引记载于所述日本申请的全部记载内容。

背景技术

关于使用计算机的交流,例如日本特开2015-38725号公报(专利文献1)公开一种讲话动画生成装置,该讲话动画生成装置使用预先准备的声学模型、语言模型以及多个音位(phoneme)与多个视位(viseme)之间的对应表对语音信号逐渐地进行语音识别来生成视位序列,使视位序列平滑化来生成多个视位的每一个的混合权重,并按照多个视位的每一个的混合权重来对与多个视位分别对应的多个脸部模型进行混合,由此生成脸部图像。

现有技术文献

专利文献

专利文献1:日本特开2015-38725号公报

发明内容

本公开的一个方面的交流支持程序支持用户的交流,所述交流支持程序使计算机执行如下步骤:使能标识一个或多个交流对象的标识信息和表示交流对象的状态的状态动画一体地显示。

附图说明

图1是表示第一实施方式的交流支持系统的概略构成的例子的图。

图2是表示由第一实施方式的交流支持系统提供的交流的例子的图。

图3是表示终端和服务器的功能块的例子的图。

图4是表示动画的动作的一个例子的图。

图5是表示动画的动作的一个例子的图。

图6是表示动画的动作的一个例子的图。

图7是表示动画的动作的一个例子的图。

图8是表示交流支持系统的动作的时序图。

图9是表示终端的动作的流程图。

图10是表示由变形例的交流支持系统提供的交流的例子的图。

图11是表示变形例的交流的例子的图。

图12是表示变形例的交流的例子的图。

图13是表示变形例的动画的动作的一个例子的图。

图14是表示变形例的动画的动作的一个例子的图。

图15是表示显示给用户的画面的一个例子的图。

图16是表示显示给用户的画面的一个例子的图。

图17是表示显示给用户的画面的一个例子的图。

图18是表示显示给用户的画面的一个例子的图。

图19是表示变形例的动画的动作的一个例子的图。

图20是表示变形例的动画的动作的一个例子的图。

图21是表示变形例的动画的动作的一个例子的图。

图22是表示角色的动作的图。

图23是表示角色的动作的图。

图24是表示变形例的角色的图。

图25是表示变形例的交流的例子的图。

图26是表示变形例的角色的图。

图27是表示变形例的角色的图。

图28是表示变形例的交流的例子的图。

图29是表示变形例的交流的例子的图。

图30是表示变形例的交流的例子的图。

图31是表示变形例的角色的图。

图32是表示由第二实施方式的交流支持系统提供的交流的例子的图。

具体实施方式

[本公开所要解决的问题]

近年来,远程办公不断扩大,进行视频会议(WEB会议)的机会不断增加。在利用视频会议时,从通信环境(频带限制等)、隐私的观点考虑,有时不使用摄像机而仅通过语音参加会议。在该情况下,会在各用户的终端显示正在参加会议的用户的图标等。因此,难以识别(掌握)通话对方是否对讲话表现出关心等状态/状况。因此,难以谋求顺畅的交流。

本公开的一个方面的目的在于,提供能实现顺畅的交流的交流支持程序、交流支持方法、交流支持系统、终端装置以及非语言表达程序。

[本公开的效果]

根据本公开的一个方面,能实现顺畅的交流。

[本公开的实施方式的说明]

首先,列举本公开的实施方式的内容来进行说明。也可以将以下记载的实施方式的至少一部分任意地组合。

本公开的一个实施方式的交流支持程序支持用户的交流,所述交流支持程序使计算机执行如下步骤:使能标识一个或多个交流对象的标识信息和表示交流对象的状态的状态动画一体地显示。

在本公开的一个实施方式的交流支持程序中,使标识信息和表示交流对象的状态的状态动画一体地显示。由此,在交流支持程序中,能识别交流对象的状态。因此,在交流支持程序中,能实现顺畅的交流。

在一个实施方式中,也可以是,状态动画是以与交流对象的实际的动作部位不同的形态表现了交流对象的状态的动画。在该构成中,通过设为以不同的形态表现(渲染(rendering))出的动画,能设为简单的动画。因此,用户能容易地掌握交流对象的状态。

在一个实施方式中,也可以是,状态动画以从标识信息的显示区域突出的方式被显示于该显示区域的外侧。在该构成中,能明确地区分标识信息和状态动画,并且能易于理解状态动画的动作。

在一个实施方式中,也可以是,状态动画以附随于标识信息的显示区域的方式被显示于该显示区域的周围。在该构成中,能明确地区分标识信息和状态动画,并且能易于理解状态动画的动作。

在一个实施方式中,也可以是,使状态动画的显示形态根据交流对象的状态来变形。在该构成中,通过使状态动画变形(transform),能增加表现交流对象的状态的变化(variation)。因此,能更准确地掌握交流对象的状态。

在一个实施方式中,也可以是,状态动画是模拟了耳朵的动画,根据交流对象的状态的变化来进行动作。例如,在状态动画是交流对象的脸部动画的情况下,必须在画面上根据脸部的微妙的变化来读取感情的变化等。此外,必须关注脸部动画的各种各样的部位的动作,因此并不容易掌握用户的状态。在一个实施方式中,用户的状态的变化通过模拟了耳朵的状态动画的动作来表现,因此仅关注状态动画即可。因此,能容易地掌握交流对象的状态。

在一个实施方式中,也可以是,使标识信息、状态动画以及根据交流对象的状态的变化来进行动作并且模拟了胳膊、手以及腿中的至少一个的动画一体地显示。由此,除了显示有模拟了耳朵的动画之外,还显示有模拟了胳膊、手以及腿中的至少一个的动画,因此能更准确地掌握交流对象的状态。

在一个实施方式中,也可以是,使状态动画的动作根据交流对象的属性来变更。在该构成中,通过根据属性例如国籍来变更状态动画的动作,能避免由于文化的差异而产生误解。如此,能应对不同的各种各样的文化,因此能实现顺畅的交流。

在一个实施方式中,也可以是,使状态动画基于所设定的动作强度和动作速度中的至少一个来进行动作。在该构成中,例如,即使在不善于感情表达的情况下,也能通过适当设定动作强度、动作速度来强化并传达自身的状态。因此,能有效地将状态传达给对方。

在一个实施方式中,也可以是,标识信息包括表示交流对象的图像和表示交流对象的文本中的至少一个。在该构成中,能一眼识别出交流对象。

在一个实施方式中,也可以是,状态动画根据用户的感情、用户的动作、用户的语音、交流对象的感情、交流对象的动作以及交流对象的语音中的至少一个来进行动作。在该构成中,能识别交流对象的感情、动作。

在一个实施方式中,也可以是,状态动画根据用户与交流对象的对话状态来进行动作。在该构成中,能使状态动画根据用户与交流对象的对话状态来进行动作。由此,例如,在交流对象是AI助手的情况下,能使交流对象的状态动画针对用户的发言而进行动作。

在一个实施方式中,也可以是,规定的话语与状态动画的动作模式建立了对应,在发出了规定的话语的情况下,使状态动画基于与规定的话语对应的动作模式来进行动作。在该构成中,规定的话语(包括文字、语音)与状态动画的动作模式预先建立了对应,因此能使适合于用户的状态的状态动画准确且迅速地显示。

在一个实施方式中,也可以是,动作模式选自预先设定的标准动作模式和预先制作出的制作模式中的至少一个并与规定的话语建立对应。在该构成中,能任意地设定状态动画的动作模式。

在一个实施方式中,也可以是,状态动画根据来自交流对象的输入来进行动作。在该构成中,能通过交流对象(例如,通话对方)的键操作等来使状态动画进行动作,因此能更准确地掌握交流对象的状态。

在一个实施方式中,也可以是,输入包括可穿戴传感器的检测结果。在该构成中,状态动画根据可穿戴传感器的检测结果来进行动作。因此,能将交流对象的实际的动作反映至状态动画。

在一个实施方式中,也可以是,输入包括对由交流对象操作的设备的操作结果,使状态动画的动作根据设备的操作时间来变化。在该构成中,能更准确地使交流对象的状态反映至状态动画。因此,能更准确地掌握交流对象的状态。

在一个实施方式中,也可以是,使图画文字、预先设定的图像以及文本中的至少一个与状态动画一体地显示。在该构成中,能通过图画文字等来更准确地掌握交流对象的状态。

在一个实施方式中,也可以是,由显示有标识信息的主体和状态动画构成角色,使通过三维的计算机制图描绘出的角色显示。在该构成中,通过三维的角色来显示交流对象的状态,因此能更准确地掌握交流对象的状态。

在一个实施方式中,也可以是,在角色显示阴影,使显示于角色的阴影根据交流对象的状态来变化。在该构成中,通过阴影来表现交流对象的状态,因此能更准确地掌握交流对象的状态。

在一个实施方式中,也可以是,使显示有角色的空间的观察视点根据用户的操作来变更。在该构成中,用户能自由地变更观察视点。

在一个实施方式中,也可以是,使角色的位置和大小中的至少一个根据用户的操作和用户的语音中的至少一个来变更。在该构成中,用户能自由地变更角色的位置、大小。

在一个实施方式中,也可以是,使由传感器检测到的与用户和交流对象中的至少一个的视线相关的信息、标识信息以及状态动画一体地显示。在该构成中,能确认用户或交流对象的视线位于何处。

在一个实施方式中,也可以是,与视线相关的信息包括视线发送信息,该视线发送信息表示用户的视线存在于包含标识信息和状态动画的规定的区域上,使视线发送信息、标识信息以及状态动画一体地显示。在该构成中,能确认用户将视线朝向了交流对象。

在一个实施方式中,也可以是,与视线相关的信息包括视线接收信息,该视线接收信息表示交流对象的视线存在于交流对象包含用户的标识信息和状态动画的规定的区域上,使视线接收信息、标识信息以及状态动画一体地显示。在该构成中,能确认交流对象的视线。

在一个实施方式中,也可以是,使计算机执行如下步骤:基于由传感器检测到的交流对象的语音数据和由传感器检测到的表示交流对象的样态的样态数据中的至少任一个来推定交流对象的状态;基于交流对象的状态来生成用于对状态动画的动作进行控制的控制数据;以及输出控制数据。在该构成中,输出用于对状态动画的动作进行控制的控制数据,因此,与输出与交流对象的状态相关的全部数据的情况相比,能减小从终端输出(发送)的数据容量。因此,即使在通信速度慢或者大容量的数据通信无法进行的通信环境下,也能在使用终端进行的通话中实现顺畅的交流。

在一个实施方式中,也可以是,使计算机执行如下步骤:基于由传感器检测到的交流对象的语音数据和由传感器检测到的表示交流对象的样态的样态数据中的至少任一个来推定交流对象的状态;以及输出与推定出的交流对象的状态相关的状态数据。在该构成中,能谋求终端的处理负担的减小。

在一个实施方式中,也可以是,基于语音数据和样态数据中的至少一个来设定状态动画的动作的形态。在该构成中,能适当地设定与交流对象的状态相应的状态动画的动作的形态。

在一个实施方式中,也可以是,基于语音数据和样态数据中的至少一个来设定状态动画的动作的速度。在该构成中,能适当地设定与交流对象的状态相应的状态动画的动作的速度。

在一个实施方式中,也可以是,在推定交流对象的状态的步骤中,使用已学习模型来推定交流对象的状态,已学习模型在被输入语音数据和样态数据中的至少任一个时,输出交流对象的状态。在该构成中,能高精度地推定交流对象的状态。

在一个实施方式中,也可以是,使计算机执行如下步骤:使讲话动画与讲话者的标识信息一体地显示,该讲话动画是基于讲话者的语音数据的讲话动画并且与状态动画不同,讲话动画根据讲话者的讲话的样态来进行动作。在该构成中,能一眼识别出讲话者,并且能通过讲话动画来识别讲话者的讲话状态。

在一个实施方式中,也可以是,使计算机执行如下步骤:使能标识用户的标识信息和表示该用户的状态的状态动画一体地显示。在该构成中,用户能确认自身的状态动画。此外,由于用户和交流对象各自的状态动画被一起显示,因此能带来用户和交流对象存在于同一空间这样的印象,能实现具有临场感、一体感的会话。其结果是,能实现顺畅的交流。

在一个实施方式中,也可以是,使交流对象的标识信息以及该交流对象的状态动画与用户的标识信息以及该用户的状态动画以相同的尺寸显示。在该构成中,通过以相同的尺寸进行显示,能更进一步带来用户和交流对象存在于同一空间这样的印象,因此能更进一步实现具有临场感、一体感的会话。

在一个实施方式中,也可以是,使由显示有标识信息的主体和状态动画构成并且通过三维的计算机制图描绘出的角色显示,在存在多个交流对象的情况下,显示为用户的角色背过身。在该构成中,容易看到交流对象的角色的状态动画,因此能准确地掌握交流对象的状态。

在一个实施方式中,也可以是,使由显示有标识信息的主体和状态动画构成并且通过三维的计算机制图描绘出的角色显示,使角色基于由传感器检测到的与用户和交流对象的视线相关的信息、用户和交流对象的语音以及由用户进行的操作来进行动作。在该构成中,角色根据用户等的视线、呼唤来进行动作。因此,能实现具有一体感的会话。

在一个实施方式中,也可以是,使用户的角色和交流对象的角色以面对面的方式进行动作。在该构成中,角色彼此面对面地进行会话,因此能实现具有一体感的会话。

在一个实施方式中,也可以是,使标识信息和状态动画显示在赛博空间中。在该构成中,能使标识信息和状态动画显示于在VR(Virtual Reality:虚拟现实)、AR(AugmentedReality:增强现实)、MR(Mixed Reality:混合现实)等中实现的赛博空间(虚拟空间)。

在一个实施方式中,也可以是,使状态动画进行动作来作为交流对象的基本生物体存在信息。在该构成中,例如,即使在交流对象未进行讲话或者未进行动作的情况下,也能通过状态动画的动作来传递交流对象的存在。因此,能使用户得知交流对象的存在。

在一个实施方式中,也可以是,交流对象是通过人工智能来进行动作的AI助手。在该构成中,能实现与AI助手的顺畅的交流。

在一个实施方式中,也可以是,状态动画不包含动态变化的脸部表情。若如化身等那样模仿交流对象等的脸部来制作状态动画并表现为动态变化的脸部表情,则会受到恐怖谷(uncanny valley)的影响。此外,在包括动态变化的脸部表情的情况下,需要大量的传输容量。相对于此,由于状态动画不包含动态变化的脸部表情,因此不会带来恐怖的印象。此外,能减小传输容量。

在一个实施方式中,也可以是,在交流对象正在沉默的情况下,在状态动画中使颜色变化。在该构成中,能通过状态动画来识别交流对象由于思索等而正在沉默。

在一个实施方式中,也可以是,在规定的定时使在状态动画中使用过的动作模式的使用状况显示。在该构成中,通过在规定的定时(例如,交流中、交流结束后)显示状态动画的动作模式的使用状况(使用履历),能确认用户和交流对象的反应的倾向等。

在一个实施方式中,也可以是,使用户和交流对象的动作模式的使用比例和与时间轴对应的动作模式的使用频度的变化中的至少一个作为使用状况来显示。在该构成中,能通过各种各样的方案来确认使用状况。

本公开的一个实施方式的交流支持方法支持用户的交流,所述交流支持方法包括如下步骤:使能标识交流对象的标识信息和表示交流对象的状态的状态动画一体地显示。

在本公开的一个实施方式的交流支持方法中,使标识信息和表示交流对象的状态的状态动画一体地显示。由此,在交流支持方法中,能识别交流对象的状态。因此,在交流支持方法中,能实现顺畅的交流。

本公开的一个实施方式的交流支持系统支持用户的交流,所述交流支持系统具备控制部,该控制部使能标识交流对象的标识信息和表示该交流对象的状态的状态动画一体地显示。

在本公开的一个实施方式的交流支持系统中,控制部使标识信息和表示交流对象的状态的状态动画一体地显示。由此,在交流支持系统中,能识别交流对象的状态。因此,在交流支持系统中,能实现顺畅的交流。

本公开的一个实施方式的终端装置支持用户的交流,所述终端装置具备控制部,该控制部使能标识交流对象的标识信息和表示该交流对象的状态的状态动画一体地显示。

在本公开的一个实施方式的终端装置中,控制部使标识信息和表示交流对象的状态的状态动画一体地显示。由此,在终端装置中,能识别交流对象的状态。因此,在终端装置中,能实现顺畅的交流。

[本公开的实施方式的详情]

以下,参照附图对本公开的实施方式的具体例进行说明。本公开并不限定于这些示例而是由权利要求书示出,意图在于包括与权利要求书等同的含义和范围内的所有变更。在附图的说明中对相同的要素标注相同的附图标记,并省略重复的说明。

·第一实施方式

图1是表示第一实施方式的交流支持系统(以下,有时也仅称为“系统”。)的概略构成的例子的图。系统100是支持交流的计算机系统。交流的例子是视频会议、诊察、咨询(counselling)、面试(人物评价)、远程办公等伴有与其他用户的通话的交流。

<系统的构成>

系统100包括终端(终端装置)10、终端20以及终端30。在图1所示的例子中,终端10是用户U1所使用的膝上型的个人计算机(PC:Personal Computer)。终端20是用户U2所使用的便携式电话机(智能手机等)。终端30是用户U3所使用的台式的PC。终端10、终端20以及终端30能与网络N连接。在该例子中,终端10经由接入点AP连接于网络N,终端20经由基站BS连接于网络N,终端30通过有线(未图示)连接于网络N。除了上述的PC、便携式电话机以外,还可以将平板电脑终端、可穿戴终端、头戴式显示器(HMD:Head Mounted Display)终端等各种各样的终端用作终端10、终端20以及终端30。需要说明的是,系统100中所包括的终端的数量不限定于图1的例子。

系统100包括服务器40。服务器40连接于网络N。因此,终端10、终端20、终端30以及服务器40能经由网络N相互通信。需要说明的是,系统100中所包括的服务器的数量不限定于图1的例子。

网络N的构成不被限定。例如,网络N可以被构成为包括因特网(公用网)、通信载波网络、运营商网络等。

图2是表示由系统100提供的交流的例子的图。交流在通过计算机表现的通话画面G(输出部15)中进行。通话画面G显示于终端10、终端20以及终端30,由此被呈现给用户U1、用户U2以及用户U3。用户U1、U2、U3彼此是交流对象。在图2所示的例子中,用户U1的角色C1、用户U2的角色C2以及用户U3的角色C3作为交流的参加者出现在通话画面G中。在图2中示出了用户U1为讲话状态。

角色C1、C2、C3在通话画面G中表示用户U1、U2、U3。角色C1、C2、C3是动态的角色。角色C1、C2、C3由独立于用户U1、U2、U3的实际的图像(拍摄数据等)的图像素材生成。图像素材是用于生成动画角色的素材。角色C1、C2、C3可以通过二维或三维的计算机制图(CG:Computer Graphic)来描绘。

角色C1、C2、C3被构成为包括图标B和耳朵动画E。在角色C1、C2、C3中,图标B和耳朵动画E在通话画面G中被一体地显示。被一体地显示是指,在看到角色C1、C2、C3时,在视觉上图标B和耳朵动画E被识别为一个整体。即,被一体地显示是指,是能一眼识别出图标B与耳朵动画E有关联(对应)的状态即可。因此,被一体地显示是指,既可以是图标B与耳朵动画E接触的状态,也可以是图标B与耳朵动画E分离的状态。

图标B是能标识作为通话对方的用户的标识信息。图标B包括表示用户的图像和表示用户的文本中的至少一个。在图2所示的例子中,图标B呈圆形,包括能标识用户的文本(“A”、“B”、“C”)。文本显示于图标B的显示区域。在本实施方式中,也可以说显示区域呈圆形。在本实施方式中,例如,在图标B中显示的“A”表示用户U1,在图标B中显示的“B”表示用户U2,在图标B中显示的“C”表示用户U3。图标B的形状也可以是其他形状。图标B也可以包括用户所设定的图像(脸部照片等)。图标B可以由用户自由地选择和设定。

耳朵动画E是表示用户的状态的状态动画。状态动画是以与用户的实际的动作部位不同的形态表现了用户的状态的动画。状态动画不包含动态连续地变化的脸部表情。即,状态动画不包含根据用户的状态而变化的脸部表情。状态动画以从图标B的显示区域突出的方式被显示于该显示区域的外侧。耳朵动画E是模拟了动物(例如,兔子等)的耳朵的动画,根据用户的状态的变化来进行动作。耳朵动画E根据用户的感情和动作中的至少一个来进行动作。用户的感情是指例如高兴、惊讶等。用户的动作是指例如视线(视线移动)、姿势、示意动作(gesture)、表情等。耳朵动画E例如进行伸缩、折弯、摆动等动作。

角色C1(C2、C3)被构成为还包括讲话动画H。在角色C1(C2、C3)中,图标B、耳朵动画E以及讲话动画H在通话画面G中被一体地显示。讲话动画H是基于讲话者(说话者)的语音数据的动画。讲话动画H根据讲话者的讲话的样态来进行动作。讲话动画H例如进行左右伸缩的动作。

图3是表示终端10、终端20、终端30以及服务器40的功能块的例子的图。终端20和终端30的功能块与终端10的功能块相同,因此以下对终端10和服务器40进行说明。首先对终端10进行说明,接着对服务器40进行说明。

<终端的构成>

终端10包括输入部11。输入部11是被输入用户U1的语音数据和图像数据的部分。输入部11也可以被输入用户U1的影像数据。影像包括用户U1的语音数据和图像数据。

终端10包括控制部12。控制部12是生成用户U1的控制数据的部分。用户U1的控制数据基于输入至输入部11的用户U1的语音数据和图像数据而生成。图像数据由连续的多个单位帧构成。单位帧通常包括用户U1的图像信息。例如60帧/秒的图像数据在一秒钟包括60个单位帧。

控制部12基于用户U1的语音数据(语言数据)和表示用户U1的样态的样态数据中的至少任一个来推定用户U1的状态。用户U1的样态至少包括非语言行为。非语言行为是不使用语言的行为。用户U1的样态是例如视线(视线移动)、姿势、示意动作、表情等。脸部的姿势或动作的例子是点头、摇头、歪头等。上半身的姿势或动作的例子是躯体的朝向、肩的扭转、肘的折弯、手的举放等。手指的活动的例子是拍手、伸展、弯曲、外展、内收等。表情的例子是思考、喜悦、惊讶、悲伤、愤怒等。

控制部12基于语音数据和图像数据来推定用户U1的状态。用户U1的状态可以包括用户U1的感情和动作中的至少一个。控制部12根据用户U1的讲话语言的关键词(keyword)、用户U1的感情、用户U1的姿势、用户U1的示意动作、用户U1的语音的节奏(讲话速度)以及用户U1的动作速度等来推定用户U1的状态。

控制部12例如将以下的动作作为触发(trigger)来推定用户U1的状态,并生成控制数据。

·用户U1所发出的关键词(谢谢、对不起、赞成、反对等)

·用户U1的感情识别(高兴、惊讶、思考)

·用户U1的示意动作识别(点头、举手、歪头、拍手)

·用户U1的讲话速度的检测

·用户U1的动作速度的检测

在本实施方式中,控制部12使用已学习模型13L来推定用户的状态。已学习模型13L存储于后述的存储部13。已学习模型13L例如可以通过深度学习来生成。已学习模型13L可以包括多个已学习模型。

控制部12将图像数据输入至第一已学习模型,由此得到基于图像数据的第一推定结果。控制部12将语音数据输入至第二已学习模型,由此得到基于语音数据的第二推定结果。控制部12将第一推定结果和第二推定结果输入至第三已学习模型,由此得到与用户U1的状态相关的推定结果。控制部12基于已学习模型的推定结果来推定用户U1的状态。

控制部12基于推定出的用户U1的状态来生成用于对耳朵动画E和讲话动画H的动作进行控制的控制数据。以下,参照图4~图7对控制部12生成控制数据的一个例子进行说明。

控制部12例如在用户U1的视线正在关注终端10的通话画面G的情况下,生成如下控制数据:如图4的类型A所示,在角色C1的耳朵动画E中,使耳朵立起并且使颜色变化(进行着色)。

控制部12例如在用户U1正在点头或者附和的情况下和/或用户U1进行了规定的发言(“嗯嗯”、“是的”等)的情况下,生成如下控制数据:如图4的类型B所示,在角色C1的耳朵动画E中,使耳朵的上部1/3部分处的前后的折弯反复实施。

控制部12例如在用户U1正在表示高兴这样的感情的情况下和/或用户U1发出了笑声的情况下,生成如下控制数据:如图4的类型C所示,使角色C1绕轴中心小幅度地旋转(振动)规定时间(例如,两秒钟)。

控制部12例如在用户U1正在对其他用户的讲话表示同意的态度的情况下和/或用户U1进行了规定的发言(“赞成”等)的情况下,生成如下控制数据:如图5的类型A所示,在角色C1的耳朵动画E中,使耳朵的上部1/2部分处的前后的折弯反复实施规定次数(例如,两次)。

控制部12例如在用户U1正在思索(歪头等)的情况下和/或用户U1进行了规定的发言(“嗯……”等)的情况下,生成如下控制数据:如图5的类型B所示,使角色C1左右缓慢摆动。

控制部12例如在用户U1正在对其他用户的讲话表示反对(将食指在胸前交叉等)的态度的情况下和/或用户U1进行了规定的发言(“反对”等)的情况下,生成如下控制数据:如图5的类型C所示,在角色C1的耳朵动画E中,使耳朵交叉的状态维持一定时间。

控制部12例如在用户U1正在进行垂首的动作的情况下和/或用户U1进行了规定的发言(“谢谢”、“对不起”等)的情况下,生成如下控制数据:如图6的类型A所示,在角色C1的耳朵动画E中,使耳朵的上部2/3部分处的折弯维持一定时间。

控制部12例如在用户U1正在举手的情况下,生成如下控制数据:如图6的类型B所示,在角色C1的耳朵动画E中,使一个耳朵伸缩。

控制部12例如在用户U1的视线从通话画面G离开了一定时间的情况下,生成如下控制数据:如图6的类型C所示,在角色C1的耳朵动画E中,使耳朵左右倾倒并且使颜色变化(使颜色成为无色)。

控制部12例如在不存在讲话者并且用户U1正在以视线位于通话画面G内的状态沉默的情况下,生成如下控制数据:如图7的类型A所示,在角色C1的耳朵动画E中,使耳朵的颜色缓慢连续地变化。

控制部12例如在用户U1是讲话者的情况下,生成如下控制数据:如图7的类型B所示,在角色C1中,使耳朵动画E的耳朵立起并且使颜色变化,并且使讲话动画H显示。控制部12例如生成如下控制数据:在用户U1的讲话中,讲话动画H左右伸缩。

控制部12能在上述的控制数据中包含对角色C1的动作的节奏进行控制的内容。控制部12生成对耳朵动画E的动作(折弯、伸缩、振动、颜色变化等)调整(设定)了节奏的控制数据。控制部12生成对讲话动画H的动作(伸缩)调整了节奏的控制数据。

控制部12基于语音数据来检测讲话速度,并使基于讲话速度的节奏反映至耳朵动画E和讲话动画H的动作。控制部12可以基于语音模型或声学模型对语音数据进行子词(subword)分割来检测讲话速度。控制部12使基于用户U1的讲话速度的节奏反映至角色C1的耳朵动画E和讲话动画H的动作。

控制部12基于图像数据来检测用户U1的身体的动作(摇晃等)速度,并使基于动作速度的节奏反映至耳朵动画E的动作。控制部12可以基于姿势推定模型来检测关键点(身体的关节点),从时间序列的场景中检测规定时间的间隔下的同一关键点的活动的轨迹,从而检测动作速度。控制部12使基于用户U1的动作速度的节奏反映至角色C1的耳朵动画E的动作。

控制部12也是基于控制数据来对角色C1、C2、C3的动作进行控制的部分。控制部12基于所生成的控制数据和接收到的控制数据来使角色C1、C2、C3显示于通话画面G(参照图2),并且对角色C1、C2、C3的耳朵动画E和讲话动画H的动作进行控制。在本实施方式中,如图2所示,控制部12使角色C1、角色C2以及角色C3以相同的尺寸显示于通话画面G。

控制部12在用户U1是听讲者(听者)的情况下,基于接收到的控制数据来使角色C1的耳朵动画E的动作与基于讲话者的角色C2或角色C3的讲话速度的节奏同步。控制部12在不存在讲话者(用户未进行发言)的情况下,使角色C1、C2、C3的耳朵动画E以规定的节奏(适用于全部用户的角色的节奏)进行动作。

控制部12也是生成通话画面G的影像数据的部分。通话画面G的影像数据包括基于控制数据被控制的角色C1、角色C2以及角色C3的影像数据。除此之外,出现在通话画面G中的各种各样的物体(object)也可以包括在通话画面G的影像数据中。

终端10包括存储部13。存储部13是存储终端10的控制(处理)所需的信息的部分。在图3中,作为存储于存储部13的信息,举例示出了终端程序13P和已学习模型13L。终端程序13P是用于使终端10进行动作的程序,终端程序13P使计算机进行动作以使由控制部12进行的控制等被执行。系统100是交流支持系统,因此终端程序13P也可以称为交流支持程序。

已学习模型13L例如也可以在固定地记录于CD-ROM、DVD-ROM、半导体存储器等有形的记录介质的基础上被提供给终端10。或者,已学习模型13L也可以作为叠加于载波的数据信号经由通信网络被提供给终端10。

终端10包括通信部14。通信部14是经由网络N(参照图1)与终端10的外部装置进行通信的部分。终端10的外部装置的例子是终端20、终端30以及服务器40。通信部14将语音数据和控制部12所生成的控制数据发送至服务器40,或者从服务器40接收语音数据和控制数据。

终端10包括输出部15。输出部15输出通话画面G的影像。通话画面G的影像是基于由控制部12生成的通话画面G的影像数据的影像。

<服务器的构成>

服务器40包括控制部42。控制部42对服务器40的动作进行控制。服务器40包括存储部43。存储部43是存储服务器40的控制所需的信息的部分。在图3中,作为存储于存储部43的信息,举例示出了服务器程序43P和接收数据43S。服务器程序43P是用于使服务器40进行动作的程序,服务器程序43P使计算机进行动作以使由控制部42进行的控制等被执行。接收数据43S是从终端10、终端20以及终端30发送给服务器40的数据,可以包括终端10、终端20以及终端30所生成的控制数据。

服务器40包括通信部44。通信部44是经由网络N(参照图1)与服务器40的外部装置进行通信的部分。服务器40的外部装置的例子是终端10、终端20以及终端30。通信部44从终端10、终端20以及终端30分别接收用户U1的控制数据、用户U2的控制数据以及用户U3的控制数据,或者将终端10、终端20以及终端30所生成的控制数据分别发送至终端10、终端20以及终端30。

<硬件构成>

对与终端10和服务器40的各功能部分有关的硬件构成的例子进行说明。服务器40的通信部44可以使用网卡或无线通信设备来构成,以便能访问网络N。服务器40的控制部42可以使用CPU(Central Processing Unit:中央处理器)、GPU(Graphics Processing Unit:图形处理器)等处理器、时钟以及内置存储器来构成。控制部42也可以被构成为集成了处理器、时钟、内置存储器、存储部43以及通信部44的一个硬件(SoC:System On a Chip:单片系统)。控制部42基于服务器程序43P来进行动作,由此使服务器计算机作为服务器40来进行动作。服务器40的存储部43可以使用闪存、硬盘、SSD(Solid State Disk:固态硬盘)等非易失性存储介质来构成。

终端10的输入部11可以使用麦克风、摄像机等来构成。通过麦克风来获取用户U1的语音。即,麦克风是获取语音的语音传感器的一种。通过摄像机来获取用户U1的图像。即,摄像机是获取图像的图像传感器的一种。而且,输入部11也可以还使用键盘、鼠标、触摸面板这些操作设备来构成。终端10的控制部12可以与服务器40的控制部42同样地构成。控制部12基于终端程序13P来进行动作,由此使通用计算机作为终端10来进行动作。终端10的存储部13可以与服务器40的存储部43同样地构成。终端10的通信部14可以与服务器40的通信部44同样地构成。终端10的输出部15可以使用液晶面板、有机EL(electroluminescence:电致发光)面板等(可以是触摸面板)等显示装置来构成。而且,输出部15也可以还使用扬声器来构成。

<系统的动作>

图8是表示在系统100中执行的处理(交流支持方法)的例子的时序图。图8所示的处理可以在交流持续的期间反复执行。

在步骤S1至步骤S3中,生成控制数据。具体而言,在步骤S1中,终端10生成控制数据。在步骤S2中,终端20生成控制数据。在步骤S3中,终端30生成控制数据。

在步骤S4至步骤S6中,将控制数据发送至服务器40。具体而言,在步骤S4中,终端10将控制数据发送至服务器40。在步骤S5中,终端20将控制数据发送至服务器40。在步骤S6中,终端30将控制数据发送至服务器40。在步骤S7中,将控制数据作为接收数据43S储存于服务器40的存储部43。

在步骤S8至步骤S10中,将控制数据发送至终端10、终端20以及终端30。具体而言,在步骤S8中,服务器40将控制数据发送至终端10。在步骤S9中,服务器40将控制数据发送至终端20。在步骤S10中,服务器40将控制数据发送至终端30。

在步骤S11至步骤S13中,控制角色。具体而言,在步骤S11中,终端10基于在之前的步骤S8中接收到的控制数据来控制角色。由此,显示于终端10的通话画面G中的角色以反映用户U1、用户U2以及用户U3的动作的方式进行动作。终端10使能标识作为通话对方的其他用户的图标B和表示该其他用户的状态的耳朵动画E一体地显示在通话画面中。

在步骤S12中,终端20基于在之前的步骤S9中接收到的控制数据来控制角色。由此,显示于终端20的通话画面G中的角色以反映用户U1、用户U2以及用户U3的动作的方式进行动作。在步骤S13中,终端30基于在之前的步骤S10中接收到的控制数据来控制角色。由此,显示于终端30的通话画面G中的角色以反映用户U1、用户U2以及用户U3的动作的方式进行动作。

图9是表示在终端10、终端20以及终端30中执行的处理(交流支持方法)的例子的流程图。图9所示的处理可以在交流持续的期间反复执行。

在步骤S21中,输入图像数据。在步骤S22中,基于图像数据来进行样态识别(感情识别、示意动作识别)。具体而言,在终端10、终端20以及终端30中,将图像数据输入至已学习模型,得到样态识别的推定结果。已学习模型在被输入图像数据时,输出样态识别的推定结果。在步骤S23中,检测动作速度。

在步骤S24中,输入语音数据。在步骤S25中,基于语音数据来进行语音识别。具体而言,在终端10、终端20以及终端30中,将语音数据输入至已学习模型,得到语音识别的推定结果。已学习模型在被输入语音数据时,输出语音识别的推定结果。在步骤S26中,检测讲话速度。然后,在步骤S27中,生成控制数据。

[效果]

如以上说明过的那样,在本实施方式的系统100中,终端10、终端20以及终端30各自的控制部12使图标B和表示用户U1、U2、U3的状态的耳朵动画E一体地显示在通话画面G中。由此,在系统100中,能识别作为通话对方的其他用户的状态。因此,在系统100中,能在使用终端10、终端20以及终端30进行的通话中实现顺畅的交流。

已知:在交流中,会话中的点头等对讲话、行为的赞同会使与其他用户的共鸣增大,提高协作作业的效率。因此,通过在通话画面G中使耳朵动画E根据用户U1、U2、U3的状态来进行动作,能谋求交流的改善。特别是,在本实施方式的系统100中,控制部12基于语音数据来检测讲话速度,并使基于讲话速度的节奏反映至耳朵动画E和讲话动画H的动作。此外,控制部12基于图像数据来检测用户U1的身体的动作(摇晃等)速度,并使基于动作速度的节奏反映至耳朵动画E的动作。因此,在系统100中,能更确切地掌握用户U1、U2、U3的状态。

此外,包括耳朵动画E的角色C1、C2、C3相对于图画文字、化身以及影像对话具有以下的优越性。与图画文字相比,角色C1、C2、C3的实时性、动态性优异。此外,在化身的情况下,印象会强烈地受该化身的设计影响。此外,若单纯地模仿用户的脸部来制作化身,则会受到恐怖谷的影响。相对于此,角色C1、C2、C3是相同的设计,因此,印象不会受每个用户影响,也不会带来恐怖的印象。此外,在影像通话中,会因为不看摄像机而成为视线不一致的不自然的表情(在摄像机配置于上方的情况下为低头影像等),所以对方恐怕会感到违和感。此外,需要大量的传输容量。相对于此,在角色C1、C2、C3的情况下,能抑制给对方带来违和感,并且还能减小传输容量。

此外,角色C1、C2、C3虽然不具有作为脸部的表情,但以此为特征对有效的交流的生成发挥作用。通过作为不是脸部表情的非语言表达的、耳朵动画E的动作、倾斜来使与无限的脸部表情相当的感受传递。使之成为可能的是与语音、对话的上下文联动的耳朵动画E的视觉动作,是非语言表达的接受者的想象力的活用。通过想象力的活用,能传达深刻的、细微的感受。因此,向与脸部表情不同的动作部位(耳朵动画E)的转换变得重要。

此外,由于表示用户U1、U2、U3的状态的耳朵动画E进行动作,因此,例如,即使在远程讲课等中说话者单方面地讲话那样的状况下,也能得到听者的反应。因此,说话者能采取与听者的反应相应的应对。因此,能实现顺畅的交流。

此外,由于能通过耳朵动画E将用户U1、U2、U3的自身的状态传达给其他用户,因此,即使在不善于通过会话进行的感情表达的情况下,也能将自身的状态传达给对方。如此,能强化非语言表达,因此能实现顺畅的交流。

在本实施方式的系统100中,表示用户U1、U2、U3的状态的状态动画是模拟了耳朵的耳朵动画E,根据用户U1、U2、U3的状态的变化来进行动作。例如,在状态动画是通话对方的用户U1、U2、U3的脸部动画的情况下,必须在通话画面G上根据脸部的微妙的变化来读取感情的变化等。此外,必须关注脸部动画的各种各样的部位的动作,因此并不容易掌握用户U1、U2、U3的状态。在系统100中,用户U1、U2、U3的状态的变化通过模拟了耳朵的耳朵动画E的动作来表现,因此仅关注耳朵动画E即可。因此,能容易地掌握通话对方的状态。

在本实施方式的系统100中,标识信息是显示于通话画面G的图标B,包括表示用户U1、U2、U3的图像和表示用户U1、U2、U3的文本中的至少一个。在该构成中,能在通话画面G中一眼识别出作为通话对方的用户U1、U2、U3。

在本实施方式的系统100中,耳朵动画E根据用户U1、U2、U3的感情和动作中的至少一个来进行动作。在该构成中,能识别作为通话对方的用户U1、U2、U3的感情、动作。

在本实施方式的系统100中,执行如下步骤:基于用户U1、U2、U3的语音数据和表示用户U1、U2、U3的样态的样态数据中的至少任一个来推定用户的状态;基于用户U1、U2、U3的状态来生成用于对耳朵动画E的动作进行控制的控制数据;以及输出控制数据。在该构成中,输出用于对耳朵动画E的动作进行控制的控制数据,因此,与输出与用户U1、U2、U3的状态相关的全部数据的情况相比,能减小从终端10、终端20以及终端30输出(发送)的数据容量。因此,即使在通信速度慢或者无法进行大容量的数据通信的通信环境下,也能在使用终端10、终端20以及终端30进行的通话中实现顺畅的交流。

在本实施方式的系统100中,在推定用户U1、U2、U3的状态的步骤中,使用已学习模型13L来推定用户U1、U2、U3的状态,已学习模型在被输入语音数据和样态数据中的至少任一个时,输出用户的状态。在该构成中,能高精度地推定用户U1、U2、U3的状态。

本实施方式的系统100执行如下步骤:使讲话动画H与讲话者的图标B一体地显示于通话画面G,该讲话动画H是基于讲话者的语音数据的讲话动画H并且与耳朵动画E不同。讲话动画H根据讲话者的讲话的样态来进行动作。在该构成中,能一眼识别出讲话者,并且能通过讲话动画H来识别讲话者的讲话状态。

在本实施方式的系统100中,例如,使用户U1的角色C1、用户U2的角色C2以及用户U3的角色C3显示于通话画面G。在该构成中,用户U1、U2、U3能确认自身的耳朵动画E。此外,用户U1、U2、U3各自的耳朵动画E被一起显示于通话画面G,因此能带来用户U1、U2、U3存在于同一空间这样的印象,能实现具有临场感、一体感的会话。其结果是,能实现顺畅的交流。

在本实施方式的系统100中,使角色C1、C2、C3以相同的尺寸显示在通话画面G中。在该构成中,通过以相同的尺寸显示角色C1、C2、C3,能更进一步带来用户U1、U2、U3存在于同一空间这样的印象,因此能更进一步实现具有临场感、一体感的会话。

以上,对本公开的第一实施方式进行了说明,但本公开未必限定于上述的实施方式,在不脱离其主旨的范围内可以进行变更。

在上述第一实施方式中,以在终端10、终端20以及终端30中生成控制数据的方式为一个例子进行了说明。但是,控制数据也可以由服务器40生成。在该构成中,终端10、终端20以及终端30将语音数据和图像数据发送至服务器40,服务器40基于语音数据和图像数据来生成控制数据。在该情况下,服务器程序43P也可以称为交流支持程序。此外,控制数据也可以基于从其他终端10、终端20以及终端30分别发送来的语音数据和图像数据,在终端10、终端20以及终端30中分别生成。

在上述第一实施方式中,以使用摄像机来构成终端10的输入部11并通过摄像机来获取用户U1的图像的方式为一个例子进行了说明。但是,终端10也可以通过激光器等来获取样态数据。此外,也可以将红外线传感器阵列、三轴传感器、压力传感器等用于动作速度的检测。终端20和终端30也是同样的。需要说明的是,在是头戴式显示器(HMD)终端的情况下,能适当地检测用户的视线、瞳孔、用户的头部的动作。

在上述第一实施方式中,以图标B和耳朵动画E等显示于终端10、20、30的通话画面G的方式为一个例子进行了说明。但是,在终端是可穿戴终端、头戴式显示器(HMD)终端的情况下,图标B和耳朵动画E等既可以显示于镜片等,也可以用全息图来显示。即,使角色C1、C2、C3显示在赛博空间(Cyberspace)中。赛博空间可以包括VR(Virtual Reality:虚拟现实)、AR(Augmented Reality:增强现实)以及MR(Mixed Reality:混合现实)。

在上述第一实施方式中,以控制部12基于用户U1的语音数据和表示用户U1的样态的样态数据中的至少任一个来推定用户U1、U2、U3的状态的方式为一个例子进行了说明。但是,用户的状态也可以进一步还考虑环境信息来推定。环境信息例如是音乐(BGM:Background Music,背景音乐)、位置信息等。

在上述第一实施方式中,以通过已学习模型13L来推定用户的状态的方式为一个例子进行了说明。但是,用户的状态也可以通过其他方法来推定。例如,语音数据也可以通过自然语言处理(NLP:Natural Language Processing)来处理。图像数据也可以通过图案匹配来处理。例如,可以对图像数据进行解析来决定与用户U1、用户U2以及用户U3的样态对应的图案。图像图案可以从预先存储于存储部43的有限个给定的图案中选择。

此外,用户的状态也可以通过预先设定的话语的语音识别来决定。例如,在规定的话语(包括文字、语音)与耳朵动画E的动作模式建立了对应并发出了规定的话语的情况下,可以使耳朵动画E基于与规定的话语对应的动作模式来进行动作。动作模式可以选自预先设定的标准动作模式和用户U1、U2、U3预先制作出的制作模式中的至少一个并与规定的话语建立对应。

如上述第一实施方式那样,耳朵动画E根据语音、动作等的感测结果来设定(决定)动作。若除此之外还对所使用的本人的规定的话语进行登记并预先将规定的话语与耳朵动画E的动作模式建立对应,则识别效率提高,因此能迅速地使适合于用户U1、U2、U3的状态的状态动画显示。此外,能应对针对用户U1、U2、U3的独特的措辞的非语言表达。动作模式可以选自预先设定的标准动作模式和用户U1、U2、U3预先制作出的制作模式中的至少一个。如此,能制作动作模式并也将制作模式用作动作模式,因此能设为与本人的独特话语对应的独特的非语言表达、动作模式。由此,也能创作非语言表达。因此,能实现更丰富的交流。此外,用户能更新新的话语、新的非语言表达。

关于规定的话语与动作模式的对应建立,例如,作为与轻轻的点头的动作模式建立对应的话语,通过本人自身的话语(语音)来登记本人平时经常使用的表达,例如,“啊~,啊~”、“嗯,嗯”、“是的,是的”、“原来如此”、“对”、“果然”、“是啊”、“我明白”、“我是这样想的”等话语。在对话中,对该登记信息进行语音识别并选择与规定的话语关联的动作模式,由此能表现轻轻的点头动作。此外,由于能登记规定的话语,因此也能应对方言、行业特殊话语等。由此,能将独特的表达表现为非语言表达。需要说明的是,不限于耳朵动画E,后述的胳膊动画A和腿动画F也能与规定的话语建立对应。

在上述第一实施方式中,以控制部12将第一推定结果和第二推定结果输入至第三已学习模型从而得到与用户U1的状态相关的推定结果的方式为一个例子进行了说明。但是,控制部12也可以在得到了第一推定结果和第二推定结果的情况下,通过规则库来推定用户的状态。此外,也可以对第一推定结果和第二推定结果分别进行加权。

除了上述第一实施方式的记载以外,也可以具有能选择是否在通话对方的终端显示自身的角色的功能。由此,例如,多个用户中只有一人的角色显示于通话画面G,其他用户能使该用户的影像显示。该功能对于用户的隐私保护、传输频带削减是有效的。

除了上述第一实施方式的记载以外,如图10所示,也可以是角色C1、C2、C3分别以规定的周期进行摆动。规定的周期被预先初始设定,基于各用户U1、U2、U3的状态(身体的摇晃、呼吸、视线变化、心率、血压等)而变化。在图10所示的例子中,各用户U1、U2、U3的周期不同,摆动不同步。即,示出了角色C1、C2、C3正在分别以不同的周期进行摆动的状态。

角色C1、C2、C3的摆动的周期基于用户U1、U2、U3的会话的状况和经过时间而变化。摆动的周期以讲话者的状态为基准而变化。具体而言,对于摆动的周期,基于讲话者的音量变化节奏、讲话者的声调、讲话者的讲话速度,将经过时间也作为参数来使用户U1、U2、U3的摆动的周期变化。控制部12基于讲话者的状态来使角色C1、C2、C3的摆动的动作同步。例如,在讲话者的音量变化节奏、声调以及讲话速度成为阈值以上并且从开始通话起的经过时间超过了规定时间的情况下,控制部12生成使角色C1、C2、C3的摆动的周期相同的控制数据。具体而言,控制部12例如在讲话者是用户U1的情况下,使角色C2、C3的周期与角色C1的摆动的周期一致。需要说明的是,控制部12也可以还检测各用户U1、U2、U3间的镜像水平(mirroring level)、回溯(backtracking)、寻呼(paging)讲话量等来生成控制数据。

当角色C1、C2、C3的摆动的周期同步时,如图11所示,角色C1、C2、C3的摆动同步。即,角色C1、C2、C3以相同的周期向相同的方向摆动。如此,通过基于讲话者的状态来使角色C1、C2、C3的摆动同步,与会话的状态相应地在角色C1、C2、C3的动作中表现出一体感。因此,能实现具有临场感、一体感的会话。

除了上述第一实施方式的记载以外,如图12所示,也可以是角色C1、C2、C3还包括胳膊动画A。胳膊动画A是模拟了胳膊和手中的至少一个的动画,根据用户的状态的变化来进行动作。胳膊动画A与耳朵动画E同样地根据用户的感情和动作中的至少一个来进行动作。胳膊动画A既可以进行与耳朵动画E相同的内容的动作,也可以进行与耳朵动画E不同的内容的动作。在图12所示的例子中,胳膊动画A与耳朵动画E正在进行相同的内容的动作。具体而言,角色C3根据用户U3的举手的动作,在耳朵动画E中一个耳朵正在进行伸缩并且在胳膊动画A中正在抬起一个胳膊。控制部12在用户U3正在举手的情况下,生成如下控制数据:在角色C2的耳朵动画E中使一个耳朵伸缩并且在胳膊动画A中抬起一个胳膊。

就胳膊动画A而言,例如,由图12所示的角色C1、C2表示的状态是固定位置(初始位置)。胳膊动画A根据用户的动作来进行拍手、挥手、使胳膊交叉等动作。

在上述第一实施方式中,以在图标B中将“A”、“B”、“C”作为能标识用户的文本来显示的方式为一个例子进行了说明。但是,在图标B中,既可以如图13的类型A所示显示企业名(例如,“XXX”)、团体名、俱乐部名、品牌名等,也可以如图13的类型B所示显示讲演者(presenter)、老师、学生、咨询顾问(counselor)、客户(client)等职能,还可以如图13的类型C所示显示企业的标志(logo)等。

除了上述第一实施方式的记载以外,也可以在图标B中显示图画文字、预先设定的图像以及文本中的至少一个。如图14的类型A所示,在图标B中显示图画文字。图画文字由统一码规定。图画文字既可以根据用户的感情和动作中的至少一个来自动地选择并显示,也可以通过用户的操作来选择并显示。在自动地选择的情况下,控制部12例如在用户正在表示高兴这样的感情的情况下和/或用户发出了笑声的情况下,生成使表示笑脸的图画文字显示的控制数据。在通过用户的操作手动地选择的情况下,既可以从图画文字的一览中选择任意的图画文字,也可以通过规定的操作(键操作等)来选择图画文字。

如图14的类型B所示,在图标B中显示预先设定的图像。图像可以由用户任意地设定(制作)。在图14的类型B所示的例子中,示出了模拟了嘴的形状的图像(微笑条)。与用户的感情和动作相关的信息与各图像建立对应。图像既可以根据用户的感情和动作中的至少一个来自动地选择并显示,也可以通过用户的操作来选择并显示。在自动地选择的情况下,控制部12例如在用户正在表示高兴这样的感情的情况下和/或用户发出了笑声的情况下,生成使表示笑脸的图像显示的控制数据。在通过用户的操作来手动地选择的情况下,既可以从图像的一览中选择任意的图画文字,也可以通过规定的操作(键操作等)来选择图像。

如图14的类型C所示,在图标B中显示文本。文本既可以预先设定,也可以由用户输入。文本既可以根据用户的感情和动作中的至少一个来自动地选择并显示,也可以通过用户的操作来选择并显示。在自动地选择的情况下,控制部12例如在用户对其他用户的讲话正在表示反对(将食指在胸前交叉等)的态度的情况下和/或用户进行了规定的发言(“反对”等)的情况下,生成使“反对”的文本显示的控制数据。在通过用户的操作来手动地选择的情况下,既可以从文本的一览中选择任意的图画文字,也可以通过规定的操作(键操作等)来选择文本。

除了上述第一实施方式的记载以外,也可以在角色C1、C2、C3中显示与用户的视线相关的信息。控制部12基于检测到的用户的视线来生成使角色C1、C2、C3显示与视线相关的信息的控制数据。以下,参照图15~图18具体地进行说明。在以下的说明中,以用户U1与用户U2正在通话的方案为一个例子进行说明。图15的类型A、图16的类型A、图17的类型A以及图18的类型A示出了用户U1的终端10的通话画面G,图15的类型B、图16的类型B、图17的类型B以及图18的类型B示出了用户U2的终端20的通话画面G。

在图15的类型A和图的类型B中,用户U1和用户U2各自未注视角色C1和角色C2。即,用户U1和用户U2的视线不在角色C1和角色C2上。当用户U1注视用户U2的角色C2时,如图16的类型A所示,在角色C2的耳朵动画E显示视线发送信息GT。视线发送信息GT表示用户U1正在注视角色C2。视线发送信息GT例如呈椭圆形等。视线发送信息GT例如模拟了眼睛的眼线(eyeline)。此外,当用户U1注视用户U2的角色C2时,如图16的类型B所示,在角色C1的耳朵动画E显示视线接收信息GR。视线接收信息GR表示用户U1正在注视角色C2。视线接收信息GR例如是黑圆点,呈圆形。视线接收信息GR例如模拟了眼睛的瞳孔。

而且,当用户U2注视用户U1的角色C1时,如图17的类型A所示,在角色C2的耳朵动画E显示视线一致信息GC。视线一致信息GC表示用户U1正在注视角色C2并且用户U2正在注视角色C1。即,表示取得了目光接触。视线一致信息GC例如具有视线发送信息GT与视线接收信息GR重叠的形态。视线一致信息GC例如模拟了眼睛。同样地,当用户U2注视用户U1的角色C1时,如图17的类型B所示,在角色C1的耳朵动画E显示视线一致信息GC。

此外,当用户U1注视角色C1时,如图18的类型A所示,在角色C1的耳朵动画E显示视线一致信息GC。此时,用户U2既未注视角色C1也未注视角色C2,因此,如图18的类型B所示,在用户U2的通话画面G不显示视线一致信息GC。

需要说明的是,视线发送信息GT、视线接收信息GR以及视线一致信息GC的设计、位置、大小等可以适当设定。此外,在存在许多用户并且特定的用户成为讲话者的情况(例如,演讲会等情况)下,也可以设定为视线发送信息GT同时显示于多个用户的角色。此外,关于视线的检测,可以设定检测区域。具体而言,例如,可以设定为包含角色C1、C2、C3的周围在内的宽区域,或者设定为角色C1、C2、C3的一部分的区域等窄区域。通过设定检测区域,能进行与用户U1、U2、U3的感受、状况相应的控制。

对使上述的视线发送信息GT、视线接收信息GR以及视线一致信息GC显示的具体方法进行说明。在以下的说明中,对用户U1、U2、U3在终端10、20、30进行通话的情况进行说明。终端10、20、30的控制部12生成包含与用户U1、U2、U3的视线相关的信息的控制数据。终端10、20、30将控制数据发送至服务器40。服务器40将控制数据发送至终端10、20、30。

终端10、20、30的控制部12基于从服务器40发送来的控制数据来控制角色C1、C2、C3。具体而言,控制部12基于控制数据来使视线发送信息GT、视线接收信息GR以及视线一致信息GC中的任一个显示于角色C1、C2、C3。

如以上说明过的那样,通过使视线发送信息GT、视线接收信息GR以及视线一致信息GC显示在角色C1、C2、C3中,能识别(察觉)用户U1、U2、U3的视线,或者能经由角色C1、C2、C3来取得目光接触。由此,能确认通话对方是否对自己有兴趣等状况,或者能确认通话对方是否理解了会话等。因此,能实现顺畅的交流。

在上述第一实施方式中,如图7的类型B所示,以讲话动画H进行左右伸缩的动作的方式为一个例子进行了说明。但是,作为讲话动画,既可以是在讲话者的耳朵动画E中两个耳朵从根部以相同相位活动,也可以是在讲话者的耳朵动画E中各耳朵以相反相位交替活动。此外,也可以是耳朵动画E的两个耳朵根据讲话来同时进行伸长变化。讲话动画的动作可以由用户选择。

在上述第一实施方式中,以角色C1、C2、C3通过二维的计算机制图被描绘出的方式为一个例子进行了说明。但是,角色C1、C2、C3也可以通过三维的计算机制图来描绘。参照图19~图21对三维的角色进行说明。在图19~图21中,以用户U2的角色C2为一个例子进行说明。图19的类型A、图20的类型A以及图21的类型A示出了角色C2的动作前的状态,图19的类型B、图20的类型B以及图2的类型B示出了角色C2的动作后的状态。

如图19~图21所示,角色C2被构成为包括主体B和耳朵动画E。在角色C2中,主体B和耳朵动画E被一体地显示在通话画面G中。主体B是能标识作为通话对方的用户的标识信息。主体B包括表示用户的图像和表示用户的文本中的至少一个。在角色C2显示阴影。在图19~图21所示的例子中,主体B呈球状,包括能标识用户的文本(“B”)。与二维的角色同样地,角色C2(C1、C3)既可以被构成为包括讲话动画(省略图示),也可以被构成为包括胳膊动画A(参照图22)。

接着,对角色C2的动作进行说明。在角色C2中,主体B能以X轴、Y轴以及Z轴为中心转动。主体B根据用户的状态的变化来进行动作。主体B与耳朵动画E同样地根据用户的感情和动作中的至少一个来进行动作。主体B既可以进行与耳朵动画E相同的内容的动作,也可以进行与耳朵动画E不同的内容的动作。在图19的类型B、图20的类型B以及图21的类型B所示的例子中,主体B与耳朵动画E正在进行相同的内容的动作。

如图19的类型B所示,就角色C2而言,主体B正在反复进行以X轴为中心前后转动的动作,并且在耳朵动画E中正在反复进行耳朵的上部的折弯。控制部12在用户U2正在点头或者附和的情况下和/或用户U2进行了规定的发言(“嗯嗯”、“是的”等)的情况下,生成如下控制数据:在主体B以X轴为中心前后反复实施转动,并且在角色C1的耳朵动画E中使耳朵的上部1/3部分处的前后的折弯反复实施。

如图20的类型B所示,就角色C2而言,主体B正在反复进行以Y轴为中心左右转动的动作,并且在耳朵动画E中耳朵正在左右摆动。控制部12在用户U2正在思索(歪头等)的情况下和/或用户U2进行了规定的发言(“嗯……”等)的情况下,生成如下控制数据:在主体B以Y轴为中心左右反复实施转动,并且在耳朵动画E中使耳朵左右摆动。

如图21的类型B所示,就角色C2而言,主体B正在反复进行以Z轴为中心转动的动作,并且在耳朵动画E中耳朵正在左右转动。控制部12在用户U2对其他用户的讲话正在表示反对(将食指在胸前交叉等)的态度的情况下和/或用户U2进行了规定的发言(“反对”等)的情况下,生成如下控制数据:在主体B以Z轴为中心反复实施转动,并且在耳朵动画E中使耳朵左右转动。需要说明的是,关于主体B的动作,既可以是主体B与文本(“B”)一体地活动,也可以是使文本固定而仅主体B活动。

就角色C2的动作而言,除了上述的动作之外,既可以如图22的类型A所示,在用户U2正在退出的情况下,在耳朵动画E中使耳朵左右倾倒,也可以如图22的类型B所示,在道歉的情况下,在耳朵动画E中使耳朵深深折弯。此外,既可以如图22的类型C所示,在正在讲话的情况下,在背景中显示讲话动画H,也可以如图22的类型D所示,在愉快的情况下,在耳朵动画E中使耳朵旋转。

此外,也可以如图23的类型A所示,在正在思考的情况下,在耳朵动画E中使抓挠主体B的动作进行。此外,在正在讲话的情况下,既可以如图23的类型B所示,在耳朵动画E中使耳朵配合语音节奏而伸长,也可以如图23的类型C所示,设为耳朵配合语音节奏而前后摇晃。

此外,显示于角色C2的阴影也可以根据用户U2的状态来变化。例如,在用户U2的感情为“悲伤”的情况下,可以增多阴影的数量。在该构成中,通过阴影来表现用户U2的状态,因此其他用户U1、U3能更准确地掌握用户U2的状态。此外,由于阴影的存在,立体感被强调,并且能强化角色C2的表情、非语言表达。

此外,主体B不限定于球状。如图24的类型A所示,在角色C中,主体B也可以是模拟了显示器的形态。在该情况下,例如也可以设为在主体B显示讲话者的讲话内容的译文(例如,“Hello!”等)。此外,就主体B而言,既可以如图24的类型B所示是模拟了车的形状,也可以如图24的类型C所示是模拟了闹钟的形状,还可以如图24的类型D所示是模拟了树的形状。主体B可以根据用户的状态等来变化、变形等。

在上述第一实施方式中,如图2所示,以角色C1、C2、C3在通话画面G中分别显示于划分好的区域内的方式为一个例子进行了说明。但是,角色C1、C2、C3也可以显示于一个空间(连续背景空间)。在图25中,示出了三维的角色C1、角色C2以及角色C3正在通话的状态。如图25所示,在一个空间中,例如显示有作为物体的桌子T。角色C1、C2、C3被显示为围着桌子T面对面。角色C1、C2、C3在桌子T处例如以等间隔(间隔60°)配置。在图25所示的例子中,角色C1和角色C2被显示为以侧身的状态围着桌子T面对面。角色C3被显示为在画面中央背过身。在图25所示的画面是用户U3的终端30的画面的情况下,作为默认,可以设为用户U3的角色C3被显示为背过身。在该情况下,容易看到其他用户U1、U2的角色C1、C2的耳朵动画E,因此能准确地掌握其他用户U1、U2的状态。

通过使桌子T旋转,能变更角色C1、C2、C3的位置。此外,能变更观察视点。例如,能变更为从上方俯视角色C1、C2、C3的视点(鸟瞰的视点、俯瞰的视点)。视点的变更既可以通过键盘等的手动操作来进行,也可以基于可穿戴传感器的感测来进行。如此,通过使角色C1、角色C2以及角色C3显示于连续的一个空间,能营造在同一空间内的存在感。由此,能实现具有临场感、一体感的会话。

例如,在远程下的授课形式中,能设为学生注视老师的视点。对于老师,能设为从讲台注视学生的视点。如此,通过设为与实际的授课相同的视点,能提高临场感、沉浸感。此外,对于老师而言,也易于掌握学生的反应,能反馈到授课的进行中。

需要说明的是,如图25所示,例如,即使在显示角色C3背过身的情况下或者在以鸟瞰的视点进行显示的情况下,耳朵动画E也设于主体B的上部,因此能从全方位确认各角色C1、C2、C3的耳朵动画E的动作。因此,无论是哪种显示形态,都能识别(掌握)各角色C1、C2、C3的状态/状况。

角色C1、C2、C3可以基于与用户U1、U2、U3的视线相关的信息来对动作进行控制。控制部12基于检测到的用户的视线来生成对角色C1、C2、C3的动作进行控制的控制数据。例如,在用户U1正在注视角色C2的情况下,设为角色C1朝向角色C2。即,使角色C1的主体B和耳朵动画E以Z轴为中心旋转例如30°,从而设为角色C1朝向角色C2。由此,角色C1的耳朵动画E与角色C2正对。在用户U1、U2、U3的视线不在角色C1、C2、C3上的情况下,可以设为角色C1、C2、C3朝前。

基于与视线相关的信息的角色C1、C2、C3的动作也可以不与用户U1、U2、U3的视线完全一致。例如,可以设为:即使在用户U1使视线对准角色C2后立即移开了视线的情况下,角色C1也在一定时间内朝向角色C2。即,也可以设为能以在面对面的状态下停止一定时间的方式设定停止时间。此外,用户U1使视线移动至角色C2的速度与角色C1、C2、C3旋转的速度也可以不一致。即,也可以设为能设定角色C1、C2、C3的旋转速度。通过这些设定,能防止角色C1、C2、C3配合用户U1、U2、U3的视线而频繁地进行动作(旋转),因此能避免角色C1、C2、C3的活动妨碍会话。

如上所述,通过使角色C1、C2、C3基于与视线相关的信息来进行动作,能识别(察觉)用户U1、U2、U3的视线,或者能经由角色C1、C2、C3来取得目光接触。由此,能确认通话对方是否对自己有兴趣等状况,或者能确认通话对方是否理解了会话等。因此,能实现顺畅的交流。

此外,也可以使角色C1、C2、C3与用户U1、U2、U3的视线无关地进行动作。例如,也可以基于用户U1、U2、U3的可穿戴传感器(加速度传感器等)的检测结果来使角色C1、C2、C3进行动作。也可以基于视线和该检测结果来使角色C1、C2、C3进行动作。此外。例如,可以设为:在用户U1进行了讲话的情况下,角色C2、C3朝向角色C1。此外,例如,可以设为:在用户U1呼唤了用户U3的情况下,角色C1朝向角色C3。此外,既可以设为能通过手动来任意地变更角色C1、C2、C3的朝向,也可以设为依次朝向各角色C1、C2、C3,还可以设为随机朝向各角色C1、C2、C3。

在上述实施方式中,以耳朵动画E和/或胳膊动画A根据用户的状态的变化(感情、动作)来进行动作的方式为一个例子进行了说明。但是,耳朵动画E和/或胳膊动画A也可以通过用户的输入来进行动作。在该构成中,动画的动作例如基于通过对由用户操作的设备的键操作进行的输入(操作结果)来控制。具体而言,动画的动作与键操作预先建立了对应。用户通过进行规定的键操作来控制角色的动作。例如,可以设为通过点击(按下)向下箭头的键来使耳朵动画E的耳朵的上部前后折弯一次。由此,能表达同意、感谢、道歉等。此外,可以设为通过点击向上箭头键来使耳朵动画E进行拍手。由此,能表达赞赏、敬意、幸福等。此外,可以设为通过点击右箭头键来使耳朵动画E的右耳伸展并且倾斜。由此,能表达中断、惊讶、反义等。此外,可以设为通过点击左箭头键来使耳朵动画E伸展并且缠绕。由此,能表达疑问、不安、问题等。也可以与按住键的时间相应地使动作持续。需要说明的是,由用户进行的操作不限于键操作,也可以是画面触摸、示意动作、视线移动等。

此外,耳朵动画E和/或胳膊动画A也可以根据设备的操作时间来进行动作。例如,在点击向下箭头键时,若单击,则耳朵动画E的耳朵的上部前后轻轻折弯一次,若长按,则耳朵动画E的耳朵的上部前后缓慢折弯一次。即,若单击,则能表现轻轻的点头,若长按,则能表现深深的点头。同样地,在点击向上箭头键、向右箭头键以及向左箭头键时,能通过单击和长按点击来变更动作。

除了上述实施方式的记载以外,也可以设为能调整耳朵动画E和/或胳膊动画A的动作的大小、速度等的等级。动作的大小例如是耳朵动画E的摆动角度、倾倒角度等。例如,对于动作的大小设定了强度等级(强度系数),可以设为用户能任意地调整强度等级。由此,能使耳朵动画E和/或胳膊动画A以用户想要的大小进行动作。在该构成中,即使在不善于感情表达的情况下,也能强化并传达自身的状态。需要说明的是,各种等级的调整既可以预先设定,也可以在通话中进行。在通话中进行调整的情况下,例如可以使用两个数字。例如,在调整动作速度的情况下,可以设为当按“1”时动作速度变快,当按“2”时动作速度变慢。在调整动作的大小的情况下,可以设为当按“3”时动作变小,当按“4”时动作变大。

此外,可以是:耳朵动画E和/或胳膊动画A的动作的大小、速度等基于语音数据和样态数据中的至少一个、即用户的感情和动作中的至少一个来变化。例如,可以根据用户的活动的大小、声音的大小来使耳朵动画E和/或胳膊动画A的动作的大小、速度等变化。具体而言,例如,可以基于声音的音调来设定耳朵的倾斜度,基于声音的速度来设定耳朵的抖动状况。详细而言,在以高的声音快速地说话的用户的情况下,使耳朵的倾斜度减小,以短周期使耳朵的倾斜度变化。另一方面,在以低的声音缓慢地说话的用户的情况下,使耳朵的倾斜度增大,以长周期使耳朵的倾斜度变化。

除了上述实施方式的记载以外,也可以设为用户U1、U2、U3能变更角色C1、C2、C3的位置和大小中的至少一个。用户U1、U2、U3能通过进行规定的操作来自由地变更位置和大小。由此,能像小组讨论(Panel Discussion)、来宾席、发言者席等那样以与实际的状况下的空间相同的方式设定位置。此外,能基于用户的名字来决定位置,或者能基于职能来决定位置。此外,在演讲会的情况下,也能进行将演讲者放大等这样的视觉强调。

除了上述实施方式的记载以外,也可以使耳朵动画E进行动作来作为用户U1、U2、U3的基本生物体存在信息。基本生物体存在信息是表示用户U1、U2、U3存在的信息。在用户U1、U2、U3正在参加视频会议等的情况下,当就座于终端10、20、30的前方时,在耳朵动画E中,除了立起的动作之外,还赋予相当于呼吸的摇晃。由此,即使用户U1、U2、U3什么都没做,也能传递作为存在的生命的活动。此外,作为不是对话时的存在、状态观察模式,在用户正在进行打字的情况下,可以在耳朵动画E中设为类似打字的动作(耳朵顶端进行打字活动)。可以设为:当用户离开终端的前方时,在耳朵动画E中耳朵下垂。

在上述实施方式中,如图2所示,以用户U1、U2、U3全员由角色C1、C2、C3表现的方式为一个例子进行了说明。但是,在由多个用户进行通话的情况下,也可以是一部分用户使用实际的影像。

除了上述实施方式的记载以外,也可以具有对状态动画/或胳膊动画A添加动画效果的功能。例如,可以是:即使在用户的胳膊未活动的情况下,胳膊动画A也根据讲话内容、音量、节奏等来进行动作。此外,也可以是:在用户U1、U2、U3唱歌或者使身体的一部分(例如,手、腿、颈、头等)活动的情况下,以角色C1、C2、C3进行表演(performance)(舞蹈等)的方式呈现动画效果。此外,也可以是:在正在播放音乐的情况下使得与音乐同步、同调。身体的活动可以通过加速度传感器、肌电传感器等来感测。动画效果功能可以由用户设定。动画效果功能例如对于身体的动作有障碍的用户会成为有效的功能。

除了上述实施方式的记载以外,除了显示角色C1、C2、C3还可以显示AI的角色。例如,除了显示角色C1、C2、C3还可以显示作为引导者(facilitator)的AI的角色。此外,也可以设为使支持用户U1、U2、U3的各用户专用的AI管家相伴。AI管家例如显示于角色C1、C2、C3的旁边。AI管家担任多方面地支持用户U1、U2、U3的会话的职能。支持是指日程管理、文件管理、文本/影像视觉资料的提供、语音信息输出等。此外,AI管家既可以自动地显示与会话关联的信息,也可以检索需要的信息来显示。

除了上述实施方式的记载以外,也可以记录视频会议等的内容并进行分析。例如,通过收集与耳朵动画E和/或胳膊动画A的控制数据的生成相关的信息并进行分析,能多方面地分析会话的状况、特征、参加了该会话的成员的特征、关系性、感情等。可以设为:分析结果用图表、文本等进行显示。

除了上述实施方式的记载以外,也可以在规定的定时使在状态动画(耳朵动画E和/或胳膊动画A)中使用过的动作模式的使用状况显示。也可以使用户U1、U2、U3的动作模式的使用比例和与时间轴对应的动作模式的使用频度的变化中的至少一个作为使用状况来显示。在该构成中,通过在规定的定时(例如,交流中(讲演中、对话中等)、交流结束后)显示状态动画的动作模式的使用状况(使用履历),能确认用户U1、U2、U3的反应的倾向等。

如上所述,通过在交流中或交流结束后显示在状态动画中使用过的动作模式的使用状况,易于取得融入了视频会议等的参加者的思考状态、感情状态等反应的交流。例如,讲演者、老师能根据对“完全明白本次的说明了吗?”这一提问进行“是的,是的”这一同意反应的动作模式的使用比例是100%还是20~30%左右来进行反馈,从而推进方法也发生改变。特别是,通过实时地进行参加者的使用比例的显示,易于推进实时的反应学习、反应讲演。

而且,例如,通过在时间轴上示出与“点头”对应的状态动画的动作模式的使用频度变化,在整体的流程中,能以非语言信息为线索而知道得到了什么样的感情反应、思考反应。此外,例如,也可以使用讲话非语言信息的数据来活用为听者与说话者如何切换、作为听者的立场下的时间比例、其反应状况等交流的质量的分析数据、交流能力的改善信息。通过录音录像并且通过确认动作模式的使用状况,也易于进行针对对话内容的非语言表达的事后确认。

除了上述实施方式的记载以外,也可以根据用户U1、U2、U3的属性来变更耳朵动画E的动作。属性例如是国籍、民族、性别、语言等。例如,在某个国家的文化中,“同意”是前后摆头,而在其他国家的文化中,“同意”有时是横向摆头。在该情况下,若对于“同意”使用相同的耳朵动画E,则由于文化的差异,接受者的感觉不同。因此,基于与用户U1、U2、U3的属性相关的信息来变更(设定)耳朵动画E的动作。在该构成中,通过根据属性例如国籍来变更耳朵动画E的动作,能避免由于文化的差异而产生误解。如此,能应对不同的各种各样的文化,因此能实现顺畅的交流。

在上述实施方式中,以状态动画是耳朵动画E的方式为一个例子进行了说明。但是,状态动画也可以是其他形态。例如,状态动画也可以是模拟了角、头发等的动画。例如,如图26的类型A所示,状态动画也可以模拟昆虫(例如,蚂蚁)的触角。如图26的类型B所示,状态动画SA也可以模拟天线那样的构造物。如图26的类型C所示,状态动画SA也可以模拟动物(例如,鹿)的角。如图26的类型D所示,状态动画SA也可以模拟植物(例如,向日葵)。

此外,如图26的类型E所示,状态动画SA也可以根据交流对象的状态来使显示形态变形。例如,也可以由一只角变形为两只角。此外,也可以从球状的主体B例如变形为图24的类型A所示的显示器。在该构成中,通过使状态动画变形(transform),能更准确地掌握交流对象的状态。

此外,如图27的类型A所示,也可以是:角色C还包括腿动画F。腿动画F是模拟了腿的动画,根据用户的状态的变化来进行动作。腿动画F既可以与耳朵动画E同样地根据用户的感情和动作中的至少一个来进行动作,也可以基于环境信息来进行动作。角色C也可以根据用户U1、U2、U3的状态来进行移动。如图27的类型B所示,角色C也可以戴着棒球帽(cap)CP。在该构成中,在角色C进行移动的情况下,也可以根据角色C的移动方向来使棒球帽CP的帽檐的朝向变化。如图27的类型C所示,角色C也可以乘坐空中飞毯FC等乘坐物。空中飞毯FC以附随于主体B的方式被显示于主体B的周围。在图27的类型C所示的例子中,空中飞毯FC显示于主体B的下方。在空中飞毯FC的角部设有流苏TR。流苏TR也可以根据用户的状态的变化来进行动作。此外,空中飞毯FC也可以基于用户的基本生物体存在信息来进行动作。需要说明的是,也可以在主体B的周围附随地显示空中飞毯FC以外的事物。此外,空中飞毯FC等附随物也可以显示于主体B的上方或侧方。如图27的类型D所示,角色C也可以戴着礼帽(hat)HT。在礼帽HT设有翅膀W。翅膀W也可以基于用户的基本生物体存在信息来进行动作。

在上述实施方式中,如图25所示,以角色C1、C2、C3被显示为围着桌子T面对面的方式为一个例子进行了说明。但是,如图28所示,多个角色C也可以被显示为围着白板WB。白板WB能由各用户写入文本(例如,“1、2、3……”,“A、B、C、D……”等),或者使图像等显示。角色C相对于白板WB的位置和大小可以自由地变更。

此外,如图29所示,也可以被显示为:将多个角色C中的一个角色C的主体B用作显示器,使该角色C放大显示,其他角色C配置于上述角色C的前方。可以使显示器显示文本(例如,“1、2、3……”,“A、B、C、D……”等),或者使显示器显示图像等。除了被放大显示的角色C以外的角色C的朝向可以由用户任意地设定。例如,就角色C而言,既可以以成为看着显示器的朝向的方式显示后背,也可以被显示为背对着显示器而朝向正面,还可以被显示为角色彼此面对面。

此外,如图30所示,例如也可以显示为乘坐了空中飞毯FC的多个角色C围着物体O。物体O例如是作为会议的议题的对象(例如,车等)。物体O的朝向可以设为能由各用户任意地变更。在该情况下,既可以仅变更显示给变更了物体O的朝向的用户的物体O的朝向,也可以在一个用户变更物体O的朝向时变更显示给全部用户的物体O的朝向。此外,也可以设为仅已决定的用户能变更物体O的朝向。此外,也可以随着角色C的位置的变更来变更相对于显示给各用户的物体O的视点。

在上述实施方式中,以状态动画以从图标B的显示区域突出的方式被显示于显示区域的外侧,或者以附随于主体B的方式被显示于主体B的周围的方式为一个例子进行了说明。但是,状态动画与标识信息被一体地显示即可。如图31所示,角色C也可以是模拟了云的角色。角色C被构成为包括图标B和状态动画SA。如图31的类型A所示,图标B例如显示于状态动画SA内。角色C的状态动画SA根据用户的状态的变化(感情、动作)、用户的操作等来进行动作。例如,如图31的类型B所示,在用户的状态为“愤怒”的情况下,角色C的状态动画SA的一部分突出。角色C不限定于模拟了云的角色,不限于有形物、无形物,可以设为模拟了各种各样的事物的角色。

角色C、C1、C2、C3的设计、耳朵动画E、胳膊动画A以及腿动画F的动作能由用户U1、U2、U3设定(变更)。角色也可以通过基于二维与三维的组合的计算机制图来描绘。此外,角色的设计能通过数据的更新等来进行更新(变更、追加等)。

在上述实施方式中,如图2或图25所示,以参加交流的全部用户U1、U2、U3的角色C1、C2、C3显示于通话画面G的方式为一个例子进行了说明。但是,也可以是只有作为交流对象的用户的角色显示于通话画面。例如,也可以是在用户U1的终端10的通话画面G中仅显示用户U2的角色C2和用户U3的角色C3。

·第二实施方式

接着,对第二实施方式进行说明。在第二实施方式的交流支持系统中,交流对象是AI(Artificial Intelligence:人工智能)助手。AI助手例如是Siri(注册商标)、Googole助手(注册商标)、Alexa(注册商标)、Cortana(注册商标)等。第二实施方式的系统的交流的例子包括与AI助手的交谈。

系统包括终端(终端装置)50。终端50既可以是膝上型的个人计算机(PC)、便携式电话机(智能手机等)、台式的PC,也可以使用平板电脑终端、可穿戴终端、头戴式显示器(HMD)终端、带有显示器的智能扬声器等各种各样的终端。如图1所示,终端50能经由网络N与服务器40相互通信。终端50具有与终端10相同的构成。

如图32所示,交流在由计算机表现的画面G1(输出部15)中进行。画面G1显示于终端50,由此被呈现给用户。在图32所示的例子中,AI助手的角色CA出现在画面G1中。角色CA在画面G1中表示AI助手。角色C是动态的角色。角色CA可以通过二维或三维的计算机制图(CG)来描绘。角色CA被构成为包括图标B和耳朵动画E。在角色CA中,图标B和耳朵动画E被一体地显示在画面G1中。

图标B是能标识作为交流对象的AI助手的标识信息。图标B包括表示AI助手的图像和表示用户的文本中的至少一个。在图32所示的例子中,图标B呈圆形,包括能标识用户的文本(例如,“XXX”)。耳朵动画E是表示AI助手的状态的状态动画。耳朵动画E根据AI助手的感情和动作中的至少一个以及使用AI助手的用户的语音数据来进行动作。

控制部12是生成AI的控制数据的部分。控制部12基于AI的语音数据(语言数据)和表示AI的样态的样态数据中的至少任一个、以及使用AI助手的用户的语音和行为来生成角色CA的控制数据。使用AI助手的用户的行为可以包括用户的动作。控制部12例如将以下的动作作为触发来推定AI助手的状态,并生成控制数据。

·AI助手所发出的关键词(不明白、请再说一遍等)

·用户所发出的关键词(AI助手的名称、喂、嗨等)

·用户的动作(靠近终端50、远离终端50等)

控制部12使用已学习模型13L来推定AI助手的状态。控制部12将AI助手语音数据(文本)和用户的行为数据(语音数据等)输入至已学习模型13L,由此得到基于数据的推定结果。控制部12基于已学习模型的推定结果来推定AI助手的状态。

控制部12基于推定出的AI助手的状态来生成用于对耳朵动画E的动作进行控制的控制数据。控制部12例如在AI助手发出了“不明白”的情况下,生成如下控制数据:在角色CA的耳朵动画E中,使耳朵向左右的一方倾斜。控制部12例如在对于来自用户的提问的回答包括“反对、禁止”等内容的情况下,生成使耳朵交叉的状态维持一定时间的控制数据。

控制部12例如在用户发出了“AI助手的名称(例如,“XXX”)”的情况下,生成在角色CA的耳朵动画E中使耳朵立起的控制数据。就控制部12而言,在用户正在进行发言(提问等)的情况下,AI助手为听取的状态,因此生成使耳朵的上部1/3部分处的前后的折弯反复实施的控制数据。控制部12例如在用户向终端50靠近过来的情况或用户远离终端50的情况下,生成在角色CA的耳朵动画E中使耳朵左右摆动的控制数据。此外,控制部12在AI助手为待机的状态的情况下,可以生成在耳朵动画E中使耳朵左右摆动的控制数据,或者生成使耳朵的颜色变化的控制数据。

以往,AI助手仅是语音,或者显示抽象的影像。在该情况下,AI助手的感情难以传达给用户,因此对话的临场感不足。此外,在像从AI助手说出“不明白”那样机械的回答的情况下,会感觉到是人工的会话。另一方面,当对AI助手设定一些特定的角色(动漫、化身等)时,有时会产生违和感。此外,动漫等角色由于年龄、两性差别等而接受方式不同,因此,缺乏可靠性,或者亲近感不足。

因此,终端50的控制部12使包括图标B和表示AI助手的状态的耳朵动画E的角色CA显示于画面G1。耳朵动画E在年龄、两性差别中可以带来中立的印象。此外,能通过耳朵动画E来识别AI助手的状态。因此,能实现AI助手与用户的顺畅的交流。

本公开也能应用于以下的方案中。

(1)在电话中的应用

在以往的电话中,未显示有非语言信息。通过应用本公开,能根据电话的声音在视觉上生成非语言信息。由于能将交流对象(其他用户)和自己的状态动画与标识信息一体地显示,因此,对电话语音施加视觉效果,能进行更丰富的交流。除了状态动画之外,还能同时提供资料信息、共同写入的白板功能,因此能由以往的“接听的电话”设为观看感情/信息等的“观看的电话”。此外,对于电话会议,能转换为加入了非语言信息的可视会议。

(2)在语音聊天中的应用

与电话同样地,对于多人的语音聊天,能通过语音识别将各个人物的标识信息和状态动画一体地显示。标识信息和状态动画既可以使用按标准准备的设计,也可以安装独特的设计来使用。不仅是话语,关于歌曲,也能作为动作渲染来提供。通过一体地显示标识信息和状态动画,也能进行语音聊天的参加者、讲话者的人物认知、以及讲话者、参加者的非语言信息的认知,与只有语音的聊天相比,能实现更丰富的交流。此外,能隐匿脸部的个人信息。

此外,与具有存在真实感(reality)的脸部表情的化身相比,能采用处理负担轻的软件,并且能减小传输容量。关于化身的脸部表情,若相似则会产生“恐怖谷”问题。此外,若设为动漫脸,则年龄等被隐匿,容易诱发误解信息。其结果是,会成为操控性的信息。在这样的本公开中,能避免由独特设计的动漫脸产生的问题。

(3)在赛博空间、VR空间、AR空间、MR空间中的对话中的应用

以往,在基于HMD、智能眼镜的VR空间中的远程对话参加使用了人形化身。但是,在多数情况下,无法充分传递感情信息等非语言信息。在化身中,就每个人的脸部表情的顺畅的控制而言,处理负担会增大。虽然能自由地设计脸部本身、脸部的表情等,但由于设计是自由的,因此会过度地操作本来想要传达的印象。由此,可能产生传达为与实际状态相去甚远的信息等弊端。在游戏等娱乐活动中,虽然也有自由设计性产生出愉快的效果的情况,但在工作等的面谈、会议中,反而形成操控性的表现这一点成为问题。例如,还会形成与年龄等实际状态相去甚远的表现。在本公开中,能排除这些操作性设计,并且能易于理解地传递非语言信息。特别是,通过在标识信息的上部突出的模拟了耳朵的耳朵动画E来进行非语言表达,由此,从对象者的背部、远方也易于认知感情、非语言信息,能生成临场感高的交流空间。例如,当在耳朵动画E中受到由两个耳朵进行的拍手喝彩时,也带来讲演者的振奋感、充实感、成就感。此外,会带来约会,或者转变为闲谈,或者使对话活跃。特别是,通过设为根据用户的语音信息、动作信息等来自动地生成状态动画,能不费工夫地表现非语言信息。而且,在VR空间中,在能自由地变更(移动)3D的角色的配置的情况下,时而一体地显示角色和地毯等具有空中漂浮感的附随物,由此能创造出在VR空间内的空中存在的自然感。

在另一观点中,本公开是一种非语言表达程序,该非语言表达程序使计算机执行如下步骤:输入语音数据、图像数据、影像数据、音乐数据、感测数据以及操作输入数据中的至少一个数据;将数据转换为作为非语言表达的动画;以及使表示与数据相关的对象的标识信息和动画一体地显示。

上述非语言表达程序使计算机执行如下步骤:基于数据来推定对象的状态;以及基于对象的状态来生成用于对动画的动作进行控制的控制数据。

上述动画可以以从标识信息的显示区域突出的方式被显示于该显示区域的外侧,或者可以以附随于标识信息的显示区域的方式被显示于该显示区域的周围。此外,上述动画不包含动态变化的脸部表情。

在非语言表达程序中,使所输入的数据渲染成动画(例如,耳朵动画)。所输入的数据是语音数据(包括音乐)、图像数据、影像数据、感测数据以及操作输入数据中的至少一个。感测数据例如是由可穿戴传感器(加速度传感器、肌电传感器等)检测到的数据。操作输入数据是在终端等设备中通过用户的操作输入的数据。

在非语言表达程序中,例如,当无线电广播的语音数据被输入时,使无线电广播的内容渲染成不包含动态变化的脸部表情的动画。具体而言,在非语言表达程序中,基于语音数据来推定对象的状态。在无线电广播的情况下,对象是指主持人(personality)等。在非语言表达程序中,基于对象的状态来生成用于对动画的动作进行控制的控制数据(代码)。此外,在非语言表达程序中,基于语音数据来解析语音数据,生成表示与语音数据相关的对象的标识信息。例如,在无线电广播中由两位主持人进行了对谈的情况下,标识两位主持人来生成各自的标识信息。在非语言表达程序中,使标识信息和动画一体地显示。

动画既可以以从标识信息的显示区域突出的方式被显示于该显示区域的外侧(参照图4、图19等),也可以以附随于标识信息的显示区域的方式被显示于该显示区域的周围(参照图27的类型C)。由此,例如,在无线电广播中由两位主持人进行了对谈的情况下,能设为与语音(语音识别也进行动作)联动地显示两人的角色的耳朵动画。除了无线电广播之外,还能使YouTube(注册商标)等的影像数据输入。

此外,在非语言表达程序中,当音乐数据被输入时,使音乐的内容(歌词、节奏)渲染成动画。具体而言,在非语言表达程序中,基于语音数据来推定对象的状态。在此所说的对象是音乐的节奏、拍子(tempo)、歌词等。即,作为音乐中的状态,能推定愉快、悲伤、明朗、阴沉等。在非语言表达程序中,基于推定出的状态来生成用于对动画的动作进行控制的控制数据(代码)。此外,在非语言表达程序中,基于语音数据来生成标识信息。标识信息例如可以设为音乐的标题等。在非语言表达程序中,使标识信息和动画一体地显示。由此,能基于音乐的内容来使耳朵动画表演。关于渲染,既可以是利用AI的、在网络中的形象创建,也可以在实际的歌手、舞者等对象的两个手腕装配加速度传感器等,并使耳朵动画的活动与该对象的活动、手腕的变化联动。在使其联动的情况下,能将标识信息设为歌手、舞者的名字等。除了加速度传感器以外,还可以通过各种各样的手段感测手腕的肌电、脑电波等其他变化来进行渲染。

附图标记说明

10 终端(终端装置)

11 输入部(传感器)

12 控制部

13 存储部

13L 已学习模型

13P 终端程序(交流支持程序)

14 通信部

15 输出部

20 终端(终端装置)

30 终端(终端装置)

40 服务器

42 控制部

43 存储部

43P 服务器程序

43S 接收数据

44 通信部

50 终端(终端装置)

100 交流支持系统

A 胳膊动画

B 图标、主体

AP 接入点

BS 基站

C 角色

C1 角色

C2 角色

C3 角色

CA 角色

CP 棒球帽

E 耳朵动画(状态动画)

F 腿动画

FC 空中飞毯

G 通话画面

G1 画面

GC 视线一致信息

GR 视线接收信息

GT 视线发送信息

H 讲话动画

HT 礼帽

N 网络

O 物体

S1 步骤

S2 步骤

S3 步骤

S4 步骤

S5 步骤

S6 步骤

S7 步骤

S8 步骤

S9 步骤

S10 步骤

S11 步骤

S12 步骤

S13 步骤

S21 步骤

S22 步骤

S23 步骤

S24 步骤

S25 步骤

S26 步骤

S27 步骤

SA 状态动画

T 桌子

TR 流苏

U1 用户

U2 用户

U3 用户

W 翅膀

WB 白板。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号