首页> 中国专利> 基于机器人自主收集语料并创建共享语料库的方法和装置

基于机器人自主收集语料并创建共享语料库的方法和装置

页面导航

摘要
著录项
说明书
相似文献

摘要

本申请实施例提供的基于机器人自主收集语料并创建共享语料库的方法和装置，属于机器人技术领域。本申请中的机器人可以在执行操作的同时还可以对不同操作的操作信息进行分类提取，并且通过将分类提取的语料进行分类存储，以提高不同类型的操作信息对应的语料的独立性以及单一性，避免多个操作信息之间的语料混乱。以及还可以将语料库共享给其他机器人，使得其他机器人无需再创建相同语料的语料库。进而节约了人力成本，降低了机器人的配置成本，使得机器人的语料库配置时间极大的缩短。

著录项

公开/公告号CN112347777A

专利类型发明专利
公开/公告日2021-02-09

原文格式PDF
申请/专利权人刘玲玲;
展开▼

申请/专利号CN202011173758.7
发明设计人刘玲玲;
展开▼

申请日2020-10-28
分类号G06F40/289(20200101);G06F16/33(20190101);G06F16/36(20190101);G06F40/30(20200101);
代理机构11674 北京中南长风知识产权代理事务所(普通合伙);
代理人郑海
地址 518052 广东省深圳市南山区前海路2057号阳光棕榈园28栋1-5K
入库时间 2023-06-19 09:51:02

说明书

技术领域

本申请涉及机器人技术领域，具体而言，涉及一种基于机器人自主收集语料并创建共享语料库的方法和装置。

背景技术

随着生活水平的不断提高，机器人的应用也越来越广。为了适应用户，机器人里面会配置语料库，以便于识别用户的指令。

然而，目前的机器人都是通过配置一个固定的语料库，以存储所有操作的语料，这就会导致用户在发出不同操作指令时，容易导致机器人执行错误的操作。另外，对于每个机器人来说，都要重复配置同一操作的语料。进而使得配置成本较高、需要耗费较多的时间，且都需要人工手动配置，浪费人力成本。

发明内容

本申请提供一种基于机器人自主收集语料并创建共享语料库的方法和装置，旨在改善上述问题。

第一方面，本申请提供的一种基于机器人自主收集语料并创建共享语料库的方法，所述方法包括：采集在执行第一操作时的第一操作信息、执行第二操作时的第二操作信息以及执行第三操作时的第三操作信息；分别提取所述第一操作信息所携带的第一语料、所述第二操作信息所携带的第二语料和所述第三操作信息所携带的第三语料；将所述第一语料存储至与所述第一操作对应的第一语料库、将所述第二语料存储至与所述第二操作对应的第二语料库以及将所述第三语料存储至与所述第三操作对应的第三语料库；创建共享语料库至服务器，所述共享语料库存储有所述第一语料库、所述第二语料库和所述第三语料库的物理地址和访问所述第一语料库、所述第二语料库和所述第三语料库的权限信息。

可选地，所述方法还包括：在所述机器人进入待机状态时，自动从云端采集与所述第一操作信息匹配的第一语料；将所述第一语料更新至所述第一语料库，以实现对所述第一语料库的不断更新；和/或，在所述机器人进入待机状态时，自动从云端采集与所述第二操作信息匹配的第二语料；将所述第二语料更新至所述第二语料库，以实现对所述第二语料库的不断更新；和/或，在所述机器人进入待机状态时，自动从云端采集与所述第三操作信息匹配的第三语料；将所述第三语料更新至所述第三语料库，以实现对所述第三语料库的不断更新。

在上述实现过程中，机器人通过在待机时，采集数据以进行语料库的更新，从而可以使得机器人内的语料库不断进行更新，使得机器人的语料库更加充实与完善，进而使得机器人在执行操作时可以得到输出更加精确的语料或者是能够准确执行用户的指令；同时，还不会影响机器人与用户之间的交互，提高人机交互效率。

可选地，所述分别提取所述第一操作信息所携带的第一语料、所述第二操作信息所携带的第二语料和所述第三操作信息所携带的第三语料，包括：确定所述第一操作信息是否为图像信息；若是，识别所述第一操作信息中的图像；请求访问图像库，所述图像库存储有多个图像，每个图像对应有至少一个语料；从所述图像库中获取与所述图像对应的语料，所述语料作为第一语料；若否，解码所述第一操作信息，得到所述第一操作信息所携带的第一语料；和，确定所述第二操作信息是否为图像信息；若是，识别所述第二操作信息中的图像；请求访问图像库，所述图像库存储有多个图像，每个图像对应有至少一个语料；从所述图像库中获取与所述图像对应的语料，所述语料作为第二语料；若否，解码所述第二操作信息，得到所述第二操作信息所携带的第二语料；和，确定所述第三操作信息是否为图像信息；若是，识别所述第三操作信息中的图像；请求访问图像库，所述图像库存储有多个图像，每个图像对应有至少一个语料；从所述图像库中获取与所述图像对应的语料，所述语料作为第三语料；若否，解码所述第三操作信息，得到所述第三操作信息所携带的第三语料。

在上述实现过程中，通过先分别确认不同的操作信息是否为图像信息，当为图像信息时，识别所述第一操作信息中的图像；请求访问图像库，所述图像库存储有多个图像，每个图像对应有至少一个语料；从所述图像库中获取与所述图像对应的语料。从而可以准确实现对图像信息的操作信息进行语料识别提取，进而可以提高机器人的识别能力，使得机器人更加智能。

可选地，所述第一语料库的构建过程为：采集第一操作的第一操作信息；根据第一预设场景标签，采集获得所述第一操作信息与所述第一预设场景标签对应的第一场景标签值；将所述第一操作信息、所述第一场景标签以及与所述第一场景标签对应的第一场景标签值进行组合，生成与所述第一操作对应的第一语料库；所述第二语料库的构建过程为：采集第二操作的第二操作信息；根据第二预设场景标签，采集获得所述第二操作信息与所述第二预设场景标签对应的第二场景标签值；将所述第二操作信息、所述第二场景标签以及与所述第二场景标签对应的第二场景标签值进行组合，生成与所述第二操作对应的第二语料库；所述第三语料库的构建过程为：采集第三操作的第三操作信息；根据第三预设场景标签，采集获得所述第三操作信息与所述第三预设场景标签对应的第三场景标签值；将所述第三操作信息、所述第三场景标签以及与所述第三场景标签对应的第三场景标签值进行组合，生成与所述第三操作对应的第三语料库。

可选地，所述将所述第一语料存储至与所述第一操作对应的第一语料库、将所述第二语料存储至与所述第二操作对应的第二语料库以及将所述第三语料存储至与所述第三操作对应的第三语料库，包括：获取与所述第一操作对应的第一语料库的第一物理位置；基于所述第一物理位置将所述第一语料发送至所述第一语料库，所述第一语料库验证所述第一语料是否符合存储规则，若不符合，丢弃所述第一语料；若符合，存储所述第一语料；和，获取与所述第二操作对应的第二语料库的第二物理位置；基于所述第二物理位置将所述第二语料发送至所述第二语料库，所述第二语料库验证所述第二语料是否符合存储规则，若不符合，丢弃所述第二语料；若符合，存储所述第二语料；和，获取与所述第三操作对应的第三语料库的第三物理位置；基于所述第三物理位置将所述第三语料发送至所述第三语料库，所述第三语料库验证所述第三语料是否符合存储规则，若不符合，丢弃所述第三语料；若符合，存储所述第三语料。

在上述实现过程中，机器人通过语料库的物理地址访问的方式进行访问语料库，且在访问时，语料库会对机器人发送的语料进行识别验证，在验证识别时，语料库会将机器人发送的语料丢弃(或删除)，以避免将错误的语料进行存储，进而提高语料库的正确性，使得后期机器人在调用语料库中的语料时，可以降低错误语料的使用，提高机器人的智能性。

可选地，所述方法还包括：提取所述第一语料库、所述第二语料库和所述第三语料库中相似语料；将所述相似语料备份至所述共享语料库，其中，所述共享语料库存储所述相似语料以及所述相似语料对应的语料库信息。

在上述实现过程中，通过提取所述第一语料库、所述第二语料库和所述第三语料库中相似语料；将所述相似语料备份至所述共享语料库，从而可以使得在不同操作使用同一相似语料时，可以更加快速的获取，提高数据处理效率。

可选地，所述创建共享语料库至服务器，包括：确定所述第一语料库的存储空间的第一上限值、所述第二语料库的存储空间的第二上限值和所述第三语料库的存储空间的第三上限值；根据所述第一上限值、所述第二上限值和第三上限值，确定待创建的共享语料库的存储空间的下限值；基于所述存储空间的下限值创建共享语料库。

在上述实现过程中，通过分别确定第一语料库、第二语料库和第三语料库的存储空间的上限值的方式，来确定共享语料库的存储空间的下限值，进而使得共享语料库的存储空间的规划更加合理，降低了存储资源浪费的概率。

可选地，所述根据所述第一上限值、所述第二上限值和第三上限值，确定待创建的共享语料库的存储空间的下限值，包括：对所述第一上限值、所述第二上限值和第三上限值进行累加，得到总值；确定所述总值对应的平均值；获取预设阈值与所述平均值的乘积，得到待创建的共享语料库的存储空间的下限值。

可选地，所述根据所述第一上限值、所述第二上限值和第三上限值，确定待创建的共享语料库的存储空间的下限值，包括：获取所述第一语料库的第一使用频率、所述第二语料库的第二使用频率和所述第三语料库的第三使用频率；确定所述第一使用频率、第二使用频率和第三使用频率的总频率；确定所述第一使用频率占所述总频率的第一比值、第二使用频率占所述总频率的第二比值和第三使用频率占所述总频率的第三比值；确定所述第一上限值与所述第一比值的第一乘积、所述第二上限值与所述第二比值的第二乘积和所述第三上限值与所述第三比值的第三乘积；确定第一乘积、第二乘积和第三乘积的总和；所述总和作为待创建的共享语料库的存储空间的下限值。

第二方面，本申请提供的一种基于机器人自主收集语料并创建共享语料库的装置，所述装置包括：采集模块，用于采集在执行第一操作时的第一操作信息、执行第二操作时的第二操作信息以及执行第三操作时的第三操作信息；提取模块，用于分别提取所述第一操作信息所携带的第一语料、所述第二操作信息所携带的第二语料和所述第三操作信息所携带的第三语料；存储模块，用于将所述第一语料存储至与所述第一操作对应的第一语料库、将所述第二语料存储至与所述第二操作对应的第二语料库以及将所述第三语料存储至与所述第三操作对应的第三语料库；创建模块，用于创建共享语料库至服务器，所述共享语料库存储有所述第一语料库、所述第二语料库和所述第三语料库的物理地址和访问所述第一语料库、所述第二语料库和所述第三语料库的权限信息。

上述本申请提供的一种基于机器人自主收集语料并创建共享语料库的方法和装置，通过采集在执行第一操作时的第一操作信息、执行第二操作时的第二操作信息以及执行第三操作时的第三操作信息；分别提取所述第一操作信息所携带的第一语料、所述第二操作信息所携带的第二语料和所述第三操作信息所携带的第三语料；将所述第一语料存储至与所述第一操作对应的第一语料库、将所述第二语料存储至与所述第二操作对应的第二语料库以及将所述第三语料存储至与所述第三操作对应的第三语料库；创建共享语料库至服务器，所述共享语料库存储有所述第一语料库、所述第二语料库和所述第三语料库的物理地址和访问所述第一语料库、所述第二语料库和所述第三语料库的权限信息。从而使得机器人可以在执行操作的同时还可以对不同操作的操作信息进行分类提取，并且通过将分类提取的语料进行分类存储，以提高不同类型的操作信息对应的语料的独立性以及单一性，避免多个操作信息之间的语料混乱。并且通过以第一语料库、所述第二语料库和所述第三语料库的物理地址和访问所述第一语料库、所述第二语料库和所述第三语料库的权限信息的方式来创建共享语料库，可以使得所创建的共享语料库既可以使得第一语料库、第二语料库和第三语料库内的语料进行相互共享，但是也不会出现混乱，提高语料库的使用效率，以及保证数据的独立性。以及还可以将语料库共享给其他机器人，使得其他机器人无需再创建相同语料的语料库。进而节约了人力成本，降低了机器人的配置成本，使得机器人的语料库配置时间极大的缩短。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请第一实施例提供的一种电子设备的结构示意图；

图2为本申请第二实施例提供的一种基于机器人自主收集语料并创建共享语料库的方法的流程图；

图3为本申请第三实施例提供的一种基于机器人自主收集语料并创建共享语料库的装置的功能模块示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

第一实施例

图1为本申请实施例提供的一种电子设备的结构示意图，在本申请中可以通过图1所示的示意图来描述用于实现本申请实施例的基于机器人自主收集语料并创建共享语料库的方法和装置的示例的电子设备100。

也就是说，电子设备100可以执行第二实施例所述的基于机器人自主收集语料并创建共享语料库的方法；或者是实现第三实施例所示的基于机器人自主收集语料并创建共享语料库的装置的功能。具体地，请参照对应实施例，在此，不再赘述。

如图1所示的一种电子设备的结构示意图，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108，这些组件通过总线系统和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备可以具有图1示出的部分组件，也可以具有图1未示出的其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以是无线通信模块、显示器等输出设备。例如，当输出装置108位无线通信模块时，可以将共享语料库中提出的语料输出至客户端(即用户终端)。

第二实施例：

参照图2所示的一种基于机器人自主收集语料并创建共享语料库的方法的流程图，方法具体包括如下步骤：

步骤S201，采集在执行第一操作时的第一操作信息、执行第二操作时的第二操作信息以及执行第三操作时的第三操作信息。

步骤S202，分别提取所述第一操作信息所携带的第一语料、所述第二操作信息所携带的第二语料和所述第三操作信息所携带的第三语料。

作为一种实施方式，步骤S202，包括：确定所述第一操作信息是否为图像信息；若是，识别所述第一操作信息中的图像；请求访问图像库，所述图像库存储有多个图像，每个图像对应有至少一个语料；从所述图像库中获取与所述图像对应的语料，所述语料作为第一语料；若否，解码所述第一操作信息，得到所述第一操作信息所携带的第一语料；和，确定所述第二操作信息是否为图像信息；若是，识别所述第二操作信息中的图像；请求访问图像库，所述图像库存储有多个图像，每个图像对应有至少一个语料；从所述图像库中获取与所述图像对应的语料，所述语料作为第二语料；若否，解码所述第二操作信息，得到所述第二操作信息所携带的第二语料；和，确定所述第三操作信息是否为图像信息；若是，识别所述第三操作信息中的图像；请求访问图像库，所述图像库存储有多个图像，每个图像对应有至少一个语料；从所述图像库中获取与所述图像对应的语料，所述语料作为第三语料；若否，解码所述第三操作信息，得到所述第三操作信息所携带的第三语料。

步骤S203，将所述第一语料存储至与所述第一操作对应的第一语料库、将所述第二语料存储至与所述第二操作对应的第二语料库以及将所述第三语料存储至与所述第三操作对应的第三语料库。

作为一种实施方式，步骤S203，包括：获取与所述第一操作对应的第一语料库的第一物理位置；基于所述第一物理位置将所述第一语料发送至所述第一语料库，所述第一语料库验证所述第一语料是否符合存储规则，若不符合，丢弃所述第一语料；若符合，存储所述第一语料；和，获取与所述第二操作对应的第二语料库的第二物理位置；基于所述第二物理位置将所述第二语料发送至所述第二语料库，所述第二语料库验证所述第二语料是否符合存储规则，若不符合，丢弃所述第二语料；若符合，存储所述第二语料；和，获取与所述第三操作对应的第三语料库的第三物理位置；基于所述第三物理位置将所述第三语料发送至所述第三语料库，所述第三语料库验证所述第三语料是否符合存储规则，若不符合，丢弃所述第三语料；若符合，存储所述第三语料。

作为一种实施方式，所述第一语料库的构建过程为：采集第一操作的第一操作信息；根据第一预设场景标签，采集获得所述第一操作信息与所述第一预设场景标签对应的第一场景标签值；将所述第一操作信息、所述第一场景标签以及与所述第一场景标签对应的第一场景标签值进行组合，生成与所述第一操作对应的第一语料库；所述第二语料库的构建过程为：采集第二操作的第二操作信息；根据第二预设场景标签，采集获得所述第二操作信息与所述第二预设场景标签对应的第二场景标签值；将所述第二操作信息、所述第二场景标签以及与所述第二场景标签对应的第二场景标签值进行组合，生成与所述第二操作对应的第二语料库；所述第三语料库的构建过程为：采集第三操作的第三操作信息；根据第三预设场景标签，采集获得所述第三操作信息与所述第三预设场景标签对应的第三场景标签值；将所述第三操作信息、所述第三场景标签以及与所述第三场景标签对应的第三场景标签值进行组合，生成与所述第三操作对应的第三语料库。

步骤S204，创建共享语料库至服务器。

其中，所述共享语料库存储有所述第一语料库、所述第二语料库和所述第三语料库的物理地址和访问所述第一语料库、所述第二语料库和所述第三语料库的权限信息。

作为一种实施方式，步骤S204，包括：确定所述第一语料库的存储空间的第一上限值、所述第二语料库的存储空间的第二上限值和所述第三语料库的存储空间的第三上限值；根据所述第一上限值、所述第二上限值和第三上限值，确定待创建的共享语料库的存储空间的下限值；基于所述存储空间的下限值创建共享语料库。

在一可能的实施例中，所述方法还包括：在所述机器人进入待机状态时，自动从云端采集与所述第一操作信息匹配的第一语料；将所述第一语料更新至所述第一语料库，以实现对所述第一语料库的不断更新；和/或，在所述机器人进入待机状态时，自动从云端采集与所述第二操作信息匹配的第二语料；将所述第二语料更新至所述第二语料库，以实现对所述第二语料库的不断更新；和/或，在所述机器人进入待机状态时，自动从云端采集与所述第三操作信息匹配的第三语料；将所述第三语料更新至所述第三语料库，以实现对所述第三语料库的不断更新。

在上述实现过程中，机器人通过在待机时，自动从云端采集与所述第一操作信息匹配的第一语料；将所述第一语料更新至所述第一语料库，以实现对所述第一语料库的不断更新；和/或，在所述机器人进入待机状态时，自动从云端采集与所述第二操作信息匹配的第二语料；将所述第二语料更新至所述第二语料库，以实现对所述第二语料库的不断更新；和/或，在所述机器人进入待机状态时，自动从云端采集与所述第三操作信息匹配的第三语料；将所述第三语料更新至所述第三语料库，以实现对所述第三语料库的不断更新，从而可以使得机器人内的语料库不断进行更新，使得机器人的语料库更加充实与完善，进而使得机器人在执行操作时可以得到输出更加精确的语料或者是能够准确执行用户的指令；同时，还不会影响机器人与用户之间的交互，提高人机交互效率。

在一可能的实施例中，所述方法还包括：提取所述第一语料库、所述第二语料库和所述第三语料库中相似语料；将所述相似语料备份至所述共享语料库，其中，所述共享语料库存储所述相似语料以及所述相似语料对应的语料库信息。

第三实施例：

参见图3所示的一种基于机器人自主收集语料并创建共享语料库的装置，该基于机器人自主收集语料并创建共享语料库的装置400包括：

采集模块410，用于采集在执行第一操作时的第一操作信息、执行第二操作时的第二操作信息以及执行第三操作时的第三操作信息。

提取模块420，用于分别提取所述第一操作信息所携带的第一语料、所述第二操作信息所携带的第二语料和所述第三操作信息所携带的第三语料。

可选地，提取模块420，还用于确定所述第一操作信息是否为图像信息；若是，识别所述第一操作信息中的图像；请求访问图像库，所述图像库存储有多个图像，每个图像对应有至少一个语料；从所述图像库中获取与所述图像对应的语料，所述语料作为第一语料；若否，解码所述第一操作信息，得到所述第一操作信息所携带的第一语料；和，确定所述第二操作信息是否为图像信息；若是，识别所述第二操作信息中的图像；请求访问图像库，所述图像库存储有多个图像，每个图像对应有至少一个语料；从所述图像库中获取与所述图像对应的语料，所述语料作为第二语料；若否，解码所述第二操作信息，得到所述第二操作信息所携带的第二语料；和，确定所述第三操作信息是否为图像信息；若是，识别所述第三操作信息中的图像；请求访问图像库，所述图像库存储有多个图像，每个图像对应有至少一个语料；从所述图像库中获取与所述图像对应的语料，所述语料作为第三语料；若否，解码所述第三操作信息，得到所述第三操作信息所携带的第三语料。

存储模块430，用于将所述第一语料存储至与所述第一操作对应的第一语料库、将所述第二语料存储至与所述第二操作对应的第二语料库以及将所述第三语料存储至与所述第三操作对应的第三语料库。

可选地，存储模块430，还用于获取与所述第一操作对应的第一语料库的第一物理位置；基于所述第一物理位置将所述第一语料发送至所述第一语料库，所述第一语料库验证所述第一语料是否符合存储规则，若不符合，丢弃所述第一语料；若符合，存储所述第一语料；和，获取与所述第二操作对应的第二语料库的第二物理位置；基于所述第二物理位置将所述第二语料发送至所述第二语料库，所述第二语料库验证所述第二语料是否符合存储规则，若不符合，丢弃所述第二语料；若符合，存储所述第二语料；和，获取与所述第三操作对应的第三语料库的第三物理位置；基于所述第三物理位置将所述第三语料发送至所述第三语料库，所述第三语料库验证所述第三语料是否符合存储规则，若不符合，丢弃所述第三语料；若符合，存储所述第三语料。

创建模块440，用于创建共享语料库至服务器，所述共享语料库存储有所述第一语料库、所述第二语料库和所述第三语料库的物理地址和访问所述第一语料库、所述第二语料库和所述第三语料库的权限信息。

可选地，创建模块440还用于确定所述第一语料库的存储空间的第一上限值、所述第二语料库的存储空间的第二上限值和所述第三语料库的存储空间的第三上限值；根据所述第一上限值、所述第二上限值和第三上限值，确定待创建的共享语料库的存储空间的下限值；基于所述存储空间的下限值创建共享语料库。

在一可能的实施例中，基于机器人自主收集语料并创建共享语料库的装置400，还包括：更新模块，所述更新模块，用于在所述机器人进入待机状态时，自动从云端采集与所述第一操作信息匹配的第一语料；将所述第一语料更新至所述第一语料库，以实现对所述第一语料库的不断更新；和/或，在所述机器人进入待机状态时，自动从云端采集与所述第二操作信息匹配的第二语料；将所述第二语料更新至所述第二语料库，以实现对所述第二语料库的不断更新；和/或，在所述机器人进入待机状态时，自动从云端采集与所述第三操作信息匹配的第三语料；将所述第三语料更新至所述第三语料库，以实现对所述第三语料库的不断更新。

在一可能的实施例中，基于机器人自主收集语料并创建共享语料库的装置400，还包括：处理模块，所述处理模块，用于提取所述第一语料库、所述第二语料库和所述第三语料库中相似语料；将所述相似语料备份至所述共享语料库，其中，所述共享语料库存储所述相似语料以及所述相似语料对应的语料库信息。

进一步，本实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理设备运行时执行上述第二实施例提供的任一项基于机器人自主收集语料并创建共享语料库的方法的步骤。

本申请实施例所提供的一种基于机器人自主收集语料并创建共享语料库的方法和装置的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

综上所述，本申请提供一种基于机器人自主收集语料并创建共享语料库的方法和装置，通过采集在执行第一操作时的第一操作信息、执行第二操作时的第二操作信息以及执行第三操作时的第三操作信息；分别提取所述第一操作信息所携带的第一语料、所述第二操作信息所携带的第二语料和所述第三操作信息所携带的第三语料；将所述第一语料存储至与所述第一操作对应的第一语料库、将所述第二语料存储至与所述第二操作对应的第二语料库以及将所述第三语料存储至与所述第三操作对应的第三语料库；创建共享语料库至服务器，所述共享语料库存储有所述第一语料库、所述第二语料库和所述第三语料库的物理地址和访问所述第一语料库、所述第二语料库和所述第三语料库的权限信息。从而使得机器人可以在执行操作的同时还可以对不同操作的操作信息进行分类提取，并且通过将分类提取的语料进行分类存储，以提高不同类型的操作信息对应的语料的独立性以及单一性，避免多个操作信息之间的语料混乱。并且通过以第一语料库、所述第二语料库和所述第三语料库的物理地址和访问所述第一语料库、所述第二语料库和所述第三语料库的权限信息的方式来创建共享语料库，可以使得所创建的共享语料库既可以使得第一语料库、第二语料库和第三语料库内的语料进行相互共享，但是也不会出现混乱，提高语料库的使用效率，以及保证数据的独立性。以及还可以将语料库共享给其他机器人，使得其他机器人无需再创建相同语料的语料库。进而节约了人力成本，降低了机器人的配置成本，使得机器人的语料库配置时间极大的缩短。

需要说明的是，上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于机器人自主收集语料并创建共享语料库的方法和装置 [P] . 中国专利： CN112347777A . 2021-02-09
2. 一种创建共享语料库的方法 [P] . 中国专利： CN106649280A . 2017-05-10
3. CORPUS MONITORING METHOD BASED ON MASK LANGUAGE MODEL, CORPUS MONITORING APPARATUS, DEVICE, AND MEDIUM [P] . WO2021151292A1 . 2021-08-05

机译：基于掩模语言模型的语料库监控方法，语料库监控装置，设备和媒体
4. SYSTEMS AND METHODS FOR AUTOMATICALLY CONFIGURING TRAINING DATA FOR TRAINING MACHINE LEARNING MODELS OF A MACHINE LEARNING-BASED DIALOGUE SYSTEM INCLUDING SEEDING TRAINING SAMPLES OR CURATING A CORPUS OF TRAINING DATA BASED ON INSTANCES OF TRAINING DATA IDENTIFIEDAS ANOMALOUS [P] . 美国专利： US2020193331A1 . 2020-06-18

机译：用于自动配置基于机器学习的对话系统的训练机器学习模型的训练数据的系统和方法，包括基于异常的训练数据标识的实例的训练样本或创建训练数据的语料库
5. ARTIFICIAL INTELLIGENCE-BASED CORPUS COLLECTING METHOD, APPARATUS, DEVICE, AND STORAGE MEDIUM [P] . 世界知识产权组织专利： WO2020155750A1 . 2020-08-06

机译：基于人工智能的语料库收集方法，装置，设备和存储介质