首页> 中国专利> 一种基于主动学习技术的机器人数据收集迭代训练方法、系统以及储存介质

一种基于主动学习技术的机器人数据收集迭代训练方法、系统以及储存介质

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明公开了一种基于主动学习技术的机器人数据收集迭代训练方法、系统以及储存介质，包括如下步骤：S1、取预设比例的已标注的图片数据作为训练数据，并将剩下比例的图片数据作为测试数据；S2、建立监督深度学习模型，并用所述训练数据对深度学习模型进行训练优所述监督深度学习模型；S3、用所述测试数据对所述监督深度学习模型检测结果的置信度进行检测；S4、制定机器人收集粗略业务数据集策略，并收集的粗略业务数据集；S5、引入主动学习课程指导主动学习过程挖掘对收集的粗略业务数据中低置信度样本进行人工标注，本专利借助主动学习技术，实现了一种半监督的机器人数据收集迭代系统，大大提高了数据收集的有效性，减少了人工标注的成本。

著录项

公开/公告号CN112906902A

专利类型发明专利
公开/公告日2021-06-04

原文格式PDF
申请/专利权人上海有个机器人有限公司;
展开▼

申请/专利号CN202011533507.5
发明设计人秦豪;赵明;
展开▼

申请日2020-12-22
分类号G06N20/00(20190101);G06K9/62(20060101);
代理机构11421 北京天盾知识产权代理有限公司;
代理人梁秀秀
地址 200120 上海市浦东新区南汇新城镇环湖西二路888号
入库时间 2023-06-19 11:14:36

说明书

技术领域

本发明涉及图像标注领域技术领域，尤其涉及一种基于主动学习技术的机器人数据收集迭代训练方法、系统以及储存介质。

背景技术

随着深度学习的发展，工业界越来越依赖目标检测，语义分割等监督学习技术，这类技术需要带特定标注数据作为支撑，通常来说，业务数据量越丰富，机器人目标检测识别率越高，而标注数据需要依靠有一定培训经验的人工标注，但在实际业务场景中，大批量数据的标注成本较高。

主动学习是一种通过技术手段或者数学方法来降低标注成本，提高数据集质量的一种方法，在机器人收集回放的无标签数据，运用主动学习的手段，挑选出有效的业务数据，并预打标签，再由人工审核微调标签，大大降低标注成本。

发明内容

本发明的目的之一在于，借助主动学习技术，筛选有效的业务数据，降低标注成本。

为实现上述目的，本发明提供了一种一种机器人数据收集迭代系统一种基于主动学习技术的机器人数据收集迭代训练方法，其特征在于，包括如下步骤：

S1、取预设比例的已标注的图片数据作为训练数据，并将剩下比例的图片数据作为测试数据；

S2、建立监督深度学习模型，并用所述训练数据对深度学习模型进行训练优所述监督深度学习模型；

S3、用所述测试数据对所述监督深度学习模型检测结果的置信度进行检测；

S4、制定机器人收集粗略业务数据集策略，并收集的粗略业务数据集；

S5、引入主动学习课程指导主动学习过程挖掘对收集的粗略业务数据中低置信度样本进行人工标注。

进一步地，还包括：收集和保存已标注的业务数据；

将图片中所有待检测的目标标注，记录每个目标类别，位置信息。

进一步地，所述S1具体步骤包括：从数据池中随机抽取70％数据作为训练数据，剩余30％数据作为测试数据，并将这类数据图片名称保存在不同的名称中两个文件中。

进一步地，采用随机梯度下降法、SGD和动量法方式分别用 YogoMini训练模型、YogoSmall训练模型、YogoMedium训练模型和 YogoBig训练模型对所述标记数据进行训练，其中，学习动量参数设定为0.9，卷积参数L

训练多次后终止训练保存各个检测器网络参数。

进一步地，设定粗略收集业务数据的标准；

在机器人运动决策层实施埋点，在机器人运动状态时，间隔预设时间内保存摄像头捕捉到的数据；

当业务模型识别结果影响机器人规划决策时，此时的摄像头数据设定为关键数据，并按照时间戳命名的方式保存，最后整合两组数据去除同名文件。

进一步地，将业务池中收集到的未标注数据集打包分别放入模型池中多个个不同规模的模型测试，保存不同模型的测试结果；

根据不同模型的测试结果采用一种交叉熵的策略筛选有效数据；

对粗略收集的业务数据集中所有数据按照D

按照各个模型定位差异筛选数据。

进一步地，本专利采用交并比(IOU)的方式计算各个模型直接结果定位差异性

所述业务数据集中初次挑选后的数据按照D

进一步地，引入主动学习采用人工微调模型的输出结果，剔除重复的，无效的数据，并将调整完毕的数据放入数据池中，更新模型池图片，标定文件及训练文件。

一种基于主动学习技术的机器人数据收集迭代训练的系统，数据池模块、模型池模块、业务池模块、备选数据池模块和人工审核模；

所述数据池模块，用于存放机器人摄像头收集并已标注的业务数据，并将所述业务数据输送给所述模型池模块；

模型池模块包含多个参数规模的目标检测参考模型组以及一个业务模型，用于获取所述数据池模块中存储的任务数据并进行处理；

所述业务池模块，用于机器人在各个业务场景中，设定粗略收集业务数据的标准；

所述备选数据池模块，用于注数据集打包分别放入模型池中多个不同规模的模型测试；

所述人工审核模块，用于数据集人工审核，并微调模型的输出结果，剔除重复的，无效的数据，并将调整完毕的数据放入数据池中，更新所述模型池图片，标定文件及训练文。

一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现上述段落所述基于主动学习技术的机器人数据收集迭代训练的方法

与现有技术相比，本发明具有如下技术效果：

本专利借助主动学习技术，实现了一种半监督的机器人数据收集迭代系统，大大提高了数据收集的有效性，减少了人工标注的成本。具体地，本发明内容主要是通过获得一些机器人的采集的图片数据，采用机器人的备选数据池还保存有粗略收集的业务数据，采用交叉熵的策略筛选粗略收集的业务数据中的有效数据；分别用 YogoMini训练模型、YogoSmall训练模型、YogoMedium训练模型和 YogoBig训练模型对所述粗略收集的业务数据进行多对一地对数据进行检测可以完成，增加检测的置信度，采用海量的标识的后的图片数据对YogoMini训练模型、YogoSmall训练模型、YogoMedium 训练模型和YogoBig训练模型进行训练和测试，同时融入人工标注经验，可以优化模型，进一步地增加检测的可信度；经过不断地挑选，最终减少了人工进行标注的数量。

附图说明

为了更清楚地说明本公开具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1本发明实施例提供的一种基于主动学习技术的机器人数据收集迭代训练方法流程图；

图2本发明实施例提供的一种IOU计算示意图；

图3本发明实施例提供的一种基于主动学习技术的机器人数据收集迭代训练的系统示意图；

图4中提供了一种业务模块运行流程图；

图5提供了一种备选数据模块处理流程图；

图6为本发明实施例提供的一种控制器的电路结构示意图；

表1模型参考数值表。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。这里将详细地对示例行实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或者相似的要素。以下示例性实施例中所述描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与所述附图权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

需要说明的是，如果不冲突，本发明实施例中的各个特征可以相互结合，均在本发明的保护范围之内。另外，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。再者，本发明所采用的“第一”、“第二”、“第三”等字样并不对数据和执行次序进行限定，仅是对功能和作用基本相同的相同项或相似项进行区分。

在一些实施例中，图1提供一种基于主动学习技术的机器人数据收集迭代训练方法流程图，包括如下步骤：

S1、取预设比例的已标注的图片数据作为训练数据，并将剩下比例的图片数据作为测试数据，其中，所述已经标注的数据包括伪标注数据、已经人工标注好的数据和通过训练模型已经完成标记的业务数据集；

S2、建立监督深度学习模型，并用所述训练数据对深度学习模型进行训练优所述监督深度学习模型；

S3、用所述测试数据对所述监督深度学习模型检测结果的置信度进行检测；

S4、制定机器人收集粗略业务数据集策略，并收集的粗略业务数据集，机器人采用一定的业务数据策略收集样品在一定程度上可以减少进一步处理样品的时间；

S5、引入主动学习课程指导主动学习过程挖掘对收集的粗略业务数据中低置信度样本进行人工标注，低置信度的样本无法获得需要进行人工标注，当然，所述已经标注的数据包括伪标注数据、已经人工标注好的数据可以循环到步骤S1-步骤S3实现对监督深度学习模型不断循环优化和检测，从而增加对监督深度学习模型的标注的置信度。

在本实施例中，还包括：收集和保存已标注的业务数据；将图片中所有待检测的目标标注，记录每个目标类别，位置信息，具体地，数据池存放机器人摄像头收集并已标注的业务数据，每一张图片文件，对应同名标注XML格式文件，标注风格采用PASCALVOC，将图片中所有待检测的目标标注，记录每个目标类别，位置信息，供监督学习的深度模型训练。示意地，从数据池中随机抽取70％数据作为训练数据，剩余30％数据作为测试数据，当然抽取的比例并不是一定比如50％，这个和样品的基数有关，在实施一些训练和测试中，理论上越多的样品，模型优化程度越高和检测结果的可信度越高，在实际训练想要达到得到足够的优化的模型，需要大量的时间和样品对模型进行训练，本申请中循环已经标注的图片对数据进行模型处理，并在处理的过程中融入人工标注经验，不断地优化模型；另外将这类数据图片名称保存在train.txt和test.txt两个文件中，文件的名称并不限于此种情况，只需要用来区别两者文件即可。

在本实施例中，用已经标记的数据采用随机梯度下降法、SGD 和动量法方式分别对用YogoMini训练模型、YogoSmall训练模型、YogoMedium训练模型和YogoBig训练模型进行训练，训练多次后终止训练保存各个检测器网络参数，具体地，模型池模块包含多个参数规模的目标检测参考模型组以及一个业务模型，通常，机器人端设备算力限制，以及对实时性的要求，业务模(YogoMini)参数量规模最小，识别率也较低。本专利参考模型组包含3种参数量规模的模型(YogoSmall,YogoMedium,YogoBig)，其，4模型参数量表1：

表1模型参数值表

参考数据池中已标注数据，分别训练模型池中YogoMini训练模型、YogoSmall训练模型、YogoMedium训练模型和YogoBig训练模，训练方式采用随机梯度下降法SGD+动量法，其中，优先地，学习动量参数设定为0.9，卷积参数L

在本实施例优先技术中，训练100次后终止训练并保存各个检测器网络参数，其中，理论上讲训练次数越多，对YogoMini训练模型、YogoSmall训练模型、YogoMedium训练模型和YogoBig训练模的优化程度越高，但为节约时间，采取训练100次的方式对样品进行训练。

在本实施例中，设定粗略收集业务数据的标准；

在机器人运动决策层实施埋点，在机器人运动状态时，具体地，间隔预设时间内保存摄像头捕捉到的数据；更加具体地，当业务模型识别结果影响机器人规划决策时，此时的摄像头数据设定为关键数据，并按照时间戳命名的方式保存，最后整合两组数据去除同名文件，机器人在各个业务场景中，设定粗略收集业务数据的标准。在机器人运动决策层实施埋点，在机器人运动状态时，每隔1s保存摄像头捕捉到的数据。与其同时，当业务模型识别结果影响机器人规划决策时，此时的摄像头数据设定为关键数据，并按照时间戳命名的方式保存下来，最后整合两组数据去除同名文件。

在本实施例中，将业务池中收集到的未标注数据集打包分别放入模型池中4个不同规模的模型测试，其中，4个不同模型分别为YogoMini训练模型、YogoSmall训练模型、YogoMedium训练模型和 YogoBig训练模，保存不同模型的测试结果。

result

其中，所述(x

根据不同模型的测试结果，本专利定义一种交叉熵的策略筛选有效数据，交叉熵(CE)定义如下：

CE(s

其中，S

定义4个模型置信度score的差异化D

具体地，D

其中，S

向模型中引入置信度来评定数据的可靠性，对粗略收集的业务数据集中所有数据按照D

接着按照YogoMini训练模型、YogoSmall训练模型、YogoMedium 训练模型和YogoBig训练模各个模型定位(x

本专利采用交并比(IOU)的方式计算各个模型直接结果定位差异性。IOU计算公式如下：

IOU＝C/(A+B-C)

另外，图2提供了一种IOU计算示意图，图中A部分和B部分相互重叠部分形成C部分，其中，YogoMini训练模型、YogoSmall 训练模型、YogoMedium训练模型和YogoBig训练模中得出的筛选的数据(x

具体地，对所述YogoMini训练模型、YogoSmall训练模型、 YogoMedium训练模型和YogoBig训练模的筛选数据的(x

D(bb0x

其中，Bbox

在本实施例中，业务数据集中初次挑选后的数据按照D

在本实施例中，引入主动学习采用人工微调模型的输出结果，剔除重复的，无效的数据，并将调整完毕的数据放入数据池中，更新模型池图片，标定文件及训练文件。

在一些实施例中，在图3中提供了一种基于主动学习技术的机器人数据收集迭代训练的系统，包括：数据池模块、模型池模块、业务池模块、备选数据池模块和人工审核模；

所述数据池模块，用于存放机器人摄像头收集并已标注的业务数据，并将所述业务数据输送给所述模型池模块；

模型池模块包含多个参数规模的目标检测参考模型组以及一个业务模型，用于获取所述数据池模块中存储的任务数据并进行处理；

所述业务池模块，用于机器人在各个业务场景中，设定粗略收集业务数据的标准；

所述备选数据池模块，用于注数据集打包分别放入模型池中多个不同规模的模型测试；

(1)数据池模块

数据池存放机器人摄像头收集并已标注的业务数据，每一张图片文件，对应同名标注XML格式文件，标注风格采用PASCAL VOC，将图片中所有待检测的目标标注，记录每个目标类别，位置信息，供监督学习的深度模型训练。从数据池中随机抽取70％数据作为训练数据，剩余30％数据作为测试数据，并将这类数据图片名称保存在train.txt和test.txt两个文件中。

(2)模型池模块

模型池模块包括YogoMini训练模型、YogoSmall训练模型、 YogoMedium训练模型和YogoBig训练模型；

采用多对一的方式对未标记图片数据进行处理。

(3)业务池模块

业务池模块包括业务模型、粗收集数据池、机器人和决策规划模块；在图4中提供了一种业务模块运行流程图，机器人在各个业务场景中，设定粗略收集业务数据的标准。在机器人运动决策层实施埋点，在机器人运动状态时，每隔1s保存摄像头捕捉到的数据。与其同时，当业务模型识别结果影响机器人规划决策时，此时的摄像头数据设定为关键数据，并按照时间戳命名的方式保存下来，最后整合两组数据去除同名文件。

(4)备选数据模块

图5提供了一种备选数据模块处理流程图，在所述备选数据模块还包括模型池和备选数据池，其中，所述备选数据池将业务池中收集到的未标注数据集打包分别放入模型池中用YogoMini训练模型、YogoSmall训练模型、YogoMedium训练模型和YogoBig训练模型不同规模的模型测试，保存不同模型的测试结果；

另外，备选数据池还保存有粗略收集的业务数据，采用交叉熵的策略筛选粗略收集的业务数据中的有效数据。

所述备选池的中的粗略收集的业务数据经过模型池按照D

(5)人工审核模块

人工微调模型的输出结果，剔除重复的，无效的数据，并将调整完毕的数据放入数据池中，更新模型池图片，标定文件及训练文件。

为了便于理解本发明申请的内容需要解释地，机器学习的研究领域包括有监督学习，无监督学习、半监督学习和强化学习等诸多模型。针对有监督学习和强化学习，多需要一定数量的标注数据，也就是说在训练模型的时候，全部或者部分数据需要带上相应的标签才能进行模型的训练。

在通过一些技术手段或者数学方法来降低人们标注的成本，学者们把这个方向称之为主动学习。在整个机器学习建模的过程中有人工参与的部分和环节，并且通过机器人学习方法筛选出合适的获选集给人工标注的过程。

本发明的主要思路；通过机器学习的方法获取到那些比较难分类的样本数据，让人工再次确认和审核，然后将人工标注得到的数据再次使用有监督学习模型或者半监督学习模型进行训练，逐步提升模型的效果，将人工经验融入机器学习的模型中。

具体地，其中，本发明内容主要是通过获得一些机器人的采集的图片数据，采用机器人的备选数据池还保存有粗略收集的业务数据，采用交叉熵的策略筛选粗略收集的业务数据中的有效数据；分别用YogoMini训练模型、YogoSmall训练模型、YogoMedium训练模型和YogoBig训练模型对所述粗略收集的业务数据进行多对一地对数据进行检测可以完成，增加检测的置信度，采用海量的标识的后的图片数据对YogoMini训练模型、YogoSmall训练模型、 YogoMedium训练模型和YogoBig训练模型进行训练和测试，同时融入人工标注经验，可以优化模型，进一步地增加检测的可信度；经过不断地挑选，最终减少了人工进行标注的数量。

图3是本发明实施例提供的一种控制器的电路结构示意图。如图3所示，该控制器600包括一个或多个处理器61以及存储器62。其中，图3中以一个处理器61为例。

处理器61和存储器62可以通过总线或者其他方式连接，图3 中以通过总线连接为例。

存储器62作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，如本发明实施例中的机器人的基于主动学习技术的机器人数据收集迭代训练方法对应的程序指令/模块。处理器61通过运行存储在存储器62中的非易失性软件程序、指令以及模块，从而执行机器人的多任务递送装置的各种功能应用以及数据处理，即实现上述方法实施例提供的机器人的基于主动学习技术的机器人数据收集迭代训练方法以及上述装置实施例的各个模块或单元的功能。

存储器62可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器62可选包括相对于处理器61远程设置的存储器，这些远程存储器可以通过网络连接至处理器61。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述程序指令/模块存储在所述存储器62中，当被所述一个或者多个处理器61执行时，执行上述任意方法实施例中的机器人的基于主动学习技术的机器人数据收集迭代训练方法。

本发明实施例还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，例如图3中的一个处理器61，可使得上述一个或多个处理器可执行上述任意方法实施例中的机器人的基于主动学习技术的机器人数据收集迭代训练方法。

本发明实施例还提供了一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被电子设备执行时，使所述电子设备执行任一项所述的机器人的基于主动学习技术的机器人数据收集迭代训练方法。

以上所描述的装置或设备实施例仅仅是示意性的，其中所述作为分离部件说明的单元模块可以是或者也可以不是物理上分开的，作为模块单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络模块单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明，它们没有在细节中提供；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种机器人楼宇间运输方法以及设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于主动学习技术的机器人数据收集迭代训练方法、系统以及储存介质 [P] . 中国专利： CN112906902A . 2021-06-04
2. 基于虚拟现实技术的针灸训练方法、装置、设备、存储介质及系统 [P] . 中国专利： CN111540263A . 2020-08-14
3. SYSTEM AND METHOD FOR DETECTING BOTS BASED ON ITERATIVE CLUSTERING AND FEEDBACK-DRIVEN ADAPTIVE LEARNING TECHNIQUES [P] . 美国专利： US2020099713A1 . 2020-03-26

机译：基于迭代聚类和反馈驱动的自适应学习技术的机器人检测系统及方法
4. METHOD AND APPARATUS FOR TRAINING A CHARACTER DETECTOR BASED ON WEAK SUPERVISION, SYSTEM AND MEDIUM [P] . 美国专利： US2020250416A1 . 2020-08-06

机译：一种基于弱监督的字符检测器训练方法及装置，系统和介质
5. METHOD AND APPARATUS FOR TRAINING A CHARACTER DETECTOR BASED ON WEAK SUPERVISION, SYSTEM AND MEDIUM [P] . 美国专利： US2019205638A1 . 2019-07-04

机译：一种基于弱监督的字符检测器训练方法及装置，系统和介质