首页> 中国专利> 基于多智能体协作系统的深度强化学习方法和装置

基于多智能体协作系统的深度强化学习方法和装置

摘要

本发明提供一种基于多智能体协作系统的深度强化学习方法和装置,涉及人工智能技术领域,所述方法包括:在一次深度强化学习中,基于预先构建的深度强化学习网络和当前观测数据获取多智能体协作系统对应协作图的当前分配调整动作,基于当前分配调整动作获取当前奖惩数据,基于当前奖惩数据优化深度强化学习网络,重复执行上述步骤,直至达到预设收敛条件或者达到预设学习次数;通过多次深度强化学习更新协作图的当前分配调整动作,而不更新智能体的实际动作,以简化深度强化学习的步骤,实现在深度强化学习奖励稀疏的情况下,快速地进行多次深度强化学习积累更多的奖励,从而提高深度强化学习网络的训练效率以及收敛速度慢。

著录项

  • 公开/公告号CN114792133A

    专利类型发明专利

  • 公开/公告日2022-07-26

    原文格式PDF

  • 申请/专利权人 中国科学院自动化研究所;

    申请/专利号CN202210715660.2

  • 申请日2022-06-23

  • 分类号G06N3/08;G06N3/04;G06K9/62;

  • 代理机构北京路浩知识产权代理有限公司;

  • 代理人梁军丽

  • 地址 100190 北京市海淀区中关村东路95号

  • 入库时间 2023-06-19 16:08:01

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-26

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及人工智能技术领域,尤其涉及一种基于多智能体协作系统的深度强化学习方法和装置。

背景技术

随着人工智能技术的迅猛发展,深度强化学习作为走向通用人工智能技术的途径,其所受到的关注也越来越多,应用范围也越来越广泛。随着深度强化学习进一步应用推广,其在多智能体协作技术领域的研究也逐渐增多。

现有技术中,由于深度强化学习普遍存在奖励稀疏的问题,因此将深度强化学习应用于多智能体协作系统时,稀疏的奖励很可能会引入偏差,使得智能体无法学习到多智能体协作系统所期望的协作行为,导致多智能体协同训练效率低以及收敛速度慢的问题。

因此,现有技术中由于深度强化学习网络的奖励稀疏导致多智能体协同训练效率低以及收敛速度慢的技术问题,相关领域技术人员尚无有效解决方法。

发明内容

本发明提供一种基于多智能体协作系统的深度强化学习方法和装置,用以解决现有技术中现有技术中由于深度强化学习网络的奖励稀疏导致多智能体协同训练效率低以及收敛速度慢的缺陷,提高多智能体协同训练效率以及加快收敛速度。

本发明提供一种基于多智能体协作系统的深度强化学习方法,包括:获取所述多智能体协作系统中每一智能体的当前观测数据,所述当前观测数据包括智能体观测范围内其他智能体和待处理目标的状态数据;在一次深度强化学习中,基于预先构建的深度强化学习网络和所述当前观测数据获取多智能体协作系统对应协作图的当前分配调整动作,基于所述当前分配调整动作获取当前奖惩数据,并基于所述当前奖惩数据优化所述深度强化学习网络;所述当前分配调整动作用于调整所述协作图中智能体和集群的分配方案;重复执行上述步骤,直至达到预设收敛条件或者达到预设学习次数;将当前深度强化学习网络作为目标深度强化学习网络。

根据本发明提供的一种基于多智能体协作系统的深度强化学习方法,所述基于预先构建的深度强化学习网络和所述当前观测数据获取多智能体协作系统对应协作图的当前分配调整动作,包括:将所述当前观测数据输入至所述深度强化学习网络中的多层感知机模块,得到所述其他智能体的第一状态特征和所述待处理目标的第二状态特征;将所述第一状态特征和所述第二状态特征输入至所述深度强化学习网络中的第一注意力机制模块,得到第三状态特征;将所述第一状态特征、所述第二状态特征和所述第三状态特征输入至所述深度强化学习网络中的第二注意力机制模块,得到目标状态特征;将所述目标状态特征输入至所述深度强化学习网络中的动作编码模块,得到所述当前分配调整动作。

根据本发明提供的一种基于多智能体协作系统的深度强化学习方法,所述重复执行上述步骤,直至达到预设收敛条件或者达到预设学习次数,包括:获取当前学习次数,判断所述当前学习次数是否达到预设学习次数,在所述当前学习次数达到预设学习次数的情况下,停止执行上述步骤;在所述当前学习次数未达到预设学习次数的情况下,获取多次深度强化学习的奖惩数据集,并基于所述奖惩数据集生成深度强化学习奖惩曲线;判断所述深度强化学习奖惩曲线是否收敛,在所述深度强化学习奖惩曲线收敛的情况下,停止执行上述步骤;在所述深度强化学习奖惩曲线未收敛的情况下,重复执行上述步骤,直至所述当前学习次数达到预设学习次数或者所述深度强化学习奖惩曲线收敛。

根据本发明提供的一种基于多智能体协作系统的深度强化学习方法,所述方法还包括:获取所述多智能体协作系统中每一智能体的当前观测数据以及所述多智能体协作系统对应的协作图;所述协作图包括智能体与集群的第一分配关系和集群与待处理目标的第二分配关系;将所述观测数据输入至所述目标深度强化学习网络,得到目标分配调整动作,并基于所述目标分配调整动作调整所述协作图中第一分配关系和第二分配关系;基于调整后的所述协作图获取每一所述智能体的当前动作,以使每一所述智能体基于所述当前动作,针对所述待处理目标执行预设协作任务。

根据本发明提供的一种基于多智能体协作系统的深度强化学习方法,所述目标分配调整动作包括智能体分配调整动作和集群分配调整动作,其中:所述智能体分配调整动作包括每一智能体在上一时刻所对应的上一集群编号以及在当前时刻所对应的当前集群编号;所述集群分配调整动作包括每一集群在上一时刻所对应的上一待处理目标编号以及在当前时刻所对应的当前待处理目标编号。

根据本发明提供的一种基于多智能体协作系统的深度强化学习方法,所述基于所述目标分配调整动作调整所述协作图中第一分配关系和第二分配关系,包括:针对每一智能体,判断所述智能体的上一集群编号与当前集群编号是否一致;在所述上一集群编号与所述当前集群编号不一致的情况下,获取所述上一集群编号对应集群中的智能体数量;在所述智能体数量大于预设第一数量阈值的情况下,将所述智能体分配至所述当前集群编号对应的集群中;针对每一集群,判断所述集群对应的上一待处理目标编号与当前待处理目标编号是否一致;在所述上一待处理目标编号与所述当前待处理目标编号不一致的情况下,获取所述上一待处理目标编号对应待处理目标中的集群数量;在所述集群数量大于预设第二数量阈值的情况下,将所述集群分配至所述当前待处理目标编号对应的待处理目标中。

根据本发明提供的一种基于多智能体协作系统的深度强化学习方法,所述基于调整后的所述协作图获取每一所述智能体的当前动作包括:获取预设映射函数,并基于调整后的所述协作图获取每一所述智能体对应的集群,所述预设映射函数表示集群与动作之间的映射函数;基于预设映射函数、每一智能体的当前观测数据以及对应的集群,生成每一智能体的当前动作,所述当前动作包括智能体的前进方向。

本发明还提供一种基于多智能体协作系统的深度强化学习装置,包括:数据获取模块,用于获取所述多智能体协作系统中每一智能体的当前观测数据,所述当前观测数据包括智能体观测范围内其他智能体和待处理目标的状态数据;第一训练模块,用于在一次深度强化学习中,基于预先构建的深度强化学习网络和所述当前观测数据获取多智能体协作系统对应协作图的当前分配调整动作,基于所述当前分配调整动作获取当前奖惩数据,并基于所述当前奖惩数据优化所述深度强化学习网络;所述当前分配调整动作用于调整所述协作图中智能体和集群的分配方案;第二训练模块,用于重复执行上述步骤,直至达到预设收敛条件或者达到预设学习次数;将当前深度强化学习网络作为目标深度强化学习网络。

本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于多智能体协作系统的深度强化学习方法。

本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于多智能体协作系统的深度强化学习方法。

本发明提供的基于多智能体协作系统的深度强化学习方法和装置,通过将当前观测数据输入至深度强化学习网络,并经过多次深度强化学习来更新协作图的当前分配调整动作,而不更新智能体的实际动作,简化了深度强化学习的步骤,节省了深度强化学习的训练时间,实现在深度强化学习的奖励比较稀疏的情况下,快速地进行多次深度强化学习来积累更多的奖励,从而提高了深度强化学习网络的收敛速度,提高了深度强化学习的训练效率,解决了现有技术中由于深度强化学习网络的奖励稀疏导致多智能体协同训练效率低以及收敛速度慢的技术问题。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明提供的基于多智能体协作系统的深度强化学习方法的流程示意图之一;

图2是本发明提供的基于多智能体协作系统的深度强化学习方法的流程示意图之二;

图3是本发明提供的基于多智能体协作系统的深度强化学习方法的流程示意图之三;

图4是本发明提供的基于多智能体协作系统的深度强化学习方法的流程示意图之四;

图5是本发明提供的基于多智能体协作系统的深度强化学习方法的流程示意图之五;

图6是本发明提供的基于多智能体协作系统的深度强化学习方法的流程示意图之六;

图7a是本发明具体实施例二中应用场景的示意图;

图7b是本发明具体实施例二中深度强化学习网络的结构示意图;

图7c是本发明具体实施例二中协作图的示意图;

图8是本发明提供的基于多智能体协作系统的深度强化学习装置的结构示意图;

图9是本发明提供的电子设备的结构示意图。

附图标记:

100:多智能体协作系统的深度强化学习装置;10:数据获取模块;20:第一训练模块;30:第二训练模块;910:处理器;920:通信接口;930:存储器;940:通信总线。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

下面结合图1-图6描述本发明的多智能体协作系统的深度强化学习方法。如图1所示,本发明提供一种基于多智能体协作系统的深度强化学习方法,包括:

步骤S1:获取多智能体协作系统中每一智能体的当前观测数据,当前观测数据包括智能体观测范围内其他智能体和待处理目标的状态数据。

其中,状态数据包括其他智能体对应的第一状态数据和待处理目标对应的第二状态数据。第一状态数据包括其他智能体的位置、速度和健康值。第二状态数据包括待处理目标对应的位置、速度和健康值。待处理目标表示智能体需要通过预设协作任务进行协同处理的目标,例如电脑病毒等入侵系统的目标。

步骤S2:在一次深度强化学习中,基于预先构建的深度强化学习网络和当前观测数据获取多智能体协作系统对应协作图的当前分配调整动作,基于当前分配调整动作获取当前奖惩数据,并基于当前奖惩数据优化深度强化学习网络;当前分配调整动作用于调整协作图中智能体和集群的分配方案。

在一个实施例中,基于预设奖惩函数和当前分配调整动作获取当前奖惩数据,并基于当前奖惩数据更新深度强化学习网络的网络权值系数,以实现对深度强化学习网络的优化。

步骤S3:重复执行上述步骤,直至达到预设收敛条件或者达到预设学习次数;将当前深度强化学习网络作为目标深度强化学习网络。

其中,预设收敛条件可以是在深度强化学习网络的当前网络收敛精度达到预设网络收敛精度的情况下停止深度强化学习,也可以是在当前奖惩数据趋于一个稳定值的情况下停止深度强化学习,也可以是其他收敛条件,本发明不作过多限制。

上述步骤S1至步骤S3,通过将当前观测数据输入至深度强化学习网络,并经过多次深度强化学习来更新协作图的当前分配调整动作,而不更新智能体的实际动作,简化了深度强化学习的步骤,节省了深度强化学习的训练时间,实现在深度强化学习的奖励比较稀疏的情况下,快速地进行多次深度强化学习来积累更多的奖励,从而提高了深度强化学习网络的收敛速度,提高了深度强化学习的训练效率,解决了现有技术中由于深度强化学习网络的奖励稀疏导致多智能体协同训练效率低以及收敛速度慢的技术问题。

优选地,深度强化学习网络基于注意力机制构建。注意力机制(AttentionMechanism)是人们在机器学习模型中嵌入的一种特殊结构,用来自动学习和计算输入数据对输出数据的贡献大小,从而有选择性的处理信号,它帮助模型选择有效、适当规模的特征,进而让模型可以有效、高效地完成任务。

优选地,基于时间步长退化法对深度强化学习网络进行优化,具体地,在进行当前一次深度强化学习之前需要先获取当前时间间隔对应的当前观测数据,并将当前时间间隔对应的当前观测数据输入至上一次深度强化学习优化后的深度强化学习网络中,以获取当前时间间隔对应的当前分配调整动作,以替代上一次深度强化学习获取的分配调整动作,即在每一次深度强化学习过程中,需要完成对当前分配调整动作的更新以及对深度强化学习网络的优化。

在一个实施例中,该协作图第一子协作图和第二子协作图,其中,第一子协作图由智能体和集群构成,每一智能体对应一个集群,每一集群包含一个或者多个智能体。第二子协作图由集群和待处理目标构成,每一集群对应一个待处理目标,每一待处理目标包含一个或者多个集群。

在一个实施例中,如图2所示,上述步骤S2包括步骤S21至步骤S24,其中:

步骤S21:将当前观测数据输入至深度强化学习网络中的多层感知机模块,得到其他智能体的第一状态特征和待处理目标的第二状态特征。

其中,多层感知机(Multilayer Perceptron,MLP)也叫人工神经网络,用于对输入数据进行分类并提取特征。

步骤S22:将第一状态特征和第二状态特征输入至深度强化学习网络中的第一注意力机制模块,得到第三状态特征。

其中,第三状态特征也可以称为混合状态特征。通过结合其他智能体的第一状态特征以及待处理目标的第二状态特征,可以进一步提取周围环境中影响更大的智能体状态特征以及目标状态特征,从而形成需要重点关注的第三状态特征。

优选地,第一注意力机制模块的数量为多个,多个第一注意力机制模块可以通过级联的方式进行连接,从而可以将上一层第一注意力机制模块输出的第三状态特征输入至下一层第一注意力机制模块中再次进行特征提取,得到新的第三状态特征,以此类推,从而可以提取到特征信息更加丰富的第三状态特征,提高单次深度强化学习的学习效果,从而减少深度强化学习的次数,进一步提高深度强化学习的强化训练效率。

步骤S23:将第一状态特征、第二状态特征和第三状态特征输入至深度强化学习网络中的第二注意力机制模块,得到目标状态特征。

步骤S24:将目标状态特征输入至深度强化学习网络中的动作编码模块,得到当前分配调整动作。其中,动作编码模块用于将目标状态特征编码为当前分配调整动作。

上述步骤S21至步骤S24,通过多个注意力机制模块可以从当前观测数据中提取到特征信息更加丰富的目标状态特征,从而可以基于动作编码模块生成更加准确的当前分配调整动作,提高单次深度强化学习的学习效果,从而减少深度强化学习的次数,进一步提高深度强化学习的强化训练效率。

在一个实施例中,如图3所示,上述步骤S3包括步骤S31至步骤S33,其中:

步骤S31:获取当前学习次数,判断当前学习次数是否达到预设学习次数,在当前学习次数达到预设学习次数的情况下,停止执行上述步骤。

步骤S32:在当前学习次数未达到预设学习次数的情况下,获取多次深度强化学习的奖惩数据集,并基于奖惩数据集生成深度强化学习奖惩曲线;判断深度强化学习奖惩曲线是否收敛,在深度强化学习奖惩曲线收敛的情况下,停止执行上述步骤。

需要说明的是,在强化学习奖惩曲线处于收敛状态的情况下,多次深度强化学习的奖惩数据趋于一个稳定值,说明深度强化学习网络趋于稳定状态,可以结束深度强化学习。

步骤S33:在深度强化学习奖惩曲线未收敛的情况下,重复执行上述步骤,直至当前学习次数达到预设学习次数或者深度强化学习奖惩曲线收敛。

通过上述步骤S31至步骤S33,由于强化学习奖惩曲线处于收敛状态时,多次深度强化学习的奖惩数据趋于一个稳定值,说明此时深度强化学习网络趋于稳定状态,从而可以得知当前深度强化学习网络具有较优的网络性能,因此可以停止深度强化学习。本实施例通过获取强化学习奖惩曲线可以非常直观地观测到深度强化学习网络的当前训练进程,并且可以在强化学习奖惩曲线收敛的情况下确定深度强化学习网络具有较优的网络性能,从而可以停止深度强化学习,得到性能较优的目标深度强化学习网络,本实施例提供的收敛判断方法比较直观,且步骤简单易于实现。

在一个实施例中,如图4所示,本发明提供的基于多智能体协作系统的深度强化学习方法还包括步骤S4至步骤S6,其中:

步骤S4:获取多智能体协作系统中每一智能体的当前观测数据以及多智能体协作系统对应的协作图;协作图包括智能体与集群的第一分配关系和集群与待处理目标的第二分配关系。

步骤S5:将观测数据输入至目标深度强化学习网络,得到目标分配调整动作,并基于目标分配调整动作调整协作图中第一分配关系和第二分配关系。

其中,第一分配关系表示智能体与集群的分配关系,即从多个集群中选择每一智能体的当前分配集群。第二分配关系表示集群与待处理目标的分配关系,即从多个待处理目标中选择每一集群的当前分配待处理目标。

进一步地,采用先入先出的原则实现智能体以及集群的分配方案,即先存入智能体,如果需要移动时,先移动该智能体;先存入集群,如果需要移动时,先移动该集群。

步骤S6:基于调整后的协作图获取每一智能体的当前动作,以使每一智能体基于当前动作,针对待处理目标执行预设协作任务。

上述步骤S4至步骤S6,通过将繁琐的协作图调整步骤以及获取智能体动作的步骤放在深度强化学习完成后,可以节省强化训练的时间,并基于训练好的目标深度强化学习网络一次性即可生成较为准确的目标分配调整动作,基于目标分配调整动作一次性完成协作图的调整,并基于调整后的协作图一次即可得到较为准确的智能体当前动作,以使智能体基于当前动作完成协同任务,实现了快速地完成多智能体的协同任务,解决了现有技术中由于深度强化学习的奖励稀疏导致多智能体协同训练效率低、收敛速度慢,从而无法完成协作任务的技术问题。

在一个实施例中,目标分配调整动作包括智能体分配调整动作和集群分配调整动作,其中:智能体分配调整动作包括每一智能体在上一时刻所对应的上一集群编号以及在当前时刻所对应的当前集群编号;集群分配调整动作包括每一集群在上一时刻所对应的上一待处理目标编号以及在当前时刻所对应的当前待处理目标编号。

其中,集群编号以及目标编号可以是数字、字母或者各种符号,也可以是数字、字母以及各种符号的组合,本实施例不作具体限定。

在一个实施例中,如图5所示,上述步骤S5包括步骤S51至步骤S52,其中:

步骤S51:针对每一智能体,判断智能体的上一集群编号与当前集群编号是否一致;在上一集群编号与当前集群编号不一致的情况下,获取上一集群编号对应集群中的智能体数量;在智能体数量大于预设第一数量阈值的情况下,将智能体分配至当前集群编号对应的集群中。

进一步地,设置预设第一数量阈值为0或者1。以预设第一数量阈值为0为例作进一步说明,在智能体的上一集群编号对应集群中的智能体数量大于0的情况下,将该智能体分配至当前集群编号对应的集群中。在智能体的上一集群编号对应集群中的智能体数量等于0的情况下,不调整将该智能体的分配位置,以避免该智能体的上一集群编号对应集群中无智能体,以应对该集群对应的待处理目标。

步骤S52:针对每一集群,判断集群对应的上一待处理目标编号与当前待处理目标编号是否一致;在上一待处理目标编号与当前待处理目标编号不一致的情况下,获取上一待处理目标编号对应待处理目标中的集群数量;在集群数量大于预设第二数量阈值的情况下,将集群分配至当前待处理目标编号对应的待处理目标中。

进一步地,设置预设第二数量阈值为0或者1。以预设第二数量阈值为0为例作进一步说明,在集群的上一待处理目标编号对应待处理目标中的集群数量大于0的情况下,将该集群分配至当前待处理目标编号对应的待处理目标中。在集群的上一待处理目标编号对应待处理目标中的集群数量等于0的情况下,不调整该集群的分配位置,以避免该集群的上一待处理目标编号对应待处理目标中无集群以应对待处理目标。

在一个实施例中,如图6所示,上述步骤S6包括步骤S61至步骤S62,其中:

步骤S61:获取预设映射函数,并基于调整后的协作图获取每一智能体对应的集群,预设映射函数表示集群与动作之间的映射函数。

步骤S62:基于预设映射函数、每一智能体的当前观测数据以及对应的集群,生成每一智能体的当前动作,当前动作包括智能体的前进方向。其中,前进方向包括前、后、左、右等方向。

进一步地,将集群以及集群中每一智能体的当前观测数据输入至预设映射函数,得到该集群中智能体的动作集合,映射过程如下文公式(1)所示:

其中,

下面提供两个具体实施例,以对本发明提供的基于多智能体协作系统的深度强化学习方法作进一步说明。

在具体实施例一中,本发明提供的基于多智能体协作系统的深度强化学习方法包括以下步骤:

步骤1:获取多智能体协作系统中每一智能体的当前观测数据,当前观测数据包括智能体观测范围内其他智能体和待处理目标的状态数据。

步骤2:在一次深度强化学习中,基于预先构建的深度强化学习网络和当前观测数据获取多智能体协作系统对应协作图的当前分配调整动作,基于当前分配调整动作获取当前奖惩数据,并基于当前奖惩数据优化深度强化学习网络;当前分配调整动作用于调整协作图中智能体和集群的分配方案。

步骤3:重复执行上述步骤,直至达到预设收敛条件或者达到预设学习次数;将当前深度强化学习网络作为目标深度强化学习网络。

步骤4:获取多智能体协作系统中每一智能体的当前观测数据以及多智能体协作系统对应的协作图;协作图包括智能体与集群的第一分配关系和集群与待处理目标的第二分配关系。

步骤5:将观测数据输入至目标深度强化学习网络,得到目标分配调整动作,并基于目标分配调整动作调整协作图中第一分配关系和第二分配关系。

步骤6:基于调整后的协作图获取每一智能体的当前动作,以使每一智能体基于当前动作,针对待处理目标执行预设协作任务。

图7a是本发明具体实施例二中应用场景的示意图,如图7a所示,待处理目标为入侵目标,奖惩数据为奖励值。入侵目标随机分散在基地周围,朝着最近的基地靠近,若到达基地,则智能体围捕失败。智能体围捕入侵目标,阻止其靠近基地,至少需要2个智能体才能阻止1个入侵目标。当基地在规定时间内未被入侵,则获得奖励值为+1,否则奖励值为-1。本发明提供的具体实施例二具体包括以下步骤:

步骤(1):获取多智能体协作系统中每一智能体的当前观测数据,当前观测数据包括智能体观测范围内其他智能体的第一状态数据和入侵目标的第二状态数据。

步骤(2):如图7b所示,在一次深度强化学习中,将当前观测数据输入至深度强化学习网络中的多层感知机模块,得到其他智能体的第一状态特征和入侵目标的第二状态特征。将第一状态特征和第二状态特征输入至深度强化学习网络中的第一注意力机制模块,得到第三状态特征。将第一状态特征、第二状态特征和第三状态特征输入至深度强化学习网络中的第二注意力机制模块,得到目标状态特征。将目标状态特征输入至深度强化学习网络中的动作编码模块,得到当前分配调整动作。基于当前分配调整动作获取当前奖惩数据,并基于当前奖惩数据优化深度强化学习网络;当前分配调整动作用于调整协作图中智能体和集群的分配方案。

步骤(3):获取当前学习次数,判断当前学习次数是否达到预设学习次数,在当前学习次数达到预设学习次数的情况下,将当前深度强化学习网络作为目标深度强化学习网络。在当前学习次数未达到预设学习次数的情况下,获取多次深度强化学习的奖惩数据集,并基于奖惩数据集生成深度强化学习奖惩曲线;判断深度强化学习奖惩曲线是否收敛,在深度强化学习奖惩曲线收敛的情况下,将当前深度强化学习网络作为目标深度强化学习网络。在深度强化学习奖惩曲线未收敛的情况下,重复执行步骤(1)至步骤(2),直至当前学习次数达到预设学习次数或者深度强化学习奖惩曲线收敛;将当前深度强化学习网络作为目标深度强化学习网络。

步骤(4):获取多智能体协作系统中每一智能体的当前观测数据以及多智能体协作系统对应的协作图。如图7c所示,协作图包括智能体与集群的第一分配关系和集群与入侵目标的第二分配关系。将观测数据输入至目标深度强化学习网络,得到目标分配调整动作。目标分配调整动作包括智能体分配调整动作和集群分配调整动作,其中:智能体分配调整动作包括每一智能体在上一时刻所对应的上一集群编号以及在当前时刻所对应的当前集群编号;集群分配调整动作包括每一集群在上一时刻所对应的上一入侵目标编号以及在当前时刻所对应的当前入侵目标编号。

步骤(5):针对每一智能体,判断智能体的上一集群编号与当前集群编号是否一致;在上一集群编号与当前集群编号不一致的情况下,获取上一集群编号对应集群中的智能体数量;在智能体数量大于预设第一数量阈值的情况下,将智能体分配至当前集群编号对应的集群中。针对每一集群,判断集群对应的上一入侵目标编号与当前入侵目标编号是否一致;在上一入侵目标编号与当前入侵目标编号不一致的情况下,获取上一入侵目标编号对应入侵目标中的集群数量;在集群数量大于预设第二数量阈值的情况下,将集群分配至当前入侵目标编号对应的入侵目标中。

步骤(6):获取预设映射函数,并基于调整后的协作图获取每一智能体对应的集群,预设映射函数表示集群与动作之间的映射函数。基于预设映射函数、每一智能体的当前观测数据以及对应的集群,生成每一智能体的当前动作,以使每一智能体基于当前动作阻止入侵目标靠近基地,完成入侵目标的协同围捕任务,当前动作包括智能体的前进方向。

综上所述,本发明提供的基于多智能体协作系统的深度强化学习方法,通过构建三层结构的协作图,引入集群协同行为的分配经验数据,实现智能体到集群、集群到待处理目标的合理分配,并利用基于注意力机制的深度强化学习网络动态调整协作图,在完成深度强化学习后,再根据调整后的协作图获取智能体的当前动作,简化了深度强化学习的训练步骤,提高了深度强化学习的训练效率,解决了在复杂应用环境下大规模集群协同奖励稀疏导致训练效率低、收敛速度慢的问题,从而保证多智能体协同任务的顺利完成。

下面对本发明提供的基于多智能体协作系统的深度强化学习装置进行描述,下文描述的基于多智能体协作系统的深度强化学习装置与上文描述的基于多智能体协作系统的深度强化学习方法可相互对应参照。

如图8所示,本发明提供一种基于多智能体协作系统的深度强化学习装置,基于多智能体协作系统的深度强化学习装置100包括数据获取模块10、第一训练模块20和第二训练模块30,其中:

数据获取模块10,用于获取多智能体协作系统中每一智能体的当前观测数据,当前观测数据包括智能体观测范围内其他智能体和待处理目标的状态数据。

第一训练模块20,用于在一次深度强化学习中,基于预先构建的深度强化学习网络和当前观测数据获取多智能体协作系统对应协作图的当前分配调整动作,基于当前分配调整动作获取当前奖惩数据,并基于当前奖惩数据优化深度强化学习网络;当前分配调整动作用于调整协作图中智能体和集群的分配方案。

第二训练模块30,用于重复执行上述步骤,直至达到预设收敛条件或者达到预设学习次数;将当前深度强化学习网络作为目标深度强化学习网络。

在一个实施例中,第一训练模块20包括第一特征提取单元、第二特征提取单元、第三特征提取单元和调整动作获取单元,其中:

第一特征提取单元,用于将当前观测数据输入至深度强化学习网络中的多层感知机模块,得到其他智能体的第一状态特征和待处理目标的第二状态特征。

第二特征提取单元,用于将第一状态特征和第二状态特征输入至深度强化学习网络中的第一注意力机制模块,得到第三状态特征。

第三特征提取单元,用于将第一状态特征、第二状态特征和第三状态特征输入至深度强化学习网络中的第二注意力机制模块,得到目标状态特征。

调整动作获取单元,用于将目标状态特征输入至深度强化学习网络中的动作编码模块,得到当前分配调整动作。

在一个实施例中,第二训练模块30包括第一判断单元、第二判断单元和强化学习单元,其中:

第一判断单元,用于获取当前学习次数,判断当前学习次数是否达到预设学习次数,在当前学习次数达到预设学习次数的情况下,停止执行上述步骤。

第二判断单元,用于在当前学习次数未达到预设学习次数的情况下,获取多次深度强化学习的奖惩数据集,并基于奖惩数据集生成深度强化学习奖惩曲线;判断深度强化学习奖惩曲线是否收敛,在深度强化学习奖惩曲线收敛的情况下,停止执行上述步骤。

强化学习单元,用于在深度强化学习奖惩曲线未收敛的情况下,重复执行上述步骤,直至当前学习次数达到预设学习次数或者深度强化学习奖惩曲线收敛。

在一个实施例中,基于多智能体协作系统的深度强化学习装置100还包括协作图获取模块、分配调整模块和动作获取模块,其中:

协作图获取模块,用于获取多智能体协作系统中每一智能体的当前观测数据以及多智能体协作系统对应的协作图;协作图包括智能体与集群的第一分配关系和集群与待处理目标的第二分配关系。

分配调整模块,用于将观测数据输入至目标深度强化学习网络,得到目标分配调整动作,并基于目标分配调整动作调整协作图中第一分配关系和第二分配关系。

动作获取模块,用于基于调整后的协作图获取每一智能体的当前动作,以使每一智能体基于当前动作,针对待处理目标执行预设协作任务。

在一个实施例中,目标分配调整动作包括智能体分配调整动作和集群分配调整动作,其中:智能体分配调整动作包括每一智能体在上一时刻所对应的上一集群编号以及在当前时刻所对应的当前集群编号;集群分配调整动作包括每一集群在上一时刻所对应的上一待处理目标编号以及在当前时刻所对应的当前待处理目标编号。

在一个实施例中,分配调整模块包括第一分配调整单元和第二分配调整单元,其中。

第一分配调整单元,用于针对每一智能体,判断智能体的上一集群编号与当前集群编号是否一致;在上一集群编号与当前集群编号不一致的情况下,获取上一集群编号对应集群中的智能体数量;在智能体数量大于预设第一数量阈值的情况下,将智能体分配至当前集群编号对应的集群中。

第二分配调整单元,用于针对每一集群,判断集群对应的上一待处理目标编号与当前待处理目标编号是否一致;在上一待处理目标编号与当前待处理目标编号不一致的情况下,获取上一待处理目标编号对应待处理目标中的集群数量;在集群数量大于预设第二数量阈值的情况下,将集群分配至当前待处理目标编号对应的待处理目标中。

在一个实施例中,动作获取模块包括映射数据获取单元和当前动作获取单元,其中:

映射数据获取单元,用于获取预设映射函数,并基于调整后的协作图获取每一智能体对应的集群,预设映射函数表示集群与动作之间的映射函数。

当前动作获取单元,用于基于预设映射函数、每一智能体的当前观测数据以及对应的集群,生成每一智能体的当前动作,当前动作包括智能体的前进方向。

图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行基于多智能体协作系统的深度强化学习方法,该方法包括:获取多智能体协作系统中每一智能体的当前观测数据,当前观测数据包括智能体观测范围内其他智能体和待处理目标的状态数据;在一次深度强化学习中,基于预先构建的深度强化学习网络和当前观测数据获取多智能体协作系统对应协作图的当前分配调整动作,基于当前分配调整动作获取当前奖惩数据,并基于当前奖惩数据优化深度强化学习网络;当前分配调整动作用于调整协作图中智能体和集群的分配方案;重复执行上述步骤,直至达到预设收敛条件或者达到预设学习次数;将当前深度强化学习网络作为目标深度强化学习网络。

此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory ,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于多智能体协作系统的深度强化学习方法,该方法包括:获取多智能体协作系统中每一智能体的当前观测数据,当前观测数据包括智能体观测范围内其他智能体和待处理目标的状态数据;在一次深度强化学习中,基于预先构建的深度强化学习网络和当前观测数据获取多智能体协作系统对应协作图的当前分配调整动作,基于当前分配调整动作获取当前奖惩数据,并基于当前奖惩数据优化深度强化学习网络;当前分配调整动作用于调整协作图中智能体和集群的分配方案;重复执行上述步骤,直至达到预设收敛条件或者达到预设学习次数;将当前深度强化学习网络作为目标深度强化学习网络。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号