首页> 中文学位 >复杂环境下的多目标动态协同对抗辅助决策方法研究
【6h】

复杂环境下的多目标动态协同对抗辅助决策方法研究

代理获取

目录

第一个书签之前

展开▼

摘要

随着人工智能技术的飞速发展,多智能体系统在很多领域具有了广泛应用,研究多智能体相关技术就显得越加重要。同时,随着智能体结构设计技术和数据采集技术的不断完善,根据多智能体共享的环境数据进行合理的场景态势评估以及面向指定任务进行动态的协同对抗决策就成为提高多智能体作业能力和应用价值的一个重点研究方向。
  为了实现合理高效的多智能体态势评估与协同对抗决策,本文在多智能体系统的研究基础上,提出了一整套改进的多智能体协同对抗决策模型。希望结合该模型,多智能体系统可以实现更为合理、精准的态势信息融合与评判,并在此基础上实现动态的集群自主决策。本文主要的研究内容和创新点为:
  (a)设计一种基于深度学习算法的态势评估方法
  为了实现更为合理、精准的态势评估,同时考虑到场景数据信息与态势评估结果之间的不确定对应关系,设计一种基于深度学习算法的态势评估方法(Deep Learning based Situation Assessment,DL-SA):首先,将场景数据统一量纲后作为深度神经网络模型输入数据,将态势标签作为输出数据;接着,按照深度学习步骤进行态势评估网络训练;最后,结合模糊理论实现态势评估结果向模糊态势向量的转换。
  (b)提出一种基于人工逆强化学习算法的智能决策方法
  为了提高决策系统对动态复杂场景的适应性和实用性,结合获取的模糊态势结果,提出一种基于人工逆强化学习算法的智能决策方法(Human Inverse Reinforcement Learning based Decision-making,HIRL-DM):首先,以模糊态势评估向量作为状态空间,进行均匀划分后获得各个状态的判定域;接着,将决策方案作为学习系统的动作集合;然后,结合BP神经网络算法和人工奖励机制实现人工逆强化学习架构设计;最后,针对半马尔科夫现象,改进累积奖励更新策略,实现一整套基于人工逆强化学习的群体协同对抗模型。
  (c)提出一种基于模糊控制理论的强化学习决策优化方法
  为了进一步提高强化学习决策方法的学习效率,减少学习时间开销,提出一种基于模糊控制理论的动态学习率调整方法(Fuzzy Control based Dynamic Learning Rate,FC-DLR):首先,将执行动作对环境的影响程度作为模糊控制系统的输入量,将学习率值作为输出量;然后,通过构建模糊推理引擎,实现了输入量到输出量的圆滑曲线映射并通过动态学习率实现学习性能加速;最后,在足球机器人协同对抗平台中进行实例验证,结果证明了本文方法的合理性和高效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号