首页> 中国专利> 用于实现导航的可迁移的元学习的无监督DQN强化学习

用于实现导航的可迁移的元学习的无监督DQN强化学习

摘要

本发明公开了一种用于实现导航的可迁移的元学习的无监督DQN强化学习方法,所述方法的ULTRA框架包括三个部分,无监督的对抗性任务生成、共享层次结构策略和元强化学习;所述的无监督的对抗性任务生成的基于任务的对抗性训练过程包含任务生成器和元学习器;任务生成器自动生成多组任务,而没有来自环境的任何监督信号,元学习者将尝试完成这些任务;所述的共享层次结构策略,元学习器的体系结构是共享层次结构策略,其中包含一个主策略和一组子策略;在每个主时间脉络中,主策略首先根据算法随机进行选择要激活的子策略,然后所选的子策略执行主操作。所述的元强化学习,是使用强化学习的算法对整个任务中所有主策略下分配的子策略的参数进行优化。

著录项

  • 公开/公告号CN111783983A

    专利类型发明专利

  • 公开/公告日2020-10-16

    原文格式PDF

  • 申请/专利权人 南京工业大学;

    申请/专利号CN202010615964.2

  • 发明设计人 帅仁俊;赵宸;马力;

    申请日2020-06-30

  • 分类号G06N3/08(20060101);G06K9/00(20060101);G01C21/20(20060101);

  • 代理机构

  • 代理人

  • 地址 211816 江苏省南京市新模范马路5号南京工业大学

  • 入库时间 2023-06-19 08:34:56

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号