首页> 中国专利> 用于实现导航的可迁移的元学习的无监督DQN强化学习

用于实现导航的可迁移的元学习的无监督DQN强化学习

页面导航

摘要
著录项
相似文献

摘要

本发明公开了一种用于实现导航的可迁移的元学习的无监督DQN强化学习方法，所述方法的ULTRA框架包括三个部分，无监督的对抗性任务生成、共享层次结构策略和元强化学习；所述的无监督的对抗性任务生成的基于任务的对抗性训练过程包含任务生成器和元学习器；任务生成器自动生成多组任务，而没有来自环境的任何监督信号，元学习者将尝试完成这些任务；所述的共享层次结构策略，元学习器的体系结构是共享层次结构策略，其中包含一个主策略和一组子策略；在每个主时间脉络中，主策略首先根据算法随机进行选择要激活的子策略，然后所选的子策略执行主操作。所述的元强化学习，是使用强化学习的算法对整个任务中所有主策略下分配的子策略的参数进行优化。

著录项

公开/公告号CN111783983A

专利类型发明专利
公开/公告日2020-10-16

原文格式PDF
申请/专利权人南京工业大学;
展开▼

申请/专利号CN202010615964.2
发明设计人帅仁俊;赵宸;马力;
展开▼

申请日2020-06-30
分类号G06N3/08(20060101);G06K9/00(20060101);G01C21/20(20060101);
代理机构
代理人
地址 211816 江苏省南京市新模范马路5号南京工业大学
入库时间 2023-06-19 08:34:56

相似文献

专利
中文文献
外文文献

1. 用于实现导航的可迁移的元学习的无监督DQN强化学习 [P] . 中国专利： CN111783983A . 2020-10-16
2. 基于动态加权学习和元学习的无监督域适应图像分类方法 [P] . 中国专利： CN113610105A . 2021-11-05
3. DIGITAL ELECTRONIC CIRCUIT AND SYSTEM IMPLEMENTING A SPIKING NEURAL NETWORK FOR PERFORMING UNSUPERVISED DETECTION OF PATTERNS [P] . EP3324344B1 . 2021-06-30

机译：数字电子电路和系统实现尖刺神经网络，用于执行无监督的模式检测
4. Computer system for unsupervised speaker adaptation of DNN speech synthesis, method and program implemented in the computer system [P] . 日本专利： JP6505346B1 . 2019-04-24

机译：用于DNN语音合成的无监督说话者自适应的计算机系统，在该计算机系统中实现的方法和程序
5. method, system and computer program for speech / speaker recognition using a emotionszustandsu00e4nderung for unsupervised adaptation of detection [P] . 德国专利： DE60213195D1 . 2006-08-31

机译：方法，系统和计算机程序，用于使用情感zustands u00e4nderung进行语音/说话人识别，以实现无监督的检测适应