一种基于广义异步值迭代的规划网络模型

陈子璇; 章宗长; 潘致远; 张琳婧

首页> 中文期刊> 《软件学报》 >一种基于广义异步值迭代的规划网络模型

一种基于广义异步值迭代的规划网络模型

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

近年来,如何生成具有泛化能力的策略已成为深度强化学习领域的热点问题之一,并涌现出了许多相关的研究成果,其中的一个代表性工作为广义值迭代网络.广义值迭代网络是一种可作用于非规则图形的规划网络模型.它利用一种特殊的图形卷积算子来近似地表示状态转移矩阵,使得其在学习到非规则图形的结构信息后,可通过值迭代过程进行规划,从而在具有非规则图形结构的任务中产生具有泛化能力的策略.然而,由于没有考虑根据状态重要性来合理分配规划时间,广义值迭代网络中的每一轮迭代都需要在整个状态空间的所有状态上同步执行.当状态空间较大时,这样的同步更新会降低网络的规划性能.用异步更新的思想来进一步研究广义值迭代网络.通过在值迭代过程中定义状态优先级并执行异步值更新,提出了一种新型的异步规划网络模型——广义异步值迭代网络.在未知的非规则结构任务中,与广义值迭代网络相比,广义异步值迭代网络具有更高效且更有效的规划过程.进一步地,改进了广义值迭代网络中的强化学习算法及图形卷积算子,并通过在非规则图形和真实地图中的路径规划实验验证了改进方法的有效性.

著录项

来源
《软件学报》 |2021年第11期|3496-3511|共16页
作者
陈子璇; 章宗长; 潘致远; 张琳婧;
展开▼
作者单位

计算机软件新技术国家重点实验室(南京大学) 江苏南京 210023;

计算机软件新技术国家重点实验室(南京大学) 江苏南京 210023;

苏州大学计算机科学与技术学院江苏苏州 215006;

苏州大学计算机科学与技术学院江苏苏州 215006;

展开▼
原文格式 PDF
正文语种 chi
中图分类自动推理、机器学习;
关键词
深度学习; 强化学习; 模仿学习; 规划; 异步更新;

相似文献

中文文献
外文文献
专利

1. 基于折扣广义值迭代的智能最优跟踪及应用验证 [J] . 王鼎 ,赵明明 ,哈明鸣 . 自动化学报 . 2022,第1期
2. 基于奇异值分解的广义系统迭代学习控制算法 [J] . 周秀锦 ,田森平 . 电光与控制 . 2012,第005期
3. 在线学习者异步交互的拓扑结构研究——一种基于复杂网络模型的分析 [J] . 张超 ,祝智庭 . 电化教育研究 . 2009,第002期
4. 基于扰动方法的广义最佳鉴别矢量集求解的一种迭代算法 [J] . 吴小俊 ,杨静宇 ,郭跃飞 . 小型微型计算机系统 . 2003,第003期
5. 基于值迭代的自适应动态规划的收敛条件 [J] . 刘毅 ,章云 . 广东工业大学学报 . 2017,第005期
6. 在线学习者异步交互的拓扑结构研究——一种基于复杂网络模型的分析 [C] . 张超 . 第四届全国教育技术学博士生论坛 . 2008
7. 基于广义期望值的模糊规划方法研究 [A] . 苏涛 . 2013

一种基于广义异步值迭代的规划网络模型

摘要

著录项

相似文献

相关主题

期刊订阅