增量式双自然策略梯度的行动者评论家算法

章鹏; 刘全; 钟珊; 翟建伟; 钱炜晟

首页> 中文期刊> 《通信学报》 >增量式双自然策略梯度的行动者评论家算法

增量式双自然策略梯度的行动者评论家算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对强化学习中已有连续动作空间算法未能充分考虑最优动作的选取方法和利用动作空间的知识,提出一种对自然梯度进行改进的行动者评论家算法.该算法采用最大化期望回报作为目标函数,对动作区间上界和下界进行加权来求最优动作,然后通过线性函数逼近器来近似动作区间上下界的权值,将最优动作求解转换为对双策略参数向量的求解.为了加快上下界的参数向量学习速率,设计了增量的Fisher信息矩阵和动作上下界权值的资格迹,并定义了双策略梯度的增量式自然行动者评论家算法.为了证明该算法的有效性,将该算法与其他连续动作空间的经典强化学习算法在3个强化学习的经典测试实验中进行比较.实验结果表明,所提算法具有收敛速度快和收敛稳定性好的优点.%The existed algorithms for continuous action space failed to consider the way of selecting optimal action and utilizing the knowledge of the action space,so an efficient actor-critic algorithm was proposed by improving the natural gradient.The objective of the proposed algorithm was to maximize the expected return.Upper and the lower bounds of the action range were weighted to obtain the optimal action.The two bounds were approximated by linear function.Afterward,the problem of obtaining the optimal action was transferred to the learning of double policy parameter vectors.To speed the learning,the incremental Fisher information matrix and the eligibilities of both bounds were designed.At three reinforcement learning problems,compared with other representative methods with continuous action space,the simulation results show that the proposed algorithm has the advantages of rapid convergence rate and high convergence stability.

著录项

来源
《通信学报》 |2017年第4期|166-177|共12页
作者
章鹏; 刘全; 钟珊; 翟建伟; 钱炜晟;
展开▼
作者单位

苏州大学计算机科学与技术学院,江苏苏州215006;

苏州大学计算机科学与技术学院,江苏苏州215006;

软件新技术与产业化协同创新中心,江苏南京210000;

吉林大学符号计算与知识工程教育部重点实验室,吉林长春130012;

苏州大学计算机科学与技术学院,江苏苏州215006;

苏州大学计算机科学与技术学院,江苏苏州215006;

苏州大学计算机科学与技术学院,江苏苏州215006;

展开▼
原文格式 PDF
正文语种 chi
中图分类自动推理、机器学习;
关键词
强化学习; 自然梯度; 行动者评论家; 连续空间;

相似文献

中文文献
外文文献
专利

1. 基于双重注意力机制的异步优势行动者评论家算法 [J] . 凌兴宏 ,李杰 ,朱斐 . 计算机学报 . 2020,第001期
2. 带最大熵修正的行动者评论家算法 [J] . 姜玉斌 ,刘全 ,胡智慧 . 计算机学报 . 2020,第010期
3. 基于经验指导的深度确定性多行动者-评论家算法 [J] . 陈红名 ,刘全 ,闫岩 . 计算机研究与发展 . 2019,第008期
4. 连续空间中的一种动作加权行动者评论家算法 [J] . 刘全 ,章鹏 ,钟珊 . 计算机学报 . 2017,第006期
5. 一种基于高斯过程的行动者评论家算法 [J] . 陈仕超 ,凌兴宏 ,刘全 . 计算机应用研究 . 2016,第006期
6. 卷积混合非平稳信号盲分离的自然梯度算法 [C] . 徐洪涛 ,王跃钢 ,杨波 . 2011年中国自动化大会暨钱学森诞辰一百周年及中国自动化学会五十周年会庆 . 2011
7. 基于行动者评论家的探索动作修正算法研究 [A] . 姜玉斌 . 2019

增量式双自然策略梯度的行动者评论家算法

摘要

著录项

相似文献

相关主题

期刊订阅