采用经验复用的高效强化学习控制方法

郝钏钏; 方舟; 李平

首页> 中文期刊> 《华南理工大学学报：自然科学版》 >采用经验复用的高效强化学习控制方法

采用经验复用的高效强化学习控制方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

使用定长情景进行学习的eNAC(episodic Natural Actor-Critic)算法是一种在理论上具有良好学习性能的强化学习控制算法,但其学习过程需要采样较多的定长情景,学习效率低.为此,文中提出了一种新的强化学习控制算法ER-eNAC.该算法在eNAC算法的基础上引入了定长情景复用机制,在自然策略梯度估计过程中,复用部分过去采样的定长情景以更有效地利用经验信息;在使用复用的定长情景时,按照其参与的策略更新次数进行指数递减加权以描述其对当前策略的适用性.倒立摆稳定控制问题的仿真结果表明,与eNAC算法相比,ER-eNAC算法显著减少了学习过程中需要采样的定长情景的条数,提高了学习效率.

著录项

来源
《华南理工大学学报：自然科学版》 |2012年第6期|70-75|共6页
作者
郝钏钏; 方舟; 李平;
展开▼
作者单位

浙江大学控制科学与工程学系;

浙江大学航空航天学院;

展开▼
原文格式 PDF
正文语种 chi
中图分类 TP273.22;
关键词
强化学习; 自然策略梯度; 经验复用; 倒立摆控制;

相似文献

中文文献
外文文献
专利

1. 基于深度强化学习的综合干线协调控制方法 [J] . 尚春琳 ,刘小明 ,田玉林 . 交通运输系统工程与信息 . 2021,第003期
2. 基于深度强化学习的二连杆机械臂运动控制方法 [J] . 王建平 ,王刚 ,毛晓彬 . 计算机应用 . 2021,第006期
3. 基于深度强化学习的双足机器人斜坡步态控制方法 [J] . 吴晓光 ,刘绍维 ,杨磊 . 自动化学报 . 2021,第008期
4. 基于强化学习的机械臂自主视觉感知控制方法 [J] . 胡春阳 ,王恒 ,史豪斌 . 西北工业大学学报 . 2021,第005期
5. 一种深度强化学习的机械臂控制方法 [J] . 姬周珂 ,徐巧玉 ,王军委 . 河南科技大学学报（自然科学版） . 2021,第003期
6. 采用辊压机半终粉磨的节能高效粉磨系统Φ4.2水泥磨台时产量达350t/h经验交流 [C] . 朱顺明 . 2017第九届国际粉磨峰会 . 2017
7. 基于强化学习的非线性离散系统数据驱动控制方法研究 [A] . 林铭铎 . 2021

采用经验复用的高效强化学习控制方法

摘要

著录项

相似文献

相关主题

期刊订阅