一种结合演示数据和演化优化的强化学习方法

宋拴; 俞扬

首页> 中文期刊> 《计算机工程与应用》 >一种结合演示数据和演化优化的强化学习方法

一种结合演示数据和演化优化的强化学习方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

强化学习研究智能体如何从与环境的交互中学习最优的策略，以最大化长期奖赏。由于环境反馈的滞后性，强化学习问题面临巨大的决策空间，进行有效的搜索是获得成功学习的关键。以往的研究从多个角度对策略的搜索进行了探索，在搜索算法方面，研究结果表明基于演化优化的直接策略搜索方法能够获得优于传统方法的性能；在引入外部信息方面，通过加入用户提供的演示，可以有效帮助强化学习提高性能。然而，这两种有效方法的结合却鲜有研究。对用户演示与演化优化的结合进行研究，提出iNEAT+Q算法，尝试将演示数据通过预训练神经网络和引导演化优化的适应值函数的方式与演化强化学习方法结合。初步实验表明，iNEAT+Q较不使用演示数据的演化强化学习方法NEAT+Q有明显的性能改善。%Reinforcement learning aims at learning an optimal policy that maximizes the long term rewards, from interac-tions with the environment. Since the environment feedbacks commonly delay after a sequences of actions, reinforcement learning has to tackle the problem of searching in a huge policy space, and thus an effective search is the key to a success approach. Previous studies explore various ways to achieve effective search methods, one effective way is employing the evolutionary algorithm as the search method, and another direction is introducing user demonstration data to guide the search. In this work, it investigates the combination of the two directions, and proposes the iNEAT+Q approach, which trains a neural network using the demonstration data as well as integrating the demonstration data into the fitness function for the evolutionary algorithm. Preliminary empirical study shows that iNEAT+Q is superior to NEAT+Q, which is an classical evolutionary reinforcement learning approach.

著录项

来源
《计算机工程与应用》 |2014年第11期|115-119129|共6页
作者
宋拴; 俞扬;
展开▼
作者单位

南京大学计算机软件新技术国家重点实验室;

南京 210023;

南京大学计算机软件新技术国家重点实验室;

南京 210023;

展开▼
原文格式 PDF
正文语种 chi
中图分类自动推理、机器学习;
关键词
强化学习; 演化算法; 从演示中学习; 神经网络;

相似文献

中文文献
外文文献
专利

1. 一种求解多峰函数优化问题的全局与局部搜索相结合的演化算法 [J] . 高汉平 ,肖小红 ,杨族桥 . 黄冈师范学院学报 . 2003,第006期
2. 结合片上数据布局和数据传输效率:一种针对multi-bank CGRA的优化算法 [J] . 刘延涛 ,赵仲元 ,绳伟光 . 微电子学与计算机 . 2018,第7期
3. 一种针对信息半对称下多方博弈的神经网络强化学习方法 [J] . 段行健 ,曹然 . 通讯世界 . 2021,第003期
4. 一种二次釆样的强化学习方法 [J] . 周江卫 ,关亚兵 ,白万民 . 西安工业大学学报 . 2021,第003期
5. 一种面向无人机群区域协同覆盖的深度强化学习方法 [J] . 姜波 ,梁晨阳 ,梅杰 . 空间控制技术与应用 . 2021,第6期
6. 一种基于半监督学习方法的问答对广告判定系统及演示 [C] . Chen Xiusi ,陈修司 ,Li Xiaoyu . 第33届中国数据库学术会议（NDBC2016 ） . 2016
7. 一种基于轨迹模仿学习和任务规划的机械臂演示学习方法研究 [A] . 周欣宇 . 2019

一种结合演示数据和演化优化的强化学习方法

摘要

著录项

相似文献

相关主题

期刊订阅