首页> 中文期刊> 《办公自动化》 >基于噪声注入的代理策略优化算法

基于噪声注入的代理策略优化算法

         

摘要

基于代理策略的强化学习算法近些年取得了广泛地研究和关注。基于信赖域的方法需要设定一个固定的信赖区间用于判断当前策略和上一时刻策略的距离,但该距离却在训练的不同阶段表现出不同的数值,因此策略的探索能力也受到相应的影响。基于此,本文提出一种随机选择的代理策略优化(SPPO)目标的方案用于解决该问题。本文在多个强化学习的模拟训练环境(MuJoCo)中对该方案进行试验评估,试验结果表明,本文提出的方案极大地提升最终的性能,并保持较高的样本利用率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号