首页> 中文学位 >部分观测马尔可夫决策过程中的强化学习
【6h】

部分观测马尔可夫决策过程中的强化学习

代理获取

目录

声明

摘要

第一章 绪论

1.1 研究背景

1.2 国内外研究现状

1.3 论文结构安排

第二章 部分观测马尔可夫决策问题中的强化学习

2.1 部分观测马尔可夫决策过程

2.2 强化学习

2.2.1 强化学习简介

2.2.2 强化学习的算法求解

2.3 用强化学习求解部分观测马尔可夫决策问题

第三章 RDC-Q算法

3.1 Q学习算法简介

3.2 RDC-Q算法及应用

3.2.1 RDC-Q算法简介

3.2.2 RDC-Q学习算法详述

3.2.3 RDC-Q算法在障碍物环境下的应用

第四章 f-Sarsa(λ)算法

4.1 资格迹

4.2 CPnSarsa(λ)算法

4.3 f-Sarsa(λ)算法

4.3.1 f-Sarsa(λ)算法详解

4.3.2 f-Sarsa(λ)算法仿真实验

4.4 机器人的记忆序列长度

4.4.1 机器人不同记忆序列长度下的分析

4.4.2 机器人记忆序列长度的确定

4.4.3 机器人不同记忆序列长度下的仿真比较

第五章 总结与展望

5.1 论文总结

5.2 研究展望

参考文献

研究生期间发表论文及参加科研情况说明

致谢

展开▼

摘要

在强化学习中,机器人对环境做出动作并从环境得到回报,相应于不同的动作,环境给予的回报值有所不同,通过对到达目标点所作一系列动作的回报值不断强化,机器人能够学到从内部状态到动作的映射,即学到决策过程。强化学习由于是在机器人行动过程中进行学习,因而具有在线性,并且由于该学习方法不需要外界指导,因而又具有无导师性,由于这两种特性使得强化学习广泛应用于序列化的行为任务中,比如机器人路径规划等。
  对于解决马尔可夫决策过程(MDP)中的Q算法,本文给出了一种新的回报值设定方法,即将各状态的回报值进行综合分类。通过该方法,机器人可以获得更准确的回报值,从而使回报值对于动作的评价更准确,并将该算法应用于障碍物环境中,实验结果表明,该算法可以获得更好的效果。
  在部分观测马尔可夫决策过程(POMDP)中,因为系统无法完全感知环境状态信息,应用于马尔可夫决策过程的强化学习算法就不能得到精确解,比如POMDP问题中的感知混淆问题。本文给出了一种改进的基于短期记忆的学习方法-f-Sarsa(λ)算法,该算法对不同状态下的资格迹和值函数更新方法进行了合理设定,并在4×3方格问题中进行了验证,结果表明改进后的新方法使机器人更快速地到达目标点。最后对于机器人的记忆步数进行了一定探究,表明机器人需要记忆的步数并非越多越好,而是取决于观测值和环境,并在4×3方格问题中比较了几种不同记忆长度下算法的效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号