声明
摘要
第一章 绪论
1.1 研究背景
1.2 国内外研究现状
1.3 论文结构安排
第二章 部分观测马尔可夫决策问题中的强化学习
2.1 部分观测马尔可夫决策过程
2.2 强化学习
2.2.1 强化学习简介
2.2.2 强化学习的算法求解
2.3 用强化学习求解部分观测马尔可夫决策问题
第三章 RDC-Q算法
3.1 Q学习算法简介
3.2 RDC-Q算法及应用
3.2.1 RDC-Q算法简介
3.2.2 RDC-Q学习算法详述
3.2.3 RDC-Q算法在障碍物环境下的应用
第四章 f-Sarsa(λ)算法
4.1 资格迹
4.2 CPnSarsa(λ)算法
4.3 f-Sarsa(λ)算法
4.3.1 f-Sarsa(λ)算法详解
4.3.2 f-Sarsa(λ)算法仿真实验
4.4 机器人的记忆序列长度
4.4.1 机器人不同记忆序列长度下的分析
4.4.2 机器人记忆序列长度的确定
4.4.3 机器人不同记忆序列长度下的仿真比较
第五章 总结与展望
5.1 论文总结
5.2 研究展望
参考文献
研究生期间发表论文及参加科研情况说明
致谢