部分观测马尔可夫决策过程中的强化学习

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在强化学习中，机器人对环境做出动作并从环境得到回报，相应于不同的动作，环境给予的回报值有所不同，通过对到达目标点所作一系列动作的回报值不断强化，机器人能够学到从内部状态到动作的映射，即学到决策过程。强化学习由于是在机器人行动过程中进行学习，因而具有在线性，并且由于该学习方法不需要外界指导，因而又具有无导师性，由于这两种特性使得强化学习广泛应用于序列化的行为任务中，比如机器人路径规划等。
　　对于解决马尔可夫决策过程(MDP)中的Q算法，本文给出了一种新的回报值设定方法，即将各状态的回报值进行综合分类。通过该方法，机器人可以获得更准确的回报值，从而使回报值对于动作的评价更准确，并将该算法应用于障碍物环境中，实验结果表明，该算法可以获得更好的效果。
　　在部分观测马尔可夫决策过程(POMDP)中，因为系统无法完全感知环境状态信息，应用于马尔可夫决策过程的强化学习算法就不能得到精确解，比如POMDP问题中的感知混淆问题。本文给出了一种改进的基于短期记忆的学习方法-f-Sarsa（λ）算法，该算法对不同状态下的资格迹和值函数更新方法进行了合理设定，并在4×3方格问题中进行了验证，结果表明改进后的新方法使机器人更快速地到达目标点。最后对于机器人的记忆步数进行了一定探究，表明机器人需要记忆的步数并非越多越好，而是取决于观测值和环境，并在4×3方格问题中比较了几种不同记忆长度下算法的效果。

著录项

作者
王子强;
展开▼
作者单位

天津工业大学;

展开▼
授予单位天津工业大学;
学科计算机技术
授予学位硕士
导师姓名武继刚,孙峰;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类智能机器人;
关键词
机器人; 强化学习; Q算法; 路径规划; 部分观测马尔可夫决策过程;

相似文献

中文文献
外文文献
专利

1. 基于部分可观测马尔可夫决策过程的水声传感器网络介质访问控制协议 [J] . 徐明 ,刘广钟 . 计算机应用 . 2015,第011期
2. 基于部分可观测马尔可夫决策过程的网络入侵意图识别研究 [J] . 吴涛 ,王崇骏 ,谢俊元 . 南京大学学报：自然科学版 . 2010,第2期
3. 信息科学与系统科学：信息科学与系统科学基础学科--部分可观测马尔可夫决策过程算法综述 [J] . 桂林 ,武小悦 . 中国学术期刊文摘 . 2009,第001期
4. 部分可观测马尔可夫决策过程算法综述 [J] . 桂林 ,武小悦 . 系统工程与电子技术 . 2008,第006期
5. 求解部分可观测马氏决策过程的强化学习算法 [J] . 王学宁 ,贺汉根 ,徐昕 . 控制与决策 . 2004,第11期
6. 基于部分可观测马尔可夫决策过程的水声传感器网络介质访问控制协议 [C] . XU Ming ,徐明 ,LIU Guangzhong . 2015年全国开放式分布与并行计算学术年会 . 2015
7. 基于部分可观测马尔可夫决策过程的机会频谱接入方案设计 [A] . 夏婷婷 . 2014

部分观测马尔可夫决策过程中的强化学习

目录

摘要

著录项

相似文献

相关主题

期刊订阅