求解部分可观测马氏决策过程的强化学习算法

王学宁; 贺汉根; 徐昕

首页> 中文期刊> 《控制与决策》 >求解部分可观测马氏决策过程的强化学习算法

求解部分可观测马氏决策过程的强化学习算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

针对部分可观测马氏决策过程(POMDP)中,由于感知混淆现象的存在,利用Sarsa等算法得到的无记忆策略可能发生振荡的现象,研究了一种基于记忆的强化学习算法——CPnSarsa(λ)学习算法来解决该问题.它通过重新定义状态,Agent结合观测历史来识别混淆状态.将CPnSarsa(λ)算法应用到一些典型的POMDP,最后得到的是最优或近似最优策略.与以往算法相比,该算法的收敛速度有了很大提高.

著录项

来源
《控制与决策》 |2004年第11期|1263-1266|共4页
作者
王学宁; 贺汉根; 徐昕;
展开▼
作者单位

国防科技大学自动化研究所;

展开▼
原文格式 PDF
正文语种 chi
中图分类专用应用软件;
关键词
强化学习; 部分可观测Markov决策过程; Sarsa学习; 无记忆策略;

相似文献

中文文献
外文文献
专利

1. 基于部分可观马氏决策过程的多平台主被动传感器调度 [J] . 张子宁 ,单甘霖 ,段修生 . 电子学报 . 2014,第010期
2. 基于部分可观察马氏决策过程的频谱接入方法 [J] . 侯国涛 ,韩慧 ,胡俊 . 电波科学学报 . 2013,第003期
3. 信息科学与系统科学：信息科学与系统科学基础学科--部分可观测马尔可夫决策过程算法综述 [J] . 桂林 ,武小悦 . 中国学术期刊文摘 . 2009,第001期
4. 部分可观测马尔可夫决策过程算法综述 [J] . 桂林 ,武小悦 . 系统工程与电子技术 . 2008,第006期
5. 习惯形成、资产定价和马氏链求解算法 [J] . 肖争艳 ,陈彦斌 . 统计与决策 . 2006,第16期
6. 部分感知马氏决策过程的强化学习方法 [C] . 葛屾 ,王巍巍 ,高阳 . 中国人工智能学会第12届全国学术年会 . 2007
7. 部分可观察马氏决策过程的复杂性理论及规划算法研究 [A] . 章宗长 . 2012

求解部分可观测马氏决策过程的强化学习算法

摘要

著录项

相似文献

相关主题

期刊订阅