首页> 外文会议>情報処理学会全国大会 >POMDPs環境のための決定的政策を学習するProfit Sharing による 二足歩行ロボットの姿勢制御
【24h】

POMDPs環境のための決定的政策を学習するProfit Sharing による 二足歩行ロボットの姿勢制御

机译:利润分享姿势控制自由利润,以了解POMDPS环境的明确政策

获取原文

摘要

強化学習とはとるべき行動を学習する機械学習の一種である.強化学習は環境との相互作用で学習を進めるため,事前に理想的な解を示す教師信号を与えることなく,適切な行動系列が獲得可能であるという利点があり,現在,様々な手法が研究されている.本研究では,POMDPs (Partially Observable MarkovDecision Processes) 環境のための決定的政策を学習するProfit Sharing[1] を用いて,二足歩行ロボットの姿勢制御モーションの獲得を実現する.ロボットの学習に強化学習を用いることには,(1) 目的に応じて報酬を設定するだけで学習を行うことができる,(2) 故障などの想定外の状況に対しても学習により自動的に適応できる,(3) 手動で設定した場合よりも試行錯誤により優れた制御ルールを獲得できる可能性があるなどの利点がある.
机译:机器学习,学习采用加强学习的行为这是一种。强化学习与环境互动学习为了推进,请提前提供显示理想解决方案的教师信号据说,可以在没有的情况下获得适当的行为序列存在优点,已经研究了各种方法。书在研究中,POMDPS(部分观察到的马尔可夫决策流程学会了对环境的决定性政策使用盈利共享的Biped机器人图[1]实现了电力控制运动的获取。机器人学习使用强化学习,(1)根据目的奖励只需设置(2)失败就可以学习它通过学习出意外情况自动适当(3)试验和错误比(3)手动设置您可以赢得更好的控制规则等。有一个优势

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号