首页> 外文期刊>電子情報通信学会技術研究報告. ニュ-ロコンピュ-ティング. Neurocomputing >ソフトマックス行動選択のパラメータ調整の手間を省くための新たな関数の導入
【24h】

ソフトマックス行動選択のパラメータ調整の手間を省くための新たな関数の導入

机译:ソフトマックス行動選択のパラメータ調整の手間を省くための新たな関数の導入

获取原文
获取原文并翻译 | 示例
           

摘要

マルコフ決定過程は強化学習において最も代表的な枠組みの実装の一つである.マルコフ決定過程の確率密度関数のエントロピーは確率的複雑さと呼ばれる.強化学習の行動選択戦略には探査と知識利用のジレンマと呼ばれる問題が存在し,行動選択戦略のパラメータ調整は一般に難しい.しかし,確率的複雑さはこの調整に関する有益な情報を含むことが近年示された.そこで,本論文では,行動選択戦略として代表的なソフトマックス行動選択を取り上げ,確率的複雑さを用いてソフトマックス行動選択のパラメータ調整の手間を省くための効率的な方法を提案する.

著录项

获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号