首页> 外国专利> UPDATING POLICY PARAMETERS UNDER MARKOV DECISION PROCESS SYSTEM ENVIRONMENT

UPDATING POLICY PARAMETERS UNDER MARKOV DECISION PROCESS SYSTEM ENVIRONMENT

机译:马尔可夫决策过程系统环境下的更新政策参数

摘要

Embodiments relate to updating a parameter defining a policy under a Markov decision process system environment. An aspect includes updating the policy parameter stored in a storage section of a controller according to an update equation. The update equation includes a term for decreasing a weighted sum of expected hitting times over a first state (s) and a second state (s′) of a statistic on the number of steps required to make a first state transition from the first state (s) to the second state (s′).
机译:实施例涉及在马尔可夫决策过程系统环境下更新定义策略的参数。一个方面包括根据更新方程来更新存储在控制器的存储部分中的策略参数。更新等式包括用于减少在第一状态和第二状态的期望命中时间的加权总和的项,该统计值关于使第一状态从第一状态转变( s)到第二状态(s')。

著录项

相似文献

  • 专利
  • 外文文献
  • 中文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号