Department of Engineering Management and Systems Engineering The George Washington University 1776 G Street Washington DC 20052 USA ecamposn@gwu.edu;
机译:自适应聚合用于平均奖励马尔可夫决策过程中的强化学习
机译:自适应聚合用于平均奖励马尔可夫决策过程中的强化学习
机译:马尔可夫过程的逼近和自适应控制:平均奖励准则
机译:马尔可夫奖励过程的自适应优化
机译:马尔可夫奖励过程的自适应在线优化及其在多类亏损网络服务定价中的应用。
机译:学习最大化奖励率:基于半马尔可夫决策过程的模型
机译:基于仿真的马尔可夫奖励过程优化