Decision making; Learning; Markov processes; Policies; Multiagent systems; Decpomdps(Decentralized partially observable markov decision processes); Multi-agent learning; Reinforcement learning;
机译:多主体图形游戏中用于同步的非策略强化学习
机译:基于非策略强化学习的异构系统最优无模型输出同步
机译:基于模型的无限水平近似最优跟踪强化学习
机译:无限视野折扣强化学习中的策略搜索:通过与非凸优化的连接而取得的进步:特邀演讲
机译:使用分布式奖励制定学习基于模型的强化学习的政策
机译:利用等级强化学习的多意图对话的情感对话策略学习
机译:DQ Scheduler:分布式SDN中的基于深度加强学习的控制器同步