...
机译:使用Minimax树搜索在十六进制中创建价值和策略函数的加强学习
Hokkaido Univ Grad Sch Informat Sci & Technol Sapporo Hokkaido 0600814 Japan;
Hokkaido Univ Grad Sch Informat Sci & Technol Sapporo Hokkaido 0600814 Japan;
Hokkaido Univ Grad Sch Informat Sci & Technol Sapporo Hokkaido 0600814 Japan;
Hex; policy function; reinforcement learning; value function;
机译:优化强化学习策略功能的搜索方法
机译:具有快速策略搜索和自适应基函数选择的连续动作强化学习
机译:具有快速策略搜索和自适应基函数选择的连续动作强化学习
机译:使用十六进制卷积神经网络创建评估函数的强化学习
机译:十六进制值与策略函数学习算法的研究
机译:朝着蒙特卡罗树搜索和加固学习有效发现绿色综合途径
机译:稳健的多功能钢筋通过Minimax深度确定性政策梯度学习