Institute of Industrial Process Control Zhejiang University Hangzhou China 310027;
active stimulating; cart-pole balancing; natural gradient estimate; reinforcement learning (RL);
机译:随机梯度算法自适应逆加固学习的Langevin动态
机译:群体机器人强化学习基于梯度下降的基于学习精度的学习分类器系统(XCS-GD)
机译:使用基于价值梯度的策略进行实时运动控制的无学习率强化学习
机译:基于自然梯度的加强学习算法使用主动刺激
机译:PDE接近两个在线学习问题,以及对一些基于神经网络的主题学习算法的实证研究
机译:不确定性下基于主动学习和流形学习的高效采样算法用于多种无人机任务分配
机译:基于ICA的盲源分离学习算法的交替自然梯度方法。