...
机译:多巴胺作为内在和外在补强的预测误差,会驱动动作获得和奖励最大化:模拟机器人研究
Actor-critic; Computational model; Intrinsic motivation; Phasic dopamine; Reinforcement learning; TD learning;
机译:多巴胺作为内在和外在补强的预测误差,会驱动动作获得和奖励最大化:模拟机器人研究
机译:对动作和奖励预测错误的神经反应:将错误相关的否定性与行为错误和反馈相关的否定性进行奖励预测违规比较
机译:推断精神分裂症患者的奖励预测错误:强化学习的动态奖励任务
机译:来自内在和外在奖励的受限增强学习
机译:奖励预测错误在加固学习期间形状内存
机译:纠正Glimcher了解多巴胺和强化学习:多巴胺奖励预测误差假设
机译:多巴胺作为内在和外在强化的预测误差,会驱动动作获取和报酬最大化:模拟机器人研究