Action Shaping; Multi-Agent Learning; Organization Control; Reward Shaping; Supervision;
机译:基于计划的奖励成型,用于多主体强化学习
机译:稀疏交互多主体系统的上下文相关奖励整形
机译:学习如何结合目标和形状学习的机械手为动态运动图元浇注
机译:组合动态奖励塑造和行动塑造来协调多智能经纪人学习
机译:奖励预测错误在加固学习期间形状内存
机译:微丝协调的粘附动力学驱动单细胞迁移并塑造整个组织
机译:多智能体系统潜在回报整形的理论思考
机译:具有低纵横比翼的导弹配置的空气动力学特性,用于各种组合的前体,后体和鼻子形状,用于组合攻角和侧滑,马赫数为2.01