reinforcement learning; exploitation and exploration tradeoff; markov decision processes; profit sharing; policy iteration;
机译:单轨强化学习的学习探索/开发策略
机译:自我调节学习中的探索与开发权衡和信息知识差距:对学习者控制的培训和发展的启示
机译:忘记学习的组织学习:重新考虑勘探与开发的权衡
机译:MarcoPolo:在Marcovian环境下考虑权衡探索和开发的强化学习系统
机译:开发和探索作为复杂环境下的集体学习策略:以一家中国制造企业为例。
机译:多巴胺控制源和勘探开发权衡
机译:基于模糊强化学习的勘探与开发权衡