Multi-armed bandit problem; Learning theory; Reward structures for learning;
机译:在知道近乎最佳均值奖励时,随机匪徒的最佳算法
机译:不知道需求函数的动态定价:风险界限和接近最优的算法
机译:不知道需求函数的动态定价:风险界限和近似最优算法
机译:知识接近最优均值奖励的随机匪徒的最优算法
机译:用于太空任务的新的近乎最佳的反馈制导算法。
机译:通过M椭球体进行体积计算的近最佳确定性算法
机译:不知道需求函数的动态定价:风险界限和接近最优的算法