首页> 外文会议>International Conference on Machine Learning >A Relative Exponential Weighing Algorithm for Adversarial Utility-based Dueling Bandits (extended version)
【24h】

A Relative Exponential Weighing Algorithm for Adversarial Utility-based Dueling Bandits (extended version)

机译:基于普发的实用性的决斗匪徒的一个相对指数称重算法(扩展版)

获取原文

摘要

We study the K-armed dueling bandit problem which is a variation of the classical Multi-Armed Bandit (MAB) problem in which the learner receives only relative feedback about the selected pairs of arms. We propose an efficient algorithm called Relative Exponential-weight algorithm for Exploration and Exploitation (REX3) to handle the adversarial utility-based formulation of this problem. We prove a finite time expected regret upper bound of order O({the square root of}(K ln(K)T)) for this algorithm and a general lower bound of order Ω({the square root of}KT). At the end, we provide experimental results using real data from information retrieval applications.
机译:我们研究了K武装的决斗强盗问题,这是经典多武装强盗(MAB)问题的变型,其中学习者仅接收关于所选择的臂的相对反馈。我们提出了一种称为相对指数重量算法的高效算法,用于勘探和开发(REX3),以处理这个问题的基于对抗的实用程序的制定。对于该算法,我们证明了订单O({}(kln(k)(k)t)的平方根)的有限时间后悔上限,并且ω({kt的平方根)的普通下限和一般下限。最后,我们提供了使用来自信息检索应用的真实数据的实验结果。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号