首页> 外文期刊>電子情報通信学会技術研究報告 >Multiarmed Bandit Algorithms Based on Empirical Moments
【24h】

Multiarmed Bandit Algorithms Based on Empirical Moments

机译:基于经验矩的多臂强盗算法

获取原文
获取原文并翻译 | 示例
           

摘要

多腕バンディット問題は強化学習における知識の探索と活用のジレンマを定式化したもので,複数台のスロットマシンを選んでプレイするギャンブラーのモデルとして表される.本論文では各マシンからのrewardが区間[0,1]上の確率分布にしたがう場合を考える。このモデルにおいては理論限界を漸近的に達成する戦略が知られているが、これは経験分布そのものを用いた凸最適化を毎回実行する必要がある。そこで本研究では任意の次数dまでの経験モーメントのみを用いて計算可能な戦略を新たに提案し、その性能が次数dを増やすことで理論限界に漸近することを示す。また、提案戦略においてはモーメント制約付きKLダイバージュンス最小化を計算する必要があるが、これがTchebycheff systemの理論を用いることにより代数方程式系の求解に帰着できることを示す。%In the multiarmed bandit problem a gambler chooses an arm of a slot machine to pull considering a tradeoff between exploration and exploitation. We study the stochastic bandit problem where each arm has a reward distribution supported in a known bounded interval, e.g. [0,1]. For this model, there exists a policy which achieves the theoretical bound asymptotically. However the optimal policy requires a computation of a convex optimization which involves the empirical distribution of each arm. In this paper, we propose a policy which exploits the first d empirical moments for arbitrary d fixed in advance. The asymptotic upper bound of the regret of the policy approaches the theoretical bound as d increases. The proposed policy requires a minimization of KL divergence with moment constraints. We show by the theory of Tchebycheff system that the optimal value is obtained by solving polynomial equations.
机译:多臂强盗问题是强化学习中知识搜索和利用困境的形式化形式,并表示为选择并玩多个老虎机的赌徒模型。在本文中,我们考虑了来自每台机器的奖励遵循区间[0,1]上的概率分布的情况。在此模型中,已知一种策略,可以渐近地达到理论极限,但这需要每次使用经验分布本身进行凸优化。因此,在这项研究中,我们提出了一种新的策略,可以仅使用经验矩计算任意阶数d,并且通过增加阶数d来证明其性能接近理论极限。我们还表明,提出的策略需要计算带有力矩约束的KL发散最小化,这可以通过使用Tchebycheff系统的理论来解决。 %在多臂匪徒问题中,赌徒选择一台投币机的手臂以考虑勘探与剥削之间的折衷关系。我们研究了随机匪徒问题,其中每只手臂都有在已知有界区间内得到支持的奖励分布,例如[0,1对于该模型,存在一种可以渐近实现理论界的策略。但是,最优策略需要计算凸优化,该凸优化涉及每个臂的经验分布。在本文中,我们提出了一种利用第一个d的策略。随着d的增加,该策略的后悔的渐近上限接近理论界线。拟议的策略要求在具有矩约束的情况下最小化KL散度。通过Tchebycheff系统的理论表明最优值通过求解多项式方程获得。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号