首页> 外文会议>情報処理学会;情報処理学会全国大会 >負の報酬を獲得する状況を重視した畳み込みニューラルネットワークを用いたProfit Sharing におけるルールの再利用
【24h】

負の報酬を獲得する状況を重視した畳み込みニューラルネットワークを用いたProfit Sharing におけるルールの再利用

机译:使用强调强调获得负面奖励的情况的卷积神经网络重用利润共享中的规则

获取原文

摘要

深層学習と強化学習とを組み合わせた手法は深層強化学習と呼ばれる。Q Learning をDeep Learning の代表的な手法である畳み込みニューラルネットワークを用いて実現したDeep Q-Networkは、多くのゲームで人間や従来の手法を上回るスコアを獲得できることが示され、注目されている。また、Q Learningの代わりにProt Sharing を畳み込みニューラルネットワークを用いて実現する手法[4] も提案されている。この手法では、いくつかのゲームにおいてDeep Q-Network よりも高いスコアが獲得できるように学習が行えることが示されている。Deep Q-Network[3]はQ Learning に基づいた手法であるため、多くの報酬を得られるような政策を獲得するように学習が行われることになる。しかし、課題によっては負の報酬を獲得しないことを学習することが重要な場合もある。また、障害物回避問題などにおいては、負の報酬を獲得する状況におけるルールは環境が変わっても再利用できる可能性がある。
机译:深度学习和强化学习相结合的方法是深度学习 这称为化学学习。 Q学习深度学习 卷积神经网络,这是一种典型的方法 通过使用多个实现了深度Q网络 您可以获得比人类和常规方法更高的分数 已经显示出它正在引起关注。还有Q学习 用Prot Sharing代替的卷积神经网络 还已经提出了通过使用网络实现的方法[4]。 借助这项技术,Deep Q- 学习获得比网络更高的分数 已经证明可以做到这一点。深度Q网络[3] 是一种基于Q学习的方法,所以有很多新闻 学习是为了获得可以得到奖励的政策 将。但是,根据任务的不同,奖励为负数 有时候,学会不赚钱很重要。 此外,您会因避障问题而获得负面奖励。 即使环境发生变化,您遇到的情况下的规则也可以重用 有可能可以做到这一点。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号