基于双重注意力机制的异步优势行动者评论家算法

凌兴宏; 李杰; 朱斐; 刘全; 伏玉琛

首页> 中文期刊> 《计算机学报》 >基于双重注意力机制的异步优势行动者评论家算法

基于双重注意力机制的异步优势行动者评论家算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

cqvip:深度强化学习是目前机器学习领域发展最快的技术之一.传统的深度强化学习方法在处理高维度大状态的空间任务时,庞大的计算量导致其训练时间过长.虽然异步深度强化学习利用异步方法极大缩短了训练时间,但会忽略某些更具价值的图像区域和图像特征.针对上述问题,本文提出了一种基于双重注意力机制的异步优势行动者评论家算法.新算法利用特征注意力机制和视觉注意力机制来改进传统的异步深度强化学习模型.其中,特征注意力机制为卷积神经网络卷积后的所有特征图设置不同的权重,使得智能体聚焦于重要的图像特征;同时,视觉注意力机制为图像不同区域设置权重参数,权重高的区域表示该区域信息对智能体后续的策略学习有重要价值,帮助智能体更高效地学习到最优策略.新算法引入双重注意力机制,从表层和深层两个角度对图像进行编码表征,帮助智能体将聚焦点集中在重要的图像区域和图像特征上.最后,通过Atari 2600部分经典实验验证了基于双重注意力机制的异步优势行动者评论家算法的有效性.

著录项

来源
《计算机学报》 |2020年第1期|93-106|共14页
作者
凌兴宏; 李杰; 朱斐; 刘全; 伏玉琛;
展开▼
作者单位

苏州大学计算机科学与技术学院江苏苏州215006;

苏州大学江苏省计算机信息处理技术重点实验室江苏苏州 215006;

吉林大学符号计算与知识工程教育部重点实验室长春 130012;

软件新技术与产业化协同创新中心南京210000;

常熟理工学院计算机科学与工程学院江苏常熟215500;

展开▼
原文格式 PDF
正文语种 chi
中图分类人工智能理论;
关键词
注意力机制; 双重注意力机制; 行动者评论家; 异步优势行动者评论家; 异步深度强化学习;

相似文献

中文文献
外文文献
专利

1. 基于异步优势演员-评论家学习的服务功能链资源分配算法 [J] . 唐伦 ,贺小雨 ,王晓 . 电子与信息学报 . 2021,第006期
2. 基于经验指导的深度确定性多行动者-评论家算法 [J] . 陈红名 ,刘全 ,闫岩 . 计算机研究与发展 . 2019,第008期
3. 一种基于高斯过程的行动者评论家算法 [J] . 陈仕超 ,凌兴宏 ,刘全 . 计算机应用研究 . 2016,第006期
4. 基于双重注意力机制的图像超分辨重建算法 [J] . 李彬 ,王平 ,赵思逸 . 图学学报 . 2021,第002期
5. 基于双重注意力机制的图像超分辨重建算法 [J] . 李彬 ,王平 ,赵思逸 . 图学学报 . 2021,第002期
6. 1基于注意力机制的卷积神经网络遮挡目标检测算法 [C] . YANG Junzhi ,杨钧智 ,WU Jinliang . 第七届高分辨率对地观测学术年会 . 2020
7. 基于行动者评论家的探索动作修正算法研究 [A] . 姜玉斌 . 2019

基于双重注意力机制的异步优势行动者评论家算法

摘要

著录项

相似文献

相关主题

期刊订阅