首页> 外文会议>情報処理学会全国大会;情報処理学会 >畳み込みニューラルネットワークの行列演算におけるTensor コアを用いた並列処理
【24h】

畳み込みニューラルネットワークの行列演算におけるTensor コアを用いた並列処理

机译:卷积神经网络矩阵运行中的张量芯的并行处理

获取原文

摘要

物体検出のディープラーニングに用いられる畳み込みニューラルネットワーク(CNN)では多くの行列演算が行われており,学習時間を短縮するためには行列演算の高速化が不可欠である.行列演算の高速化には,GPUの活用が広く行われているが,さらなる速度向上を実現するためには,単精度浮動小数点数FP32 の代わりに,半精度浮動小数点数FP16 を利用して,GPU の演算性能を高めることが挙げられる.加えて,Tensor コア[1]を活用することにより,行列演算の高速化が可能になる.そこで本手法では,FP16 およびTensor コアを利用するCUDA プログラムを開発しており,CNN に用いられる行列演算に適用した. NVIDIA Quadro RTX 6000 上で行った性能評価の結果,提案手法の有効性が確認された.
机译:用于物体检测DEEPLER的卷积 神经网络中的许多矩阵操作(CNN) 进行矩阵操作以降低学习时间 加速至关重要。 GPU加快矩阵操作 利用被广泛使用,但进一步改善 而不是单个精密浮点FP32, GPU计算使用半精密浮点FP16 提高能力。 此外,张量核心[1] 通过利用,可以加速矩阵操作。 因此,在该方法中,使用FP16和张量核心 开发了CUDA计划并用于CNN 适用于矩阵操作。 在NVIDIA Quadro RTX 6000 由于性能评估,确认了所提出的方法的有效性。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号