首页> 中文学位 >基于Stencil算法的NVIDIA Kepler架构下的性能分析与调优
【6h】

基于Stencil算法的NVIDIA Kepler架构下的性能分析与调优

代理获取

目录

声明

第一章 绪论

1.1 研究背景

1.2 研究目的

1.3 相关研究工作

1.4 论文组织结构

第二章 NVIDIA Kepler架构分析与研究

2.1 GPU计算概述

2.2 CUDA编程概述

2.3 NVIDIA Kepler架构

2.4 本章小结

第三章 Stencil相关优化方法

3.1 Stencil算法优化手段

3.2 CUDA程序性能优化

3.3 本章小结

第四章 实验结果与分析

4.1 实验环境

4.2 实验结果

4.3 误差分析

4.4 实验分析

4.5 本章小结

第五章 总结与展望

5.1 总结

5.2 未来工作的展望

参考文献

致谢

攻读学位期间发表的学术论文

展开▼

摘要

在很多计算密集的应用中,Stencil算法(模板计算)是耗时最多和最为重要的计算核心。随着GPU通用计算加速卡出色的计算能力、功耗控制和编程的简化,GPU加速卡在科学研究中的工作站和超级计算机中得到普遍使用,如何在GPU这样的异构设备上将Stencil算法进行性能优化和提高效率便成了一个亟待解决的关键问题。在本文中,我们选取了3D7P这个典型应用进行研究。通过对这个典型应用在Kepler架构GPU上的优化和分析,我们探讨了不同优化手段对于计算性能产生的影响。NVIDIA Kepler架构是Tesla系列服务器级GPU中最新的架构,我们研究了Tesla K20、K40、K80,基本涵盖了Kepler架构的绝大部分核心。并借助性能分析工具——nvprof,通过收集程序执行中的硬件指标和性能事件,对Stencil计算在不同优化手段下性能的差异进行了比较和分析。对于访存受限类型的3D7P程序在不同的Tesla GPU上,经过性能调优后访存带宽基本达到了对应的实际带宽峰值。本文还对嵌入式开发板NVIDIA Jetson TX1进行了研究和分析。TK1是首个在嵌入式集成了Kepler核心GPU的开发板,而TX1是TK1的升级,其集成了NVIDIA最新Maxwell架构核心,并且拥有完整的CUDA开发平台。比较TX1和Kepler GPU的性能差异对我们深入了解Kepler架构和Maxwell架构对有重要的借鉴意义。同时也为我们以后研究Maxwell架构下的服务器级GPU性能分析与调优提供了参考。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号