首页> 中文学位 >深度模型简化:存储压缩和计算加速
【6h】

深度模型简化:存储压缩和计算加速

代理获取

目录

声明

摘要

第1章绪论

1.1研究内容与背景

1.2研究意义

1.2.1.场景举例

1.2.2.资源受限平台运行深度模型的难点

1.3本文的主要工作及组织结构

1.3.1.本文的主要工作

1.3.2.本文的组织结构

1.4本章小结

第2章背景知识及调研综述

2.1深度模型介绍

2.1.1.人工神经网络

2.1.2.深度神经网络

2.1.3.深度卷积神经网络

2.1.4.针对物体检测的R-CNN模型

2.1.5.针对机器翻译的深度模型

2.2深度神经网络简化综述

2.2.1.工程性加速

2.2.2.参数约减

2.2.3.高维模型降维

2.3本章小结

第3章基于优化的深度模型压缩

3.1概述

3.2相关研究

3.3算法介绍

3.3.1. OLMP

3.3.2.使用OLMP进行DNN压缩

3.3.3. OLMP实现

3.4实验及分析

3.4.1.LeNet系列模型上的压缩效果对比

3.4.2.AlexNet结构上的压缩效果对比

3.4.3.δ和σ之间的敏感度分析

3.4.4.不组合迭代式压缩流程的OLMP裁剪性能

3.5本章小结

第4章针对机器翻译深度模型的压缩研究

4.1概述

4.2相关研究

4.3 NMT常用连接结构

4.3.1.反馈式模型

4.3.2.前馈式模型

4.4连接分组策略与模型裁剪

4.4.1.Time-wise连接分组策略

4.4.2.Residual-wise连接分组策略

4.4.3.其他连接分组策略

4.4.4.模型裁剪方案

4.5实验及分析

4.5.1.数据集与评价指标

4.5.2.实验设置

4.5.3.分组策略效果对比

4.5.4.不同δ值下分组策略裁剪效果的变化

4.5.5.RNNSearch和Luong-Net变体模型上的裁剪效果

4.6本章小结

第5章针对物体检测深度模型的加速研究

5.1 概述

5.2相关工作

5.2.1.加速分类过程

5.2.2.加速Rol生成过程

5.3 R2-CNN方法:Rol生成

5.3.1.步骤一:生成Integrate Feature Map

5.3.2.步骤二:生成Feature Level

5.3.3.步骤三:生成Rol

5.3.4.步骤四:Local Search

5.4 R2-CNN方法:整体框架

5.4.1.递归微调(Recursive Fine-tuning)与其实现

5.5实验及分析

5.5.1.实验设置

5.5.3物体检测的性能对比

5.5.4.Rol质量对比

5.5.5.不同卷积层选择对R2-CNN的影响

5.6本章小结

第6章总结

参考文献

致谢

在读期间发表的学术论文与取得的研究成果

展开▼

摘要

深度模型——泛指各类采用了深度神经网络(Deep Neural Network,简称DNN)的模型,它们往往包含庞大的参数数量和复杂的计算流程,这使得这些模型在计算和存储方面需要消耗大量的资源。故而很多包含深度模型的应用无法布置到资源受限的硬件平台上——计算和存储资源较少且不易扩充的硬件环境(例如:无人机),此时就需要对深度模型进行简化。深度模型简化的目的,是在保持模型精度(具体应用设置的评价指标)的前提下,针对性地加快模型计算速度或是压缩模型存储大小。据此,本文分别针对深度模型的加速和深度模型的压缩进行了相应的研究。 首先,针对深度模型常用的组成部分——深度神经网络,本文提出了一种通用的压缩方法,其能极大地压缩模型的存储大小。对于深度模型压缩,有一类常用的方法是基于重要性的连接裁剪法(Magnitude-based Pruning,简称MP),该方法主要假设网络中连接权重的绝对值可以视为对应连接的重要性度量;当给定一个重要性阈值后,将神经网络中所有重要性(也即是连接权值的绝对值)低于该阈值的连接都删去。目前在深度神经网络中取得显著效果的MP方法主要是它的一个变种,既基于层级结构的重要性裁剪方法(Layer-wise Magnitude-based Pruning,简称LMP)。LMP的做法主要是分层进行MP,不同层使用不同的裁剪阈值。但是LMP有个显著的难点,就是不同层的阈值组合数目是随着网络层数指数增长的。对于给定的网络结构,如何确定一组最佳的阈值非常困难。对于这个问题,本文提出了基于优化的层级裁剪方法,既Optimization based Layer-wise Magnitude-based Pruning(简称OLMP)。为了解决裁剪阈值选取的问题,OLMP将神经网络裁剪问题转化为一个带约束的单目标优化问题,并使用非梯度优化算法来求解一组能找到的最佳阈值。 然后,本文选取了面对一个具体应用的一类深度模型,研究了如何针对性地压缩这一类模型。本工作选定的具体应用是机器翻译(Machine Translation),目前采用深度模型处理机器翻译任务的做法统称为神经机器翻译(Neural Machine Translation,简称NMT)。相关的深度模型也被称作NMT模型。NMT模型中的存储瓶颈主要来源于其采用的深度神经网络,故依然是深度神经网络的压缩问题。在该问题上,LMP也是常用的一类算法,但是NMT模型采用的DNN,其连接结构相当复杂,而已有的工作在应用LMP时并没有针对这些复杂结构进行相应调整。这使得LMP算法效果并不显著,因为LMP算法隐含地假设DNN中性质相近的连接(既连接会参与到同一个原子操作中)处于同一层中,而这个假设不一定适用于NMT模型采用的DNN。针对这个问题,本工作选取了NMT模型中较有代表性的三个模型(这三个模型主要区别在于采用不同的DNN模型),并详细研究了不同的连接分组对裁剪结果的影响。因为模型的裁剪结果不但与连接分组有关,也与裁剪阂值相关,为了在选定分组方法后,能找到一个尽可能好的裁剪模型,本工作将第一个工作中提出的OLMP算法拓展到了基于不同分组的裁剪算法中,这样即可通过优化的方法自动找一个裁剪模型。最后,本文测试了不同的连接分组策略在裁剪性能上的区别,并分别对NMT常用的两种连接结构总结出了相适应的分组策略。 最后,本文选定了一个针对具体应用的一个深度模型,研究如何加速其中非神经网络部分的计算。本工作选定的模型,是针对物体检测的Region-based CNN(简称R-CNN)模型。R-CNN模型包含两个部分,第一部分是分析图片并将图片中可能包含物体的区域切分出来,这些可能包含物体的区域被称为Region of Interests(简称RoIs);第二部分则是使用卷积神经网络(Convolutional Neural Network,简称CNN)对RoIs进行分类,以确定每个区域是否包含某个可被识别的物体,或为无法识别的背景。R-CNN模型在实际应用中存在一个难点,RoI的生成没有行之有效地加速方法,使得在资源受限的平台进行布置时,RoI的计算过程将成为速度上的瓶颈之一。本文针对这个问题进行了研究,并提出了Relief R-CNN(简称R2-CNN)方法,这个方法通过直接从CNN的卷积层中抽取RoI的做法,极大地简化了RoI的计算流程,最终可以在维持一个较为不错的检测精度的前提下,将原本占总时间63.5%~98.7%的RoI生成时间简化到只占总时间的0.3%。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号