综合编程

Pytorch有什么节省内存(显存)的小技巧?

微信扫一扫,分享到朋友圈

Pytorch有什么节省内存(显存)的小技巧?

加入极市专业CV交流群,与 1 0000+来自港科大、北大、清华、中科院、CMU、腾讯、百度  等名校名企视觉开发者互动交流!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。关注 极市平台  公众号  , 回复 加群, 立刻申请入群~

问题 在用pytorch实现一个tensorflow project的时候遇到了GPU显存超出 (out of memory) 的问题,有没有什么优化方法?

链接:

https://www.zhihu.com/question/274635237

知乎高质量回答

一、作者: 郑哲东

计算机科学博士在读

https://www.zhihu.com/question/274635237/answer/573633662

本文来自知乎问答, 回答已获作者授权, 著作权归作者所有, 禁止二次转载。

在不修改网络结构的情况下, 有如下操作:

1. 同意  @Jiaming,  尽可能使用inplace操作, 比如relu 可以使用 inplace=True 。一个简单的使用方法,如下:

def inplace_relu(m):
classname = m.__class__.__name__
if classname.find('ReLU') != -1:
m.inplace=True
model.apply(inplace_relu)

2. 进一步,比如ResNet 和 DenseNet 可以将 batchnorm 和relu打包成inplace,在bp时再重新计算。使用到了pytorch新的checkpoint特性,有以下两个代码。由于需要重新计算bn后的结果,所以会慢一些。

https://github.com/gpleiss/efficient_densenet_pytorch

https://github.com/mapillary/inplace_abn

3. 每次循环结束时 删除 loss,可以节约很少显存,但聊胜于无。可见如下issue:

Tensor to Variable and memory freeing best practices:

https://discuss.pytorch.org/t/tensor-to-variable-and-memory-freeing-best-practices/6000/2

4. 使用float16精度混合计算。我用过  @NVIDIA英伟达 apex,很好用,可以节约将近50%的显存,但是要小心一些不安全的操作如 mean和sum,溢出fp16。

NVIDIA/apex(https://github.com/NVIDIA/apex)

补充:最近我也尝试在我CVPR19的GAN模型中加入fp16的训练,可以从15G的显存需求降到约10G,这样大多数1080Ti等较为常见的显卡就可以训练了。欢迎大家star一波:

https://github.com/NVlabs/DG-Net

5. 对于不需要bp的forward,如validation 请使用 torch.no_grad , 注意model.eval() 不等于 torch.no_grad() 请看如下讨论:

https://github.com/NVlabs/DG-Net

6. torch.cuda.empty_cache() 这是del的进阶版,使用nvidia-smi 会发现显存有明显的变化。但是训练时最大的显存占用似乎没变。大家可以试试。

How can we release GPU memory cache?

https://discuss.pytorch.org/t/how-can-we-release-gpu-memory-cache/1453

另外,会影响精度的骚操作还有:

把一个batchsize=64分为两个32的batch,两次forward以后,backward一次。但会影响 batchnorm等和batchsize相关的层。

相关链接:

老外写的提高pytorch效率的方法,包含data prefetch等

Optimizing PyTorch training code:

https://www.sagivtech.com/2017/09/19/optimizing-pytorch-training-code/

二、作者: Lyken

https://www.zhihu.com/question/274635237/answer/755102181

本文来自知乎问答, 回答已获作者授权,著作权归作者所有,禁止二次转载。

咦,大家都没看过陈天奇的 Training Deep Nets with Sublinear Memory Cost (https://arxiv.org/abs/1604.06174)吗?

训练 CNN 时,Memory 主要的开销来自于储存用于计算 backward 的 activation,一般的 workflow 是这样的 

Vanilla backprop

对于一个长度为 N 的 CNN,需要 O(N) 的内存。这篇论文给出了一个思路,每隔 sqrt(N) 个 node 存一个 activation,中需要的时候再算,这样显存就从 O(N) 降到了 O(sqrt(N))。

Checkpointed backprop

对于越深的模型,这个方法省的显存就越多,且速度不会明显变慢。

PyTorch 我实现了一版,有兴趣的同学可以来试试 https://github.com/Lyken17/pytorch-memonger

极市平台视觉算法季度赛,提供真实应用场景数据和免费算力,特殊时期,一起在家打比赛吧!

添加极市小助手微信 (ID : cv-mart) ,备注: 研究方向-姓名-学校/公司-城市 (如:目标检测-小极-北大-深圳),即可申请加入 目标检测、目标跟踪、人脸、工业检测、医学影像、三维&SLAM、图像分割等极市技术交流群 ,更有 每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、 干货资讯汇总、行业技术交流 一起来让思想之光照的更远吧~

△长按添加极市小助手

△长按关注极市平台,获取 最新CV干货

觉得有用麻烦给个在看啦~   

全网最全微服务架构—Spring Cloud详解,没有比这更详细的了!

上一篇

数据显示Windows 10版本1909使用率持续增加

下一篇

你也可能喜欢

评论已经被关闭。

插入图片

热门栏目

Pytorch有什么节省内存(显存)的小技巧?

长按储存图像,分享给朋友