神经网络了训练时候报 MemoryError，在线请教 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 1813 天前的主题，其中的信息可能已经有所发展或是发生改变。

在做图像分类，上千类图像，训练神经网络的时候，程序报错 data = np.array(data, dtype="float") / 255.0 MemoryError （补充：本人已经测试，在选用比较少类别图像的时候，该代码是可以成功运行并能生成训练出的模型文件，但是扩展到上千类之后就报 MemoryError，之前网上搜了相关的错误，有的说是数据增强的原因，可是取消在线数据增强之后，仍然报这个错误，百思不得其解，望能得到高手大佬们的指点帮助，在此小生先谢谢了！

16 条回复 • 2019-12-15 21:35:26 +08:00

1

malusama

2019-12-14 20:52:04 +08:00

上 64 位或者手动 gc

2

suifengingo

OP

2019-12-14 21:02:18 +08:00

@malusama 我用的是 64 位的机器，内存 32G...不知您所说的手动 gc 是什么意思呢

3

chempotato

2019-12-14 21:12:16 +08:00 via Android

gc 内存回收啊

4

lspvic

2019-12-14 22:35:55 +08:00 via Android

减小 batch_size

5

szxczyc

2019-12-14 22:41:14 +08:00 via iPhone

@lspvic #4 变小了效果会变差的

6

nasmatic

2019-12-14 22:46:58 +08:00 via Android

@szxczyc 其实还得看实际场景，如果减小了练出来的模型满足需求就行

7

helloworld000

2019-12-14 22:51:48 +08:00

1. 减少 batch size
2. quantlization （最简单的，把 tensor 默认的为 float64，改成 float16 ）
3. 上 cluster

8

mayfly233

2019-12-15 00:07:40 +08:00

减少 batch size 再做 batch accumulation 呗，不就一样了

或者就用 apex fp16，立竿见影，不过看框架兼容

9

lonelygo

2019-12-15 11:02:04 +08:00

几张卡？加起来都多大内存？
减小 batch_size，从 2 开始吧，要是=2 都不行，只能考虑上 cluster 了。
还有就是降到半精度试试看
或者，把主干网换一个不太深的。

10

suifengingo

OP

2019-12-15 11:53:22 +08:00

谢谢大佬们的热心解答，我再去按照大佬们说的试试看

11

laminux29

2019-12-15 13:33:37 +08:00

用 SSD 做虚拟内存。

12

tfdetang

2019-12-15 14:51:08 +08:00

你这句报错是在 input 输入的时候就报错了？所以数据生成部分是怎么写的？可以试试 tf.data

13

dick20cm

2019-12-15 15:28:35 +08:00 via Android

兄弟，别搞这个了，你不适合，真心劝退

14

rpman

2019-12-15 16:51:10 +08:00 via iPhone

内存不够吧。

15

suifengingo

OP

2019-12-15 20:38:51 +08:00

@mayfly233 请问下如何加入 batch accumulation ？虚心求教

16

mayfly233

2019-12-15 21:35:26 +08:00

第一个 batch 计算完别更新梯度，算完第二个 batch 再合并起来更新梯度，不就相当于累积 batch size x 2 了

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 2706 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 24ms · UTC 09:10 · PVG 17:10 · LAX 01:10 · JFK 04:10
Developed with CodeLauncher
♥ Do have faith in what you're doing.