ai 训练（非大模型）现在可以用 cpu 跑吗？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 304 天前的主题，其中的信息可能已经有所发展或是发生改变。

今年想了解下 ai 相关，暂时不考虑大模型，只是为了解决应用层面一些特定场景，比如特定物品识别之类的，标注数据量也不多，训练的时候需不需要用到显卡？现在在用 12500cpu ，没有显卡，另外也想请教下苹果 m 对这种玩票性质训练有加成吗？

CPU

模型

训练

特定

26 条回复

elliottzhao87

304 天前

前不久跑了一个小小的模型，就是几万个参数那种，CPU 完全没问题……

xinge666

304 天前 via iPhone

TensorFlow 和 PyTorch 都已经有 mps 加速了，用来加速训练简单的模型是没问题的。

lpf0309

303 天前

CPU 显存低，bitchsize 太小，准确率和速度都会降低。苹果 m 应该也没加成

Wataru

303 天前

ultra 带 npu 可以跑

paidaxtis

303 天前 via Android

@lpf0309 cpu 用内存

lchynn

303 天前

INTEL 有个新出的 BigDL 框架，可以看看。不过对 CPU 好像有要求要新一点的，太老不行。

https://github.com/intel-analytics/BigDL

shellcodecow

303 天前

自来水管不用你用吸管？

Muniesa

303 天前 via Android

一直都可以，就是比 GPU 慢亿点点。pytorch 有对 m 系列的 GPU 支持，比 CPU 肯定快多了。如果只是玩票可以考虑用 Google colab 用 GPU 训练，训练完可以在自己电脑 CPU 上推理，CPU 推理也慢但是没有训练慢那么多。

raptor

303 天前

@lchynn 需要新的 ultra CPU 吧

PsychoKidA

303 天前

物品识别肯定可以。用 .onnx 模型搭配 ONNX 框架就行。如果要加成，要看芯片商出的推理框架，比如苹果就是 CoreML ，高通就是 QNN 。

xz410236056

303 天前

mac 有 MPS 可以加速训练

Morriaty

303 天前

你要是没接触过，就别纠结 CPU GPU 的问题啊，先把 numpy 、torch 、transforms 这些库搞熟

siriussilen

303 天前

可以，就是慢了点

fredweili

303 天前

CPU 不行，苹果就更不行了，都是英伟达的 CUDA

CrazyRundong

303 天前 via iPhone

12500 cpu 是指一万两千五百个 cpu 核心的集群还是说一颗 Intel 12500 ？前者可以试试 Intel 的加速库 + MPI 分布式训练，后者够呛。即使是训 100M 级别的 CV 模型，以前用 1080Ti 都觉得慢得不行

onikage

303 天前

@Muniesa 别吓我，初期肯定反复试错，一等几个小时肯定受不了。

onikage

303 天前

@Morriaty 这些肯定是要了解的

onikage

303 天前

@CrazyRundong 就是普通的 12 代酷睿 i5

paopjian

303 天前

你这种情况为什么不白嫖 colab

736531683

303 天前

完全可以的，就是比较慢，苹果早就支持 cuda 加速了，前面不要乱说。

loryyang

303 天前

你问问题的这个方式只能说明你对模型训练的知识了解太少了。不要多问，先上手去做吧

loryyang

303 天前

@loryyang #21 稍微补充一下，不同的模型训练都是不一样的，底下到底用了什么框架，tf 还是 pytorch ，都是不太一样的。你应该先选择一个你感兴趣的模型，然后翻一下对应的文档（基本上都会清楚说明的），自己再去造轮子训练一下

cherryas

303 天前

铁杵可以磨成针吗和这个问题的答案一致。

cherryas

303 天前

当鸡啄完米,狗吃完面,火烧断锁就可以训练完一次了。

wangzhangup

303 天前

计算机视觉方面的模型对于算力要求比较低，但是训练的话用 CPU 不太行。
至于大模型都不是一个 GPU 能搞定的，需要 GPU 集群才能训练大模型。

charslee013

303 天前

当然可以呀很早之前我就写过使用 llama.cpp 在 M1 上直接使用 CPU 来运行 llama 7B 模型 https://www.v2ex.com/t/923536

现在的话 llama.cpp 还支持 openblas 加速，CPU 跑 1.3B 或者 3B 4bit 量化后的都是没问题的

> 训练的时候需不需要用到显卡？
训练最好还是用显卡，而且还是大显存那种避免 Out of CUDA Memory

训练完毕后删掉一些不用的层转 onnx 格式直接用 CPU 跑应该是没问题的，就是速度懂得都懂 🤔