ai 小白请教，大模型必须要 gpu 服务器吗，单纯推理是不是 cpu 就可以了。

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

纯 ai 小白，我想做一个特定类型的 AI ，类似于给人翻译或者聊天这种。

想了想，可不可以在自己的本地的高配置 GPU 电脑上训练好模型，再把大模型丢到阿里云的 ECS 服务器上。我理解只是使用模型并不需要 gpu 吧，普通的 1c2g 的服务器是不是也可以，之后要迭代大模型，再次本地训练上传上去。搜了一圈资料，都说需要 gpu ，大家都是线上一边训练一遍推理的吗

26 条回复 • 2024-12-03 04:05:54 +08:00

cbythe434

1 天前

直接调用 api

lance07

1 天前

模型推理计算量也很大的, 不用 gpu 会非常慢, 而且...你 2g 内存连模型都装不下

hoodjannn

1 天前

@lance07 以前弄那种人脸识别的 tensorflow 模型我直接用的这种服务器，甚至有几个业务为了省成本直接放到了用户端。现在的大模型是运行都有很大计算量吗

raycool

1 天前

现在的大模型和以前的人脸识别，算力那是天壤之别。

lance07

1 天前

@hoodjannn 人脸那种很小的, 现在你描述的能翻译聊天的大模型推理也要十几个 G 显存的(不用量化啥的, 而且用了也不会有数量级上变化)

hoodjannn

1 天前

@lance07 好的👌🏻 多谢告知

vishun

1 天前

现在的开源大模型都是已经训练好的了，但部署使用仍然要 gpu ，不然的话显卡也不会卖这么贵。

CannedFishsan

1 天前

纯推理的话也需要很大的 GPU 硬件需求的……纯 CPU 的话要么就直接花钱调 API （最佳方案），要么试试轻量化后的小参数 LLM （我怀疑可行性）

GeekGao

1 天前

对于参数量级超过 7b 的模型，只有高性能 gpu 才能发挥出推理性能啊。cpu 目前还是不太行。

Donaldo

1 天前

@lance07 #5 没数量级的变化，但是很可能不量化塞不下，量化了塞得下。。

gaobh

1 天前

主要是看并发，只有你自己用，CPU 也可以，但是给用户用，服务器不得冒烟了

HetFrame

1 天前

买 api ，才试了阿里百炼的通义模型，有些内容也不是很快

hoodjannn

1 天前

感谢楼上各位大佬回复。总结了一下，不知道说得对不对，个人开发者最好的方案是使用现成的 ai 大模型服务调 api ，感觉有点推翻了我这个小白之前的认知。那我理解，大家的 ai 业务应用本质上不是一模一样吗？用的都是一样的公用的现成大模型，我在一个爱情聊天机器人里问健康食谱也是可以。

hoodjannn

1 天前

那大家目前在应用领域在竞争的点在于哪里，用户理论上直接使用 chatgpt,kimi 和豆包就能够实现所有需求了。

me1onsoda

1 天前

有竞争力的产品肯定是自己训练自己部署。你说的那些给业务人套一下 prompt ，业务直接就寄了，就是个赛博斗蛐蛐的乐子

WonderfulRush

1 天前

普通 1c2g 肯定是不行的，7b 模型 13600k int4 量化推理只有大概 7token/s

june4

1 天前

@hoodjannn 怎么会一样，写提示也是个大工程。那个 v0 ，这么牛逼的东西，也只是个调公用模型的 app ，但是你看看有人扒出来的巨型提示，提示才是核心技术。

unco020511

1 天前

大模型你可以理解为知识基础服务,上层的应用也是很关键的,各种错综复杂的大模型推理步骤结合起来,最终组成一个 AI 产品

raptor

1 天前

docker 跑个 ollama ，下个不太大的模型试试就知道了，反正我用 16 核的 4800U 跑 13b 的模型都是一分钟蹦一个字的样子。

skallz

1 天前

cpu 只能跑轻量化的，翻译之前我也尝试过一个轻量化的模型，cpu 能用，但是效果非常差，速度也不太行

skallz

1 天前

同样价格的 cpu 和 gpu ，同个模型用 gpu 几乎都快实时翻译了，cpu 还在那里等结果。。。

qiniu2025

1 天前

现在模型够强了,不需要你再训练了,把提示词写好就可以了,你可以用公共大模型 API,用你的提示词做个网站,用户用手机都可以访问

rus4db

1 天前

本质上是矩阵运算，CPU 不是不能干，只是太慢而已。

不妨试试我的智障电子鹦鹉，浏览器 CPU 推理的，并不实用，只是为了说明语言模型推理的原理：
https://bd4sur.com/Nano/infer/

qiniu2025

1 天前

@hoodjannn #14 chatgpt,kimi 哪些聊天机器人,干不了正经事,比如翻译一部视频字幕,需要一个工作流,先提取字幕,调用大模型翻译(字幕翻译需要很多技巧),压制字幕,这些都可以大量周边软件支持,聊天机器人根本不行,这种工作流就是做应用的机会,大模型相当于操作系统

zuotun

1 天前

成本最低的方案就是调 API ，想要自己训练就用本地显卡跑然后内网穿透出去。效果最好的还是 GPU 服务器直接部署在机房同时准备一套备用的 API 以免业务寄了，但看你需求感觉是想做个没什么大流量的偏自用服务，这样一切从简就好。
看得出你对这方面的知识几乎为零，不要折腾自己了，有时间还是先去学一下基础点的东西吧，不要一上来就想着做出产品。

falconwang0110

1 天前

无 GPU 推理有两个方案：
1. 调用 API ，这样你自己的服务端只需要接受用户输入并返回模型输出即可，1c2g 应该问题不大。
2. 线上推理，对于语言模型也可以用 CPU 进行 inference ，但是会很慢，量化为 INT4 后，4 代 Xeon 大概能做到每个 token 20~80ms （ 3B~20B 模型），reference: [Efficient LLM Inference on CPUs]