最低成本本地运行 70B 模型， V 友有哪些建议

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

如题，最新体验英伟达的 70Bllama 感觉不错，打算搞个机器本地跑一跑。目前打算 x99 准系统+4*(p40/v100)搞一搞，有没有实践过的老哥评价下可行性，就奔着捡垃圾极致性价比来搞

15 条回复 • 2024-11-05 17:23:27 +08:00

papersnake

26 天前

4 * v100 跑 int8 量化没问题，速度可能会慢一点；占用大约 70GB 模型参数+20GB 的 kv 缓存

kzfile

26 天前

说实话，就算是捡垃圾，4 路 p40 也不便宜了。我觉得先租个云主机玩玩得了

lithiumii

26 天前 via Android

最低成本？ cpu 跑呗，搞 128G 内存，跑量化的版本

xye0542

26 天前

2080ti 魔改 22G 版本也行吧。价格应该比 v100 便宜。现在应该不到 3k 一张卡。也能支持 nvlink

liu731

26 天前

直接二手 4090 ，到时候不玩了卖也亏不了多少钱

Hookery

26 天前

70B 就不可能低成本。。。
之前也想过低成本搞一套，P40 和 P100 都涨飞天了，而且还需要魔改散热，稳定性是堪忧的。多卡也需要电源，电源成本也跟着上来了。
最低成本直接搞两张 P102 ，单张 200 ，两张 400 ，一共 20G 显存，可以玩 32B 的 4bit 量化。整机成本不破千。

70B 显存需求大概在 40G 作用，最便宜就是两张 2080TI 22G ，两张卡都上 5K 了。

lsilencej

26 天前

看看 https://github.com/SJTU-IPADS/PowerInfer ，有量化好的 70B llama 可以跑 https://huggingface.co/PowerInfer/ReluLLaMA-70B-PowerInfer-GGUF ，限制显存可以在单卡上部署，不过好像对 70B 模型优化差点意思

shuimugan

26 天前

P40 很垃圾的，10 张 P40 加一起速度还没到 M2 Ultra 的 1/3

kuhung

26 天前

我在看 mac 的大内存版本，还没确定是 M4Pro 的 mini 64G 还是 M2U 的 studio

mmdsun

26 天前 via iPhone

魔改显卡，双显卡主机

dafen7

26 天前

@kuhung 我看了之前 mac mini 下面的评论，老哥们说带宽不行，还是不如显卡

dafen7

26 天前

@Hookery 就是想着除了显卡之外尽量压缩其他成本，目前看了咸鱼几个超微的 4u 准系统都要 2000-3000

dafen7

26 天前

@shuimugan macbookpro 能跑 70B 吗，我感觉真搞个 mac 大内存也行，不是说带宽不足吗

Hookery

26 天前

大模型不吃 CPU 啊，不一定必须上超微吧，除非你要 4 满速 PCIE 接口，民用主板才没有。

shuimugan

25 天前

@dafen7 mac book pro 能跑 70B 吗？能
带宽不足吗？不足，所以速度慢
慢多少？带宽是 Ultra 的多少，速度就是 Ultra 的多少，看 https://github.com/ggerganov/llama.cpp/discussions/4167 可以发现带宽就是首要的决定因素，而且模型越大，带宽瓶颈需求就越大，特别是 70B 这个体量，传输都不够了，算得再快都没用