mac mini 24g 大模型推理怎么样

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 110 天前的主题，其中的信息可能已经有所发展或是发生改变。

背景：之前有一个 2018 年的 mac intel 16g 的 mbp ，但是由于续航不行和有点儿发热。故喜新厌旧的换成了 apple M 芯片 18g 的 2023mbp 。

有时候偶尔本地跑下大模型推理，使用 ollama 在 2018 mbp 和 2023 mbp 都部署了下 14b 的 Qwen 量化模型，发现 2018 mbp 的更加流畅（目测 10token/秒），2023 mbp 比较卡顿（目测 3token/秒）。

问题：

准备入手一个 Mac mini 24g , 想问下有没有大佬测试过，Qwen 模型 8b 、14b 各个量化精度情况下的每秒 token 表现。

27 条回复 • 2024-08-14 21:51:51 +08:00

unidotnet

110 天前

24G 算了，64G 路过表示 14b ，int4 的话，占 40G 内存左右，自己算算吧。

zmxnv123

110 天前

刚入了台 24g 的 mini ，还没测

neteroster

110 天前

@unidotnet #1
14B 4 位怎么可能 40G ，bf16 不加上下文都没这么大

ChipWat

110 天前

@zmxnv123 #2 求帮忙测测，其它模型也行，给个参考

zmxnv123

110 天前

@ChipWat 怎么测，留你 tg 私聊

ChipWat

110 天前

@unidotnet #1 我帖子里使用 Qwen1.5 parameters：14.2B quantization：Q4_0 文件大小：8.2GB 测的。老哥是不是还有其它应用，macos 系统策略是尽可能多的使用内存吧。

shuimugan

110 天前

大模型跑推理速度首先取决于带宽，带宽有冗余再看算力。mini 那个小水管用来跑大模型就是个电子垃圾，只有 ultra 才值得跑大模型。
速度一览： https://github.com/ggerganov/llama.cpp/discussions/4167
简单粗暴的推理速度公式计算就是：同样的量化，14B 速度不到 7B 的 1/2 ，70B 的速度不到 7B 的 1/10

heyjei

110 天前

在 mac 上面，你们是怎么跑大模型的？用 ollama 吗？

wangshushu

110 天前 via Android

AMD 7840hs ，32G 内存，分配 8G 显存，跑 14B 能用的状态，所以 24G 跑 14B 应该问题不大，7B 很轻松了

Attenton

110 天前

@unidotnet 14b 即使是 fp16 也只是大概 28G 左右，int4 怎么可能要 40G

alexmy

110 天前

2018 16G mbp 还在服役中，也想换个，瞧瞧 m4 出来后什么情况。

graetdk

110 天前

18G 的 M3 ，ollama 跑所有的 10B 以下的模型都很爽，而且感觉够用

mumbler

110 天前

gemma2 9B 能打 qwen1.5 110B ，M 芯片下能跑到 20+token 的速度，且中文支持很好

可以访问 flashai.com.cn 下载 gemma2 9B 本地大模型一键整合包，支持 mac ，自带 ollama+图形界面+知识库

234ygg

110 天前 via iPhone

gemma2 9b 勉强能跑的水平吧？但效果很差，满嘴胡言乱语也就仅适合做做翻译。。
效果应该比我 4090 好点，4090 跑这玩意功耗 250W 简直爆炸，最烦的是电感在那丝丝叫。
做翻译那还不如直接用 gpt4o ，四舍五入不要钱

yinmin

110 天前 via iPhone

个人在本地部署跑 9b 、14b 实用价值不大，也就玩票。deepseek 、glm-4-air 、gpt-4o-mini 的 api 价格已经低到可以忽略不计（个人使用），功能远超开源小模型。

目前企业（尤其是涉密单位）在内网部署小模型，做些文字审查、文字格式提炼的专项业务比较实用。

bugcreator

110 天前 via iPhone

32gm2max 跑 ollama 3.0 8b 我觉得比 qwen 聪明

ZiM77FAp328moIuB

110 天前 via iPhone

最近在纠结买个 24g 的 mac mini m2 还是买个 32g 的 m1max studio(现在 9000 块）

murmur

110 天前

如果没有研究或者折腾的打算，买付费商业大模型更划算

kzzhr

110 天前 via Android

m 几呀？ 3t/s 感觉像是没走 GPU ，可以看下监控

lairdnote

110 天前

macbook. 32G. 跑 gemma2b 还可以

weixind

110 天前

@jwwwii 秋季发布会会发 m4 的 mac mini 吧。

xing7673

110 天前

@unidotnet llm 推理内存很好算，q4 约等于当前参数/2=内存，比如 14b 应该是 7g 内存左右。
以此类推 q8 14b=14g
f16 14b=28g
还需要加一些推理机制内存，不过大抵可以这么推算。
建议先自己运行检查一遍

wingerwwang

110 天前 via iPhone

m1max 32g 跑 llama3.1 7B 效果不错，6g 内存上下。效果比我试过的其他几个 13B 都要好。

beyondsoft

109 天前

建议直接租 GPU RTX3090 白菜价了 llama 3.1 8B 推理差不多能到速度 40 token /s

8355

109 天前

只能跑小模型吧。。大模型好像要内存拉满了

unidotnet

107 天前

@xing7673
@neteroster
@ChipWat
@Attenton

计算模型要多少内存没问题，我是个人使用经验。但 mac 共享内存，总不见得啥别的系统开销都不要吧，纯命令行裸写一堆 json 去交互。。。跑模型把别的应用都关了就没啥实用价值。再多做点，开始 embed ，比如跑点 neo4j 什么的是吧，界面要有个吧，跑个 docker ，web 界面 chrome 总要开着。。楼主的 24G 就不够了。我 codestral 22b 周日持续输出了几小时推理，GPU full ，内存虽然 64G 没用满，但是基本在 40 几 G ，除非 pumas 命令显示不正确。

xing7673

107 天前

@unidotnet #26 你这回复。。。。。没必要