推荐各位利用 ollama 在自有电脑上跑大模型，使用非常方便

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 279 天前的主题，其中的信息可能已经有所发展或是发生改变。

ollama 用法跟 docker 很类似，指定 run 哪个模型就会自动去下载使用。

我用我的 1650 笔记本允许 mistral ，跑起来速度还行。

模型列表： https://ollama.com/library

方法：建议采用 wsl2 运行 ollama ，安装 cuda 后即可利用显卡跑 ollama ，否则会利用 cpu 跑大模型。

wsl2 安装 cuda 直接用我这个链接即可： https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=WSL-Ubuntu&target_version=2.0&target_type=deb_local

ollama

模型

WSL2

CUDA

24 条回复 • 2024-07-18 14:18:05 +08:00

cwyalpha

279 天前

1650 显存多少？能跑什么量级的模型？

ahsjs

279 天前

嗯嗯，我也用的这个，只能跑小模型，谷歌的 gemma 之类的

o562dsRcFqYl375i

279 天前

确实很方便。至于能跑多大的模型主要看机器的硬件配置吧，跟 ollama 这个工具应该没多大关系

ChaoYoung

279 天前

同类 LM Studio 可视化相当不错

keepRun

279 天前

@cwyalpha 显存 4g ，不过 win11 会自动把显存和内存同时用上，所以即使跑 7B 模型也可以，只是速度会慢些

Rrrrrr

279 天前

Macbool air M2 可以跑吗，给个教程

panxiuqing

279 天前

Mac 上用 m1 很快。

l4ever

279 天前

早就试过, 没有好用的模型. 有更好的推荐吗?

PowerDi

279 天前

@keepRun 如果是调试大模型，会把内存和显存都用上吗？ pytorch

keepRun

279 天前

@PowerDi 应该可以把，这个功能是显卡驱动支持的，系统层面就支持了

supergeek1

279 天前

可以，m1 pro 跑个小模型速度很快

monsterx2a

279 天前

它和 docker 啥关系？有啥优势吗？

kwater

279 天前

ollama 安装后，跑 17g 模型在 m1 还行，下载速度飞快，
加载首次等待比较久。

ollama run gemma:7b-instruct-fp16
可以自己开多会话

在内存紧张就选小的
ollama run gemma:7b

dacapoday

279 天前

主要是它底层的 ggml 库的功劳，作者是个肝帝，移植了大量开源的 llm 和权重

keepRun

279 天前 via Android

@monsterx2a 跟 docker 没关系，只是使用方式像 docker

McVander

279 天前

m2 max 运行 gemma:7b 速度飞快

CyouYamato

279 天前

手里有台闲置的 4060,目前测试了 gemma 7B ,2B,llama2 。目前来说，2B 快又还不错。搭配 chatbox 还不错。

kaichen

279 天前

@Rrrrrr #6

到 https://lmstudio.ai/ 下载个客户端，搜索对应大小的模型（ apple silicon 是内存的 3/4 可以作为显存），可以先搜索 qwen gguf 找个合适大小的玩玩看

然后可以直接对话，或者启动一个与 openai api 兼容的 api server