上期发了几篇关于 AI 工具的文章以后,很多粉丝在评论区问我:那些大模型到底怎么在自己电脑上跑起来?不是每个人都能用云端 API 的,有时候网络不好,有时候隐私数据也不想上传。今天就来聊聊:如何在你自己的电脑上部署本地 AI 模型!
为什么要在本地部署?
说几个我亲身的理由:
1、隐私安全 —— 你的数据不用经过别人的服务器,特别是工作文档、私人笔记这些敏感内容。
2、不依赖网络 —— 没有网照样用,出差、飞机上、信号差的地下室都能跑。
3、免费无限调用 —— 跑起来以后不花一分钱,想问多少问多少,没有 API 限额。
4、可玩性高 —— 你可以随便换模型、调参数,甚至微调自己的模型,这个乐趣是云端给不了的。
当然,本地部署也有门槛,主要是硬件要求。下面我就从最低配置开始,一步一步带你们走通!
硬件要求——你的电脑够用吗?
这是大家最关心的问题,我直接给结论:
入门级(4GB 显存以上): 可以跑 7B 量级的量化模型(Q4/KV),日常对话没问题。比如 Intel Arc A750、NVIDIA RTX 3060。
进阶级(8-12GB 显存): 可以跑 14B 量化模型,效果明显提升。比如 RTX 3070/4060 Ti 16G。
发烧级(24GB+ 显存): 70B 量化模型也能跑,效果接近云端 GPT-4 水平。比如 RTX 3090/4090。
Mac 用户注意: Apple Silicon(M1/M2/M3)有统一内存,16GB 内存可以跑 14B 模型,32GB 可以跑 34B 甚至更大。这点比同级别的 NVIDIA 显卡还强!
如果你的显存不够,也别急,CPU 推理虽然慢但也能用,后面会讲到。
方案一:Ollama——最简单的入门方式
这是我推荐新手的首选方案,一句话总结:下载安装,一条命令,搞定所有事。
第一步:安装 Ollama
去官网 https://ollama.com 下载对应系统的安装包。Linux 用户一条命令:
curl -fsSL https://ollama.com/install.sh | sh
Windows 和 Mac 用户直接下载安装包,双击就行。
第二步:拉取模型
安装完成后,打开终端运行:
ollama run qwen3:8b
就这么简单!第一次运行会自动下载模型(大约 5GB 左右),下载完成后就可以直接对话了。
第三步:常用模型推荐
我测试过几个,给大家排个序:
1、qwen3:8b —— 通义千问第三代,中文理解能力一流,日常使用首选
2、llama3.3:8b —— Meta 最新模型,英文能力强,代码生成不错
3、gemma3:12b —— Google 出品,性价比很高
4、deepseek-r1:14b —— 深度思考模型,适合复杂推理任务
如果你想换模型,直接 ollama run 模型名 就行。
方案二:LM Studio——带界面的本地 AI 工作站
如果你觉得命令行太原始,想要一个好看的界面,那 LM Studio 就是你的菜。
下载地址: https://lmstudio.ai
安装完成后,你会看到一个类似聊天软件的界面,左边选模型,右边聊天。最方便的是它内置了模型浏览器,可以直接搜索、下载社区模型。
我的使用场景:
1、日常写作助手 —— 让它帮我写文章、润色文案
2、代码调试 —— 把报错信息丢给它,它帮你分析
3、学习工具 —— 不懂的概念直接问,比搜索引擎准确多了
重点提醒: LM Studio 支持 GGUF 格式的模型,这是目前最主流的量化格式。在模型库搜索时,认准 GGUF 后缀就行。
方案三:Text Generation WebUI——进阶玩家的终极武器
如果你想要最强大的功能——角色扮演、多模型切换、插件扩展、API 服务——那 Text Generation WebUI(Oobabooga)就是你的终极选择。
GitHub 地址: https://github.com/oobabooga/text-generation-webui
这个项目的功能太多了,我挑几个最实用的说:
1、LoRA 微调支持 —— 你可以加载微调后的模型,让它变成特定领域的专家
2、多后端支持 —— 支持 GGUF、Safetensors、GPTQ 等多种格式
3、API 模式 —— 开启后,其他程序可以通过 API 调用你的本地模型
4、Chat 模式 —— 内置聊天界面,支持角色卡、多轮对话
安装需要 Python 环境,对新手有一定门槛,但功能确实强大。建议先跑通 Ollama 或 LM Studio,再进阶到这里。
方案四:ComfyUI——本地 AI 全能平台
说到本地 AI,不能不提 ComfyUI。虽然它主打图片生成,但配合各种插件,已经变成了一个全能 AI 工作站。
除了图片生成,ComfyUI 还能:
1、运行 Stable Diffusion 系列模型(文生图、图生图)
2、配合 ControlNet 实现精确控制
3、视频生成和音频处理
如果你同时需要文字和图片 AI 能力,ComfyUI 值得折腾一下。我之前写过安装教程,可以翻翻往期文章。
常见问题
问:模型下载太慢了怎么办?
答:推荐使用国内镜像源。Ollama 可以在设置里配置镜像地址,LM Studio 的模型可以在 HuggingFace 镜像站下载。
问:CPU 能跑吗?
答:可以!Ollama 和 LM Studio 都支持 CPU 推理,只是速度会慢很多。14B 模型在 CPU 上大概每秒 2-5 个 token,日常使用勉强够用。
问:量化模型效果差吗?
答:Q4 量化(4-bit)和原始模型的差距很小,日常对话几乎感知不到。除非你做科研级别的精确分析,否则 Q4 完全够用。
问:可以同时跑多个模型吗?
答:理论上可以,但显存和内存是瓶颈。建议一次只跑一个模型,切换时卸载旧的再加载新的。
总结
以上就是本地 AI 模型部署的完整指南。总结一下:
精彩内容: