MacBook Max M5 跑 Qwen 3.6 27B:本地模型智力媲美一年前付费 API,无需将就!

MacBook Max M5 跑 Qwen 3.6 27B:本地模型智力媲美一年前付费 API,无需将就!
【导语Piotr Migdał 在 MacBook Max M5 128GB 上运行 Qwen 3.6 27B 一整天后认为本地模型能当通用智能用。他分享了运行配置、速度、智力评分等情况还对比了不同版本指出本地模型有独特优势。】MacBook 跑 Qwen 3.6 配置与速度揭秘Piotr Migdał 使用 unsloth 的 8 - bit GGUF 量化版通过 llama.cpp 跑服务开启多 token 预测MTP和 flash attention实现 64K 上下文速度达 32 tok/s。而在 RTX 5090 上有人用 Q6_K 能跑到 50 tok/s、12.3 万上下文。两个 Qwen 3.6 变体27B 密集版和 35B A3B MoE 版都能塞进 48GB 的苹果统一内存里。Qwen 3.6 27B 智力评分超 Gemma 4 31B根据 Artificial Analysis 的评分Qwen 3.6 27B 拿到 37 分大致对应 2025 年中的 GPT - 5 或 Claude Sonnet 4.5。相比之下之前本地编码模型的默认选项 Gemma 4 31B 只有 29 分相当于 2024 年底的 Claude 3.5 Sonnet 水平。这表明一年之内本地模型从两年前前沿跨到了一年前的次前沿。27B 与 35B 版本性能大比拼35B A3B MoE 版速度更快同样 8 - bit 下用 llama.cpp MTP 能到 105 tok/s但评分只有 32 分。Migdał 更倾向 27B 版认为宁可生成三分之一的代码但质量更高。实际测试中写八行诗推理过程合理用 pnpm 写六边形扫雷游戏 27B 版一次过35B 版忽略包依赖指令从一句话 prompt 生成蜡烛店落地页效果不错。技术栈选择与本地模型优势Migdał 选择 llama.cpp 直跑而非 Ollama称出于道德原因不推荐 Ollama。服务端一行命令即可运行OpenCode 挂上去能直接写代码。他还指出本地模型跑在自己硬盘上不会像 Claude Fable 5 那样被下线花 100 美元订阅能换来价值数千美元的 token这体现了 API 定价里的大规模补贴。编辑观点Qwen 3.6 27B 在消费级笔记本上的出色表现提升了本地模型的实用性缩小与付费 API 差距为开发者提供更多选择有望推动本地模型生态发展。