MacBook Max M5 跑 Qwen 3.6 27B：本地模型智力媲美一年前付费 API，无需将就！

发布时间：2026/7/1 11:42:31

【导语Piotr Migdał 在 MacBook Max M5 128GB 上运行 Qwen 3.6 27B 一整天后认为本地模型能当通用智能用。他分享了运行配置、速度、智力评分等情况还对比了不同版本指出本地模型有独特优势。】MacBook 跑 Qwen 3.6 配置与速度揭秘Piotr Migdał 使用 unsloth 的 8 - bit GGUF 量化版通过 llama.cpp 跑服务开启多 token 预测MTP和 flash attention实现 64K 上下文速度达 32 tok/s。而在 RTX 5090 上有人用 Q6_K 能跑到 50 tok/s、12.3 万上下文。两个 Qwen 3.6 变体27B 密集版和 35B A3B MoE 版都能塞进 48GB 的苹果统一内存里。Qwen 3.6 27B 智力评分超 Gemma 4 31B根据 Artificial Analysis 的评分Qwen 3.6 27B 拿到 37 分大致对应 2025 年中的 GPT - 5 或 Claude Sonnet 4.5。相比之下之前本地编码模型的默认选项 Gemma 4 31B 只有 29 分相当于 2024 年底的 Claude 3.5 Sonnet 水平。这表明一年之内本地模型从两年前前沿跨到了一年前的次前沿。27B 与 35B 版本性能大比拼35B A3B MoE 版速度更快同样 8 - bit 下用 llama.cpp MTP 能到 105 tok/s但评分只有 32 分。Migdał 更倾向 27B 版认为宁可生成三分之一的代码但质量更高。实际测试中写八行诗推理过程合理用 pnpm 写六边形扫雷游戏 27B 版一次过35B 版忽略包依赖指令从一句话 prompt 生成蜡烛店落地页效果不错。技术栈选择与本地模型优势Migdał 选择 llama.cpp 直跑而非 Ollama称出于道德原因不推荐 Ollama。服务端一行命令即可运行OpenCode 挂上去能直接写代码。他还指出本地模型跑在自己硬盘上不会像 Claude Fable 5 那样被下线花 100 美元订阅能换来价值数千美元的 token这体现了 API 定价里的大规模补贴。编辑观点Qwen 3.6 27B 在消费级笔记本上的出色表现提升了本地模型的实用性缩小与付费 API 差距为开发者提供更多选择有望推动本地模型生态发展。

MacBook Max M5 跑 Qwen 3.6 27B：本地模型智力媲美一年前付费 API，无需将就！

相关新闻

同步降压转换器损耗分析与Excel工具实战指南

2026衡阳黄金回收白银回收铂金回收旧料回收怎么选？五家高实价铂金白银线下门店测评清单 + 联系方式

SPT-AKI存档编辑器：逃离塔科夫离线版存档修改终极指南

从哑巴英语到流利输出，ChatGPT学英语全链路拆解，深度追踪372小时真实学习数据

Cloudreve：自建网盘，把文件管理权拿回来

09-Slot 插槽与动态组件

【课程设计/毕业设计】基于 SpringBoot 的保险客户服务与业务数据分析系统的设计与实现 基于 SpringBoot 的保险公司经营数据统计分析系统【附源码、数据库、万字文档】

Budibase：用 AI Agent 搞定企业内部运营的开源平台

TC78H660FTG与PIC18F87J11组合的直流电机驱动方案

管理者的六个层次

AI Coding 六个月真实ROI账本：产品经理的血泪教训，研发的冷静忠告

审计来了，数据权限全开——审计走了，怎么确保权限全部关掉？

Coze与Dify对比指南：低代码AI应用开发从入门到实战

AI生图工具怎么选？2026年6月版实测对比

国产DSP FT-M6678 DDR3配置避坑指南：从PLL时钟到PHY寄存器，手把手调通你的第一块板

Coze与Dify对比指南：低代码AI应用开发从入门到实战

AI生图工具怎么选？2026年6月版实测对比

国产DSP FT-M6678 DDR3配置避坑指南：从PLL时钟到PHY寄存器，手把手调通你的第一块板

【课程设计/毕业设计】基于 SpringBoot 的保险客户服务与业务数据分析系统的设计与实现基于 SpringBoot 的保险公司经营数据统计分析系统【附源码、数据库、万字文档】