颠覆小模型认知:MiniCPM5-1B 凭 OPD 蒸馏,推理、代码、工具调用全面超车

颠覆小模型认知:MiniCPM5-1B 凭 OPD 蒸馏,推理、代码、工具调用全面超车
MiniCPM 技术报告 | GitHub 仓库 | UltraData 数据集 | MiniCPM 桌面宠物亮点介绍我们正式发布MiniCPM5系列首款模型——MiniCPM5-1B。这是一款专为设备端部署、本地化应用及资源受限场景设计的1B参数稠密Transformer模型在1B量级开源模型中达到性能最优水平。1B量级开源模型性能标杆与同规模主流开源模型对比MiniCPM5-1B在该级别模型中各项能力全面领先其优势在智能体工具调用、代码生成及复杂推理任务中表现尤为突出。混合推理内置think聊天模板通过enable_thinking切换。同一检查点既可充当快速助手也能作为深思熟虑的推理者。️部署/微调资源MiniCPM GitHub 仓库提供单页速查手册和智能体技能涵盖主流推理后端与微调框架。桌面宠物由 MiniCPM5-1B 驱动的本地大语言模型桌面宠物。模型列表根据运行时环境选择对应格式的模型MiniCPM5-1B· ModelScope · BF16 最终版经过 RL OPD 后训练 当前所在位置MiniCPM5-1B-SFT· ModelScope · BF16 纯 SFT 检查点未经过 RL/OPDMiniCPM5-1B-Base· ModelScope · BF16 基础检查点仅预训练MiniCPM5-1B-GGUF· ModelScope · 适用于 llama.cpp/Ollama/LM Studio 的 GGUF 格式MiniCPM5-1B-MLX· ModelScope · 苹果芯片专用的 MLX/4bit 格式模型信息MiniCPM5-1B 具有以下特性类型因果语言模型架构标准LlamaForCausalLM参数量1,080,632,832非嵌入参数量679,552,512层数24注意力头数GQA16 个查询头 2 个键值头上下文长度131,072简介MiniCPM5-1B 是该系列的首个检查点专为本地助手、编程智能体、工具调用工作流及需要轻量模型的推理场景设计。在保持小巧部署体积的同时提供原生长上下文支持并通过同一检查点实现「思考/非思考」双模式聊天。评估结果我们将其与同尺寸的优秀开源模型包括LFM2.5-1.2B-Thinking、Qwen3-0.6B/think和Qwen3.5-0.8B/think进行对比。在这些强力基线中MiniCPM5-1B 达到了 1B 级开源模型的 SOTA 水平其优势在工具使用、代码生成和复杂推理任务中尤为显著是本地编程智能体、工具助手和推理助手的实用选择。训练方案MiniCPM5-1B的训练完整实践了**超数据分级管理**方法论涵盖基础训练、中期训练与后期训练三阶段。在基础训练阶段模型通过稳定训练与衰减训练构建核心语言能力与训练稳定性随后进入中期训练以强化目标能力并适应目标数据分布。训练语料随模型同步开源为Ultra-FineWeb、Ultra-FineWeb-L3和UltraData-Math。在后期训练阶段我们分三步推进SFT、RL与OPD。首先采用200B深度思考SFT tokens与200B混合思维SFT tokens建立深度思考、混合思维及通用对话能力SFT数据开源为UltraData-SFT-2605随后针对数学、代码、闭卷问答、写作等专项领域训练专用RL教师模型并通过**策略蒸馏(OPD)**将这些教师模型蒸馏回单一发布模型。RL OPD 带来了什么RL OPD是 MiniCPM5-1B 后训练的关键部分。在数学、代码和指令跟随任务中RL OPD 使平均得分提升↑16 分同时将触及最大 token 预算的回复比例降低↓29 个百分点。下图展示了两阶段的推理 RL 流程、得分提升以及过长回复的减少情况。RL融合了针对推理、闭卷问答、写作、指令跟随、长上下文理解和通用对话的互补训练信号。推理 RL 基于 DAPO-Math-17k灵感来自 JustRL 的极简方案采用两阶段长度调度策略在提升推理准确率的同时减少冗长回复。我们还使用了 TriviaQA、NQ-Open、LongWriter-Zero-RLData、合成的可验证 RLVR 数据以及成对 RLHF 信号以提升可靠性、指令跟随能力和用户体验。OPD基于Thinking Machines Lab的策略蒸馏方法并结合了重新思考策略蒸馏中的实现改进。在强化学习框架中我们采用逆向KL散度作为优势估计值取代了原有的基于验证的优势估计。在每个响应位置我们从学生模型和教师模型中分别提取top-k个逻辑值对两个标记集的并集计算逆向KL散度并在RKL信号的准确性和训练效率之间取得平衡。OPD复用了训练每个强化学习教师模型时使用的领域内提示作为蒸馏数据因此无需额外数据整理。快速入门vLLMpipinstallvllm0.21vllm serve openbmb/MiniCPM5-1B--port8000curlhttp://localhost:8000/v1/chat/completions\-HContent-Type: application/json\-d{ model: openbmb/MiniCPM5-1B, messages: [{role: user, content: Who are you? Please briefly introduce yourself.}], max_tokens: 128, temperature: 0.7 }SGLangpipinstallsglang[srt]0.5.12python-msglang.launch_server --model-path openbmb/MiniCPM5-1B--port30000curlhttp://localhost:30000/v1/chat/completions\-HContent-Type: application/json\-d{ model: openbmb/MiniCPM5-1B, messages: [{role: user, content: Who are you? Please briefly introduce yourself.}], max_tokens: 128, temperature: 0.7 }Transformerspipinstall-Utransformers5.6accelerate torchfromtransformersimportAutoModelForCausalLM,AutoTokenizer model_idopenbmb/MiniCPM5-1BtokenizerAutoTokenizer.from_pretrained(model_id)modelAutoModelForCausalLM.from_pretrained(model_id,torch_dtypeauto,device_mapauto,)messages[{role:user,content:Who are you? Please briefly introduce yourself.}]inputstokenizer.apply_chat_template(messages,tokenizeTrue,add_generation_promptTrue,enable_thinkingFalse,return_dictTrue,return_tensorspt,).to(model.device)outputsmodel.generate(**inputs,max_new_tokens128)print(tokenizer.decode(outputs[0][inputs[input_ids].shape[-1]:],skip_special_tokensTrue))推荐的聊天模板采样模式推荐参数启用思考temperature0.9, top_p0.95enable_thinkingTrue无思考temperature0.7, top_p0.95enable_thinkingFalse工具调用对于工具/函数调用推荐使用SGLang作为后端。MiniCPM5-1B会生成XML风格的工具调用而SGLang内置的minicpm5解析器会将其原生转换为OpenAI兼容的tool_callspython-msglang.launch_server --model-path openbmb/MiniCPM5-1B--port30000\--tool-call-parser minicpm5# or: --tool-call-parser autoGitHub 烹饪指南与智能体技能MiniCPM5-1B 采用标准的LlamaForCausalLM架构因此主流推理引擎可直接加载无需定制内核无需模型代码分支。若需逐步部署与微调指南请使用以下 GitHub 烹饪指南。智能体技能以 GitHub 资源形式提供适用于使用 Cursor / Claude Code 风格编程智能体的用户。部署方案后端框架模型格式/使用场景配置指南代理技能TransformersBF16/FP16本地Python推理支持GPUCPUtransformers.mdminicpm5-deploy-transformersvLLMBF16/FP16 OpenAI接口服务vllm.mdminicpm5-deploy-vllmSGLangBF16/FP16 OpenAI接口服务工具调用场景推荐sglang.mdminicpm5-deploy-sglangllama.cppGGUF格式本地推理支持CPU/GPUllama_cpp.mdminicpm5-deploy-llama-cppOllamaGGUF格式本地设备运行时ollama.mdminicpm5-deploy-ollamaLM StudioGGUF格式Mac桌面应用及OpenAI服务lmstudio.mdminicpm5-deploy-lmstudioMLXMLX/4bit量化本地推理Apple芯片专用mlx.mdminicpm5-deploy-mlxArcLightGGUF格式本地设备运行支持CPU/桌面/服务器arclight.mdminicpm5-deploy-arclight微调指南框架用例教程智能体技能TRL PEFTLoRA/SFT微调trl.mdminicpm5-finetune-trlLLaMA工厂微调llamafactory.mdminicpm5-finetune-llamafactoryms-swift微调ms_swift.mdminicpm5-finetune-ms-swiftunsloth微调unsloth.mdminicpm5-finetune-unslothxtuner微调xtuner.mdminicpm5-finetune-xtuner其他支持的框架除上述部署和微调框架外MiniCPM5-1B还支持通过FlagOS进行多芯片部署。FlagOS概述为实现跨AI芯片的大规模部署北京智源研究院联合国内外众多科研机构、芯片厂商、系统厂商及算法软件机构共同发起成立了FlagOS开源社区。FlagOS社区致力于构建面向各类AI芯片的统一开源系统软件栈涵盖大规模算子库、统一AI编译器、并行训练与推理框架、统一通信库等核心开源项目打造连接“模型-系统-芯片”层的开放技术生态。通过实现“一次开发、跨芯部署”FlagOS释放硬件算力潜能打破不同芯片软件栈间的生态孤岛有效降低开发者迁移成本。FlagOS社区推动AI软硬件生态建设克服单一厂商闭源垄断促进AI硬件技术广泛落地并致力于立足中国、拥抱全球合作。官网直达https://flagos.ioFlagOS多芯片支持与使用FlagOS支持多种AI芯片得益于FlagOS统一的多芯片AI系统软件栈MiniCPM5-1B在极短时间内适配了4~5种不同AI芯片。目前MiniCPM5-1B多芯片版本已在FlagReleaseFlagOS面向多架构AI芯片的大模型自动迁移适配部署平台发布。详情如下VendorModelScopeHuggingfaceNvidiaMiniCPM5-1B-nvidia-FlagOSMiniCPM5-1B-nvidia-FlagOSHygonMiniCPM5-1B-hygon-FlagOSMiniCPM5-1B-hygon-FlagOSMetaxMiniCPM5-1B-metax-FlagOSMiniCPM5-1B-metax-FlagOSIluvatarMiniCPM5-1B-iluvatar-FlagOSMiniCPM5-1B-iluvatar-FlagOSZhenwuMiniCPM5-1B-zhenwu-FlagOSMiniCPM5-1B-zhenwu-FlagOSMthreadsMiniCPM5-1B-mthreads-FlagOSMiniCPM5-1B-mthreads-FlagOSKunlunxinMiniCPM5-1B-kunlunxin-FlagOSMiniCPM5-1B-kunlunxin-FlagOSAscendMiniCPM5-1B-ascend-FlagOSMiniCPM5-1B-ascend-FlagOSARM-v9MiniCPM5-1B-Armv9-FlagOSMiniCPM5-1B-Armv9-FlagOSFlagOS 使用指南FlagOS 在英伟达平台上的性能加速来自 FlagRelease 的推荐FlagRelease 是由 FlagOS 团队开发的平台用于自动迁移、适配和部署跨多架构 AI 芯片的大模型。MiniCPM5-1B 的多芯片版本已在 FlagRelease 上发布。平台上已预装所有必要的软件包用户无需额外安装。FlagRelease 镜像关键版本FlagRelease 快速入门供应商ModelScopeHuggingface英伟达MiniCPM5-1B-nvidia-FlagOSMiniCPM5-1B-nvidia-FlagOS海光MiniCPM5-1B-hygon-FlagOSMiniCPM5-1B-hygon-FlagOSMetaXMiniCPM5-1B-metax-FlagOSMiniCPM5-1B-metax-FlagOS天数智芯MiniCPM5-1B-iluvatar-FlagOSMiniCPM5-1B-iluvatar-FlagOS震曜MiniCPM5-1B-zhenwu-FlagOSMiniCPM5-1B-zhenwu-FlagOS沐曦MiniCPM5-1B-mthreads-FlagOSMiniCPM5-1B-mthreads-FlagOS昆仑芯MiniCPM5-1B-kunlunxin-FlagOSMiniCPM5-1B-kunlunxin-FlagOS昇腾MiniCPM5-1B-ascend-FlagOSMiniCPM5-1B-ascend-FlagOSARM-v9MiniCPM5-1B-Armv9-FlagOSMiniCPM5-1B-Armv9-FlagOS从零开始依赖项Python 3.12、GLIBC 2.39、GLIBCXX 3.4.33、CXXABI 1.3.15Vllm版本安装FlagOS算子库官方仓库https://github.com/flagos-ai/FlagGemspip install flag-gems4.2.1rc0 pip install triton3.5.1激活加速功能您可以通过在vllm执行推理的源代码中添加flagGems的导入来启用flagGems加速。import flag_gems flag_gems.enable(recordTrue, onceTrue, path/root/gems.txt)vllm serve ${model_path} \ --trust-remote-code \ --dtype bfloat16 \ --enforce-eager \ --port ${Port} \ --served-model-name ${model_name} \ --gpu-memory-utilization 0.85使用FlagOS统一多芯片后端插件vllm-plugin-FL是为vLLM推理/服务框架构建的插件。基于FlagOS的统一多芯片后端开发旨在扩展vLLM在各种硬件环境中的功能和性能。使用vllm-plugin-FL厂商从零开始从FlagRelease发布版英伟达vllm-plugin-FL/MiniCPM5-1BMiniCPM5-1B-ModelScopeMiniCPM5-1B-nvidia-FlagOS桌面宠物我们还提供了OpenBMB/MiniCPM-Desk-Pet一个由MiniCPM5-1B本地驱动的桌面宠物。它支持Apple Silicon/NVIDIA GPU/CPU路径可与Cursor、Claude Code和Codex等编码代理协作并支持LoRA角色切换。局限性与责任使用MiniCPM5-1B是一个基于训练数据学习统计模式生成内容的语言模型。它可能产生不准确、有偏见或不安全的输出在高风险场景中使用生成内容前应进行审查和验证。用户需负责评估输出内容、采取适当防护措施并遵守适用的法律法规及平台政策。许可协议本代码库及MiniCPM模型权重依据Apache-2.0许可证发布。引用声明如果你觉得我们的工作有价值请引用我们的论文article{minicpm4, title{Minicpm4: Ultra-efficient llms on end devices}, author{MiniCPM, Team}, journal{arXiv preprint arXiv:2506.07900}, year{2025} }