DeepSeek联合北大最新文章DSpark: 如何让大模型推理速度提升 85%?

DeepSeek联合北大最新文章DSpark: 如何让大模型推理速度提升 85%?
一篇来自 DeepSeek-AI 与北京大学的联合研究彻底重新定义了 LLM 高并发推理的效率天花板。论文标题DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation机构DeepSeek-AI 北京大学arXiv待发布论文内引用 DeepSeek-V4 为 arXiv:2606.19348你每天用的 AI 助手背后在拼命抢时间每次你向 AI 输入一个问题背后的服务器都在和时间赛跑。大语言模型LLM生成文本的方式天生很慢——它必须一个词一个词地蹦出来每个词都要过一遍整个模型。用户越多服务器越挤响应就越慢。为了解决这个问题研究者们发明了推测解码Speculative Decoding先用一个小模型快速猜好几个词再让大模型一次性验证。如果猜对了就相当于大模型一次生成了多个词速度自然快了很多。但问题来了猜太多后面的词越来越不准大量验证资源被浪费高并发时每个请求都多验证几个词整体吞吐量反而崩掉自回归小模型逐词生成太慢块很小并行小模型一次全猜但词之间互相不依赖后几个词质量急剧下降DeepSeek-AI 联合北京大学给出了一个优雅的答案——DSpark。DSpark 是什么DSpark 全称Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation是一个统一了高吞吐草稿生成与自适应验证调度的推测解码框架。它的核心思路可以用一句话概括“用半自回归架构草稿得更准用置信度调度器验证得更聪明。”两大核心创新创新一半自回归生成Semi-Autoregressive Generation先看一个经典的并行解码错误案例假设 AI 要补全句子 “当然可以没问题”。并行模型同时预测每个词但因为不知道前一个词是没可能输出当然问题——词义混乱典型的多模态碰撞。DSpark 的解法是两阶段设计第一阶段并行主干Parallel Backbone继承 DFlash 架构一次前向传播生成整个草稿块的隐藏状态和基础 logits速度快推理延迟几乎不随块长增加可以堆更深的层数第一个词的预测精度远高于浅层自回归模型第二阶段轻量顺序头Sequential Head在并行主干之上附加一个极轻量的逐步修正模块每一步采样后将前一个词的信息注入下一个词的概率分布两种实现Markov Head只看前一个词低秩矩阵实现和RNN Head维护递归状态捕获更长依赖图1DSpark 的架构与解码流程。给定提示词 ABC目标模型先生成锚定词 DDSpark 用并行主干轻量顺序头生成草稿词 EFGH 及对应置信分数 c₁–c₄调度器保留前缀 EFG、丢弃低置信词 H目标模型并行验证E/F 被接受、G 被拒绝并重生成 G。*这个设计的精妙之处在于顺序头极轻延迟几乎可以忽略不计。实测中将草稿长度从 4 扩展到 16顺序头仅带来额外 0.2%~1.3% 的延迟却换来高达 30% 的接受长度提升。创新二置信度调度验证Confidence-Scheduled Verification并行模型生成了一个长草稿块但不能所有词都送去验证——高并发时这会把目标模型的 batch 容量全占满。DSpark 通过两步解决这个问题2.1 置信度头Confidence Head对每个草稿位置k kk输出一个标量c k ∈ ( 0 , 1 ) c_k \in (0,1)ck​∈(0,1)估计在前面所有词都被接受的条件下第k kk个词被接受的概率c k σ ( w ⊤ [ h k ; W 1 [ x k − 1 ] ] ) c_k \sigma\big(w^\top [h_k;\, W_1[x_{k-1}]]\big)ck​σ(w⊤[hk​;W1​[xk−1​]])其中h k h_khk​是主干的隐藏状态W 1 [ x k − 1 ] W_1[x_{k-1}]W1​[xk−1​]是 Markov 嵌入前一个词的信息。训练时用总变差距离作为监督信号直接对齐真实接受率c k ∗ 1 − 1 2 ∥ p k d − p k t ∥ 1 c_k^* 1 - \tfrac{1}{2}\|p_k^d - p_k^t\|_1ck∗​1−21​∥pkd​−pkt​∥1​后验温度缩放Sequential Temperature Scaling原始置信分通常过度自信导致联合生存概率被高估。DSpark 从左到右逐位置校准温度将预期校准误差ECE从 3%~8% 降至约 1%为调度器提供可靠的概率估计。2.2 硬件感知前缀调度器Hardware-Aware Prefix Scheduler调度问题被建模为全局吞吐量最大化max ⁡ ℓ 1 , … , ℓ R Θ τ ⋅ SPS ( B ) \max_{\ell_1,\ldots,\ell_R} \Theta \tau \cdot \text{SPS}(B)ℓ1​,…,ℓR​max​Θτ⋅SPS(B)其中B ∑ r ( 1 ℓ r ) B \sum_r (1 \ell_r)B∑r​(1ℓr​)是验证批次大小τ ∑ r ∑ j 1 ℓ r a r , j \tau \sum_r \sum_{j1}^{\ell_r} a_{r,j}τ∑r​∑j1ℓr​​ar,j​是期望接受词数SPS ( B ) \text{SPS}(B)SPS(B)是硬件吞吐曲线引擎初始化时预先 profiling存为轻量查找表。求解策略贪心排序 早停。将所有请求的所有候选词按生存概率降序排列逐一加入验证批次一旦吞吐量开始下降立即停止。这保证了算法复杂度低O(γR log γR)严格因果性不会用未来信息做决策保证无损解码实验结果数字说话离线基准草稿质量碾压 SOTA在 Qwen3-4B/8B/14B 和 Gemma4-12B 四个目标模型上横跨数学推理、代码生成、日常对话三大领域模型vs. Eagle3自回归vs. DFlash并行Qwen3-4B30.9%16.3%Qwen3-8B26.7%18.4%Qwen3-14B30.0%18.3%DSpark 同时超越了最强自回归基线Eagle3和最强并行基线DFlash。位置级分析为什么并行模型反而赢了自回归图2三种架构在各草稿位置的条件接受率对比Qwen3-4B。注意 DFlash 在位置 1 的高起点以及自回归 Eagle3 在后期位置的稳定性而 DSpark 两者兼得。这张图揭示了一个反直觉的现象位置 1并行模型DFlash大幅领先自回归模型Eagle3——因为并行模型可以堆更深的层数第一个词预测更准。而推测解码是严格前缀匹配第一个词一旦被拒后面全废所以位置 1 的优势被极度放大。位置 2-7自回归模型因为有前词条件接受率稳定甚至上升并行模型DFlash因独立预测导致多模态碰撞接受率快速衰减。DSpark同时继承了两者的优势——高起点 稳定后缀。草稿深度与块长的影响图3草稿深度对比。仅用 2 层的 DSpark 就超越了 5 层的 DFlash 基线体现了顺序建模的参数效率优势。图4草稿块长度变化时的性能与延迟。随着块长增大DSpark 与 DFlash 的差距持续扩大而顺序头的额外延迟几乎可以忽略最右图。置信度阈值扫描图5置信度阈值扫描实验。随着阈值上升被拒词斜线条被有效过滤接受率大幅提升。Chat 任务提升最显著45.7% → 95.7%结构化任务Math/Code本身接受率高提升相对温和。图6置信度可靠性图Alpaca 数据集。校准前蓝色明显过度自信经 STS 后红色与完美校准线高度吻合ECE 从 5.7%~8.2% 降至约 0.4%~2.0%。生产部署Pareto 前沿的跃迁真实流量下的性能突破图7DeepSeek-V4-Flash左和 V4-Pro右在真实用户流量下的吞吐量 vs. 每用户生成速度TPS。散点为实测遥测数据曲线为拟合的 Pareto 前沿。DSpark 将整条曲线显著向右上方平移。在 DeepSeek-V4 生产系统中对比旧基线 MTP-1单词草稿V4-Flash中等 SLA80 tok/s/user吞吐量提升51%同等吞吐下 TPS 提升60%严格 SLA120 tok/s/userMTP-1 接近崩溃DSpark 仍可维持有效吞吐TPS 提升85%V4-Pro中等 SLA35 tok/s/user吞吐量提升52%TPS 提升57%严格 SLA50 tok/s/userMTP-1 严重退化DSpark TPS 提升78%更重要的是DSpark 解锁了此前根本无法维持的严格交互性层级——那是 MTP-1 无论如何也到不了的区域。负载自适应调度图8吞吐量与验证预算随并发数的变化。轻负载下调度器分配 4–6 个验证词超越 MTP-1 的静态 2 词高负载下自动收缩预算防止 batch 容量争抢。这张图展示了 DSpark 调度器的核心价值它不是一个固定策略而是一个实时感知硬件负载的自适应系统——轻载时大胆展开高载时精准收缩始终在当前硬件状态下寻找最优工作点。技术细节工程上的挑战DSpark 的生产部署并非一帆风顺论文详细记录了两个核心工程挑战挑战1训练效率草稿模型需要目标模型输出分布作为监督朴素实现通信开销极大词表大小 ~10⁵解法只传递目标模型最后一层 hidden state再在本地做 LM head 投影通信复杂度从 O(V) 降至 O(d)另外实现了锚点有界序列打包解耦草稿训练与完整上下文长度大幅减少内存和计算开销挑战2异步调度与 ZOS 兼容实际硬件 SPS 曲线是锯齿状非单调的朴素早停会陷入局部最优ZOSZero-Overhead Scheduling要求下一步 batch size 在当前步完成前就必须确定解法异步调度用前两步的置信度预测来确定当前步的验证容量上限top-K 选取实际候选词仍用当前最新置信分排序关键洞察异步设计天然形成因果屏障使得去掉早停后的全局搜索依然满足无损解码的非预期性要求与相关工作的对比方法架构调度生产验证Eagle3自回归TTT静态长度无DFlash完全并行静态长度无SpecDec任意静态置信阈值无DSpark半自回归硬件感知动态调度DeepSeek-V4 生产DSpark 是目前已知的唯一同时解决草稿质量衰减Semi-AR、系统级吞吐优化置信调度并在超大规模生产系统中验证的方法。开源信息DeepSeek 已开源DSpark checkpointsDeepSeek-V4-Flash (preview) 和 DeepSeek-V4-Pro (preview) 对应的草稿模型权重DeepSpec算法驱动的推测解码训练仓库包含 Eagle3、DFlash、DSpark 三个算法实现社区研究者可以直接基于这些资源复现和改进 DSpark。总结DSpark 用一个简洁但深刻的洞察击中了推测解码的两个核心痛点草稿质量并行快但不准自回归准但慢——半自回归用 1% 的延迟开销买来了 30% 的接受长度提升两头都不丢。验证效率静态长度在高并发下是灾难动态调度根据硬件负载实时分配验证预算使 Pareto 前沿整体外移。对于正在思考如何在高并发场景下高效部署大模型的工程师DSpark 提供的不只是一个技术方案更是一套将算法设计与系统现实深度结合的工程哲学。