
一句话看懂:Z Lab、SGLang 和 Modal 团队联合发布了 DFlash 投机解码方案与 Spec V2 推理引擎。在使用 Qwen 3.5 397B-A17B 模型时,DFlash 在单并发下实现了超过 4.3 倍的推理吞吐提升,标志着基于扩散模型的并行草稿生成首次在大型语言模型推理中取得实际落地效果。
事件核心:发生了什么
2026 年 6 月 15 日,LMSYS 团队发布联合博文,宣布 Z Lab、SGLang 和 Modal 三方合作推出下一代投机解码方案 DFlash 及其配套推理引擎 Spec V2。DFlash 不再使用传统的自回归小模型作为草稿模型,而是采用轻量级块扩散模型(block diffusion draft model)一次性并行生成整块候选 token。该方法的核心创新在于“KV 注入”技术:直接从目标大模型(如 Qwen 3.5 397B-A17B)的中间层提取上下文隐藏表示,注入草稿模型的 KV 缓存中,使草稿模型无需从零建模上下文,能够更专注、更高效地预测后续 token 块。在 8 块 B200 硬件上、HumanEval 编程数据集测试中,DFlash 的单请求吞吐量达到基线(无投机解码)的 4.3 倍,相比原生多 token 预测(MTP)方案也提升了 1.5 倍。目前三款 DFlash 模型已通过 Hugging Face 发布,用户可通过 SGLang 的 Spec V2 引擎直接使用。
为什么重要
这项成果的意义在于改变了投机解码的技术路线。此前的主流方法如 EAGLE 系列和 MTP 模块仍依赖草稿模型自回归逐个生成 token,在 GPU 上的运算密度依然偏低。DFlash 通过扩散模型将生成过程并行化,大幅减少了草稿阶段的延迟开销。同时,KV 注入策略有效解决了草稿模型规模小、上下文理解弱的核心矛盾,使得极小型草稿模型也能获得高接受率。这套方案在 397B 级别的大模型上取得超过 4 倍的速度提升,直接降低了万亿参数模型在实际部署中的首 token 时延和整体推理成本,对以 API 服务为核心的云推理厂商和部署方有明确的成本收益。
对用户/开发者/创作者的影响
对于开发者来说,现在可通过 SGLang 的 Spec V2 引擎一行命令启用 DFlash 加速。提供的启动脚本已包含推荐的 attention 后端(FA4、triton、flashinfer)和显存调度参数,降低了试错成本。对于 API 用户和内容创作者,这意味着在相同硬件配置下,Qwen 3.5 级别的模型能够以更快的速度输出长文本结果,尤其适合代码生成、思维链推理和复杂对话场景。对于企业采购方而言,8×B200 硬件组合下获得 4.3 倍吞吐提升,等效于用更少的机器处理相同负载,有助于降低云服务账单。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,DFlash 目前仅支持 Qwen 3.5 系列模型,是否快速扩展至其他主流架构(如 DeepSeek、LLaMA、Gemma)是社区关注的焦点。第二,Spec V2 引擎作为 SGLang 的新默认配置,其稳定性和内存占用情况需要在更复杂的多请求场景下验证。第三,当前基准测试在“思考模式”开启、最长 4096 token 条件下完成,实际应用中的收益是否随输出长度和并发数变化,需要更多独立复现报告。


