
一句话看懂:北京大学与 DeepSeek 于 6 月 28 日正式开源大模型推理加速框架 DSpark,通过创新的“半自回归架构”与“置信度调度验证”机制,显著降低高并发推理场景下的响应延迟与算力浪费,已在 DeepSeek-V4 系列中落地验证。
事件核心:发生了什么
大模型在标准自回归生成中,每输出一个 token 都需要消耗完整计算资源,导致高并发场景下响应变慢、算力浪费。传统的推测解码方案存在两大缺陷:串行模型生成太慢,并行模型在长序列处理时候选接受率下降。DSpark 引入双重优化机制:在候选生成阶段,采用半自回归架构,先通过并行骨干网络一次性输出高质量基础特征,再用仅两层的轻量 Transformer 模块优化文本逻辑,效果优于传统五层并行模型;在验证调度阶段,引入基于置信度的调度机制,由硬件感知的前缀调度器动态评估计算负载,优先处理可靠文本段,减少无效计算。经过在通义千问 3、Gemma4 等主流模型上的代码编写、数学推理、日常对话等多场景测试,相比 Eagle3 和 DFlash 两大行业基线,DSpark 在单轮有效生成长度上表现更优,尤其缓解了长序列生成中候选有效率下降的问题。工程层面,开发团队进行了深度系统优化,包括采用序列打包降低内存消耗、设计异步调度模式消除 GPU 流水线停顿,并兼容主流 CUDA 硬件生态。目前 DSpark 已率先部署在 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro 预览服务引擎中,整体吞吐量实现显著提升。
为什么重要
DSpark 的开源直击大模型商业化的核心瓶颈——推理成本与响应速度。长期以来,大模型的高效推理依赖昂贵的硬件和复杂的工程优化,而 DSpark 通过算法层面解决长序列推理效率低下问题,使开发者能在现有算力条件下获得更高的吞吐量。这意味着一方面降低了高性能推理服务的部署门槛,另一方面为低成本普及大模型提供了可复现的技术路线,有望加速更多中小团队在对话、代码生成、内容创作等场景落地应用。
对用户/开发者/创作者的影响
对开发者而言,DSpark 的完整训练代码、模型权重及评估工具已全部开源在 GitHub 的 DeepSpec 项目中,可直接复现并集成到现有服务中。对于管理大模型 API 或自建推理服务的团队来说,DSpark 能有效降低每次请求的 GPU 占用,尤其在高并发场景下减少排队延迟。对普通用户和内容创作者而言,这意味着未来搭载该框架的对话或创作工具(如基于 DeepSeek 系列模型的应用)将在长文本生成、代码编写等场景中响应更快、输出更流畅,而不会因模型“思考”过长而中断体验。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
一是 DSpark 在 DeepSeek-V4 系列之外能否快速适配更多主流模型(如 Llama、Qwen)并将性能优势泛化;二是随着开源框架普及,其他大模型厂商是否会跟进类似半自回归或置信度调度方案,引发新一轮推理优化竞赛;三是其实际部署中,长序列场景下的稳定性和硬件适配范围是否能在社区中快速验证与扩展。
来源:AIbase


