Redis之父下场,给DeepSeek V4单独造了一台推理引擎

Redis之父下场,给DeepSeek V4单独造了一台推理引擎

Redis之父下场,给DeepSeek V4单独造了一台推理引擎

一句话看懂:Redis 创始人 Salvatore Sanfilippo(antirez)专门为 DeepSeek V4 Flash 模型开发了本地推理引擎 ds4.c,在 Mac 上实现了可用级别的推理速度。这件事的意义在于,它突破了通用推理框架的抽象限制,提出了“一个模型配一个专属引擎”的全栈本地推理思路。

事件核心:发生了什么

DeepSeek 于 2026 年 4 月 24 日发布 V4 系列,其中 V4 Flash 是一个拥有 284B 总参数、13B 激活参数、支持 100 万 token 上下文的 MoE 效率模型。两周后,antirez 发布 ds4.c——一个完全用 C + Metal 从头编写的本地推理引擎,仅支持 Apple Silicon 上的 DeepSeek V4 Flash。

该引擎的关键技术包括:非对称量化(专家层用 2-bit,其他组件保留 Q8 精度)、将 KV 缓存存储到磁盘以跳过重复 prefill、以及内置 OpenAI 和 Anthropic 两套 API 兼容层。实测数据显示:在 128GB 内存的 MacBook Pro M3 Max 上,短 prompt 预填充速度 58.52 token/s,生成速度 26.68 token/s;在 512GB 的 Mac Studio M3 Ultra 上,长 prompt 预填充可达 468.03 token/s。

为什么重要

当前主流本地推理框架(如 llama.cpp)追求跨模型通用性,这意味着必须做抽象层,从而带来性能妥协。antirez 的 ds4.c 选择相反路径:为单一模型做极致优化,去掉所有不必要的抽象。这种做法在 Apple Silicon 上展示了 284B 参数模型本地可用的可能性,同时提出了一个值得行业反思的问题:在推理硬件和模型组合越来越特定化的背景下,通用框架是否还是最优解?

此外,antirez 在 README 中明确承认该项目在 GPT 5.5 的辅助下完成,两周时间从 fork 通用框架到重写专属引擎。这从侧面说明了 AI 辅助编程如何加速基础设施开发。

对用户/开发者/创作者的影响

对 Mac 用户:如果你拥有 128GB 以上内存的 Mac,现在可以在本地运行一个 284B 参数的 MoE 模型,且速度达到可交互级别,不必依赖云端 API。对于使用 Claude Code 或类似 coding agent 的开发者,ds4.c 的 KV 缓存磁盘方案可显著降低反复预填充带来的延迟。

对开源社区:ds4.c 的“一个模型配一个框架”思路可能催生新的生态分工——模型发布后,社区会有人专门为其构建优化推理引擎,而非等待通用框架的适配。但风险也很明显:一旦模型迭代,专属引擎需要从头重写。

值得关注的后续

第一,antirez 是否会在未来加入 CUDA 支持。目前 ds4.c 仅支持 Apple Silicon,但 README 中留有谨慎的口头承诺。第二,该思路是否会引发其他开源贡献者为其他模型(如 Llama 4、Qwen 3)创建类似专属引擎。第三,DeepSeek V4 模型本身是否会进一步迭代,以及这种“全栈本地推理”方案是否能从 Mac 扩展到更多个人计算设备。

来源:量子位 · 每日最新

celebrityanime
celebrityanime
文章: 869

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注