Redis之父下场，给DeepSeek V4单独造了一台推理引擎

一句话看懂：Redis 创始人 Salvatore Sanfilippo（antirez）专门为 DeepSeek V4 Flash 模型开发了本地推理引擎 ds4.c，在 Mac 上实现了可用级别的推理速度。这件事的意义在于，它突破了通用推理框架的抽象限制，提出了“一个模型配一个专属引擎”的全栈本地推理思路。

事件核心：发生了什么

DeepSeek 于 2026 年 4 月 24 日发布 V4 系列，其中 V4 Flash 是一个拥有 284B 总参数、13B 激活参数、支持 100 万 token 上下文的 MoE 效率模型。两周后，antirez 发布 ds4.c——一个完全用 C + Metal 从头编写的本地推理引擎，仅支持 Apple Silicon 上的 DeepSeek V4 Flash。

该引擎的关键技术包括：非对称量化（专家层用 2-bit，其他组件保留 Q8 精度）、将 KV 缓存存储到磁盘以跳过重复 prefill、以及内置 OpenAI 和 Anthropic 两套 API 兼容层。实测数据显示：在 128GB 内存的 MacBook Pro M3 Max 上，短 prompt 预填充速度 58.52 token/s，生成速度 26.68 token/s；在 512GB 的 Mac Studio M3 Ultra 上，长 prompt 预填充可达 468.03 token/s。

为什么重要

当前主流本地推理框架（如 llama.cpp）追求跨模型通用性，这意味着必须做抽象层，从而带来性能妥协。antirez 的 ds4.c 选择相反路径：为单一模型做极致优化，去掉所有不必要的抽象。这种做法在 Apple Silicon 上展示了 284B 参数模型本地可用的可能性，同时提出了一个值得行业反思的问题：在推理硬件和模型组合越来越特定化的背景下，通用框架是否还是最优解？

此外，antirez 在 README 中明确承认该项目在 GPT 5.5 的辅助下完成，两周时间从 fork 通用框架到重写专属引擎。这从侧面说明了 AI 辅助编程如何加速基础设施开发。

对用户/开发者/创作者的影响

对 Mac 用户：如果你拥有 128GB 以上内存的 Mac，现在可以在本地运行一个 284B 参数的 MoE 模型，且速度达到可交互级别，不必依赖云端 API。对于使用 Claude Code 或类似 coding agent 的开发者，ds4.c 的 KV 缓存磁盘方案可显著降低反复预填充带来的延迟。

对开源社区：ds4.c 的“一个模型配一个框架”思路可能催生新的生态分工——模型发布后，社区会有人专门为其构建优化推理引擎，而非等待通用框架的适配。但风险也很明显：一旦模型迭代，专属引擎需要从头重写。

值得关注的后续

第一，antirez 是否会在未来加入 CUDA 支持。目前 ds4.c 仅支持 Apple Silicon，但 README 中留有谨慎的口头承诺。第二，该思路是否会引发其他开源贡献者为其他模型（如 Llama 4、Qwen 3）创建类似专属引擎。第三，DeepSeek V4 模型本身是否会进一步迭代，以及这种“全栈本地推理”方案是否能从 Mac 扩展到更多个人计算设备。

来源：量子位 · 每日最新

Redis之父下场，给DeepSeek V4单独造了一台推理引擎