
DeepSeek塞进苹果本儿,分币不花实现“龙虾自由”
一句话看懂:Redis创始人antirez开源了专为DeepSeek V4 Flash设计的本地推理引擎ds4,让开发者能在128GB内存的MacBook Pro上运行这个284B参数的MoE模型。这意味着AI Agent重度用户可以在本地跑任务,彻底免去按token计费的API费用。
事件核心:发生了什么
antirez(本名Salvatore Sanfilippo)在GitHub发布ds4项目,用几千行C代码为DeepSeek V4 Flash编写了专用推理引擎。他做了三件事:对模型中的“候补专家”(routed experts)采用不对称2-bit量化,保留关键组件原始精度;将KV Cache迁移到SSD上,实现100万token上下文支持;为苹果芯片编写纯Metal原生路径。在M3 Max 128GB MacBook Pro上,实测生成速度约26 token/秒,M3 Ultra 512GB Mac Studio可达36 token/秒。
为什么重要
ds4将DeepSeek从云端API服务“降级”为本地可嵌入的基础设施材料。过去,开发者使用大模型的路径是调用API、按token付费;现在,一个3万元左右的MacBook Pro就能运行同款模型,边际成本降至零。这种“被嵌入”带来的粘性远高于API调用——一旦开发者的工具链(如coding agent)深度绑定本地推理,迁移成本会高得几乎不可能。YC CEO Garry Tan在X上转发时用“太疯狂了”来形容这件事。此外,antirez作为Redis原作者,用个人声誉为DeepSeek V4 Flash背书,这在开源社区相当于一次高权重信用投票。
对用户/开发者/创作者的影响
对独立开发者和小团队:如果你在Azure或DeepSeek自身API上跑coding agent,每月token账单几千元,现在可以花3万元一次性买断硬件,之后本地推理免费。外网已有开发者将简单任务(改bug、写函数)切到本地,只有复杂架构设计才调用云端Pro版本。不过需注意:2-bit量化会带来质量损失,已有社区反馈在超过2000行代码的文件中偶尔丢失变量作用域。对DeepSeek本身:ds4在“劝退”一批高价值API用户——他们仍在使用DeepSeek,但不再付费。这虽是开源模型影响力的体现,但直接冲击了DeepSeek的商业化路径。
值得关注的后续
第一,量化质量与体验解释权问题。用户在本地跑ds4时遇到幻觉或功能异常,往往会归因于“DeepSeek不行”,而实际上可能是量化、SSD缓存或Agent配置的变量导致,这种“口碑污染”风险对DeepSeek的品牌构成潜在伤害。第二,蚂蚁效应是否扩散。Hacker News高赞评论提出:未来每代有分量的开源模型是否都应配备一个专属推理引擎?如果这个方向被验证,DeepSeek可能会意外成为“被嵌入”范式的开创者。第三,硬件门槛进一步下探的可能性。目前ds4推荐128GB内存MacBook Pro,若后续量化方案或模型架构优化能将门槛降至64GB,这一趋势将彻底改变本地AI代理的开发者生态。
来源:36氪 · 24小时热榜


![[OpenAI] 深圳 AI 创业者 · 5.31 闭门 demo show, 3 分钟站到投资人面前](https://www.chat-gpts.plus/wp-content/uploads/2026/05/ai_cover_3-503-768x403.jpg)