DeepSeek塞进苹果本儿，分币不花实现“龙虾自由”

一句话看懂：Redis创始人antirez开源了专为DeepSeek V4 Flash设计的本地推理引擎ds4，让开发者能在128GB内存的MacBook Pro上运行这个284B参数的MoE模型。这意味着AI Agent重度用户可以在本地跑任务，彻底免去按token计费的API费用。

事件核心：发生了什么

antirez（本名Salvatore Sanfilippo）在GitHub发布ds4项目，用几千行C代码为DeepSeek V4 Flash编写了专用推理引擎。他做了三件事：对模型中的“候补专家”（routed experts）采用不对称2-bit量化，保留关键组件原始精度；将KV Cache迁移到SSD上，实现100万token上下文支持；为苹果芯片编写纯Metal原生路径。在M3 Max 128GB MacBook Pro上，实测生成速度约26 token/秒，M3 Ultra 512GB Mac Studio可达36 token/秒。

为什么重要

ds4将DeepSeek从云端API服务“降级”为本地可嵌入的基础设施材料。过去，开发者使用大模型的路径是调用API、按token付费；现在，一个3万元左右的MacBook Pro就能运行同款模型，边际成本降至零。这种“被嵌入”带来的粘性远高于API调用——一旦开发者的工具链（如coding agent）深度绑定本地推理，迁移成本会高得几乎不可能。YC CEO Garry Tan在X上转发时用“太疯狂了”来形容这件事。此外，antirez作为Redis原作者，用个人声誉为DeepSeek V4 Flash背书，这在开源社区相当于一次高权重信用投票。

对用户/开发者/创作者的影响

对独立开发者和小团队：如果你在Azure或DeepSeek自身API上跑coding agent，每月token账单几千元，现在可以花3万元一次性买断硬件，之后本地推理免费。外网已有开发者将简单任务（改bug、写函数）切到本地，只有复杂架构设计才调用云端Pro版本。不过需注意：2-bit量化会带来质量损失，已有社区反馈在超过2000行代码的文件中偶尔丢失变量作用域。对DeepSeek本身：ds4在“劝退”一批高价值API用户——他们仍在使用DeepSeek，但不再付费。这虽是开源模型影响力的体现，但直接冲击了DeepSeek的商业化路径。

值得关注的后续

第一，量化质量与体验解释权问题。用户在本地跑ds4时遇到幻觉或功能异常，往往会归因于“DeepSeek不行”，而实际上可能是量化、SSD缓存或Agent配置的变量导致，这种“口碑污染”风险对DeepSeek的品牌构成潜在伤害。第二，蚂蚁效应是否扩散。Hacker News高赞评论提出：未来每代有分量的开源模型是否都应配备一个专属推理引擎？如果这个方向被验证，DeepSeek可能会意外成为“被嵌入”范式的开创者。第三，硬件门槛进一步下探的可能性。目前ds4推荐128GB内存MacBook Pro，若后续量化方案或模型架构优化能将门槛降至64GB，这一趋势将彻底改变本地AI代理的开发者生态。

来源：36氪 · 24小时热榜

DeepSeek塞进苹果本儿，分币不花实现“龙虾自由”