Cloudflare 已弃用我的生产环境模型。推荐的升级方案需花费 4 美元/百万令牌。而 Gemma 4 MoE 则无需此费用。

一句话看懂：一位开发者因 Cloudflare 即将弃用其使用的 Kimi K2.5 模型，被迫迁移至 Gemma 4 MoE。他发现 Cloudflare 推荐的替代方案按量计费高达 4 美元/百万 tokens，而直接使用 Workers AI 原生集成的 Gemma 4 MoE 则无额外推理成本。这一案例暴露了平台模型生命周期管理对个人及小团队开发者的重大影响。

事件核心：发生了什么

5 月 8 日，Cloudflare 发布弃用通知，宣布其 Workers AI 平台上的 @cf/moonshot/kimi-k2.5 模型将于 5 月 30 日下线。该开发者依赖此模型运行一个日 cron 任务、索引超过 10 万条文档的个人知识引擎“bookmark-cli”，用于将用户保存的 4.5 万条推文进行语义检索与跨文档关联洞察。Cloudflare 官方推荐将迁移至 @cf/google/gemma-4-26b-a4b-it 作为替代方案。开发者随后评估了三种 Gemma 4 变体，最终选择 26B 参数（4B 活跃参数）的 MoE 版本，因其在边缘推理中的速度与深度平衡最佳。整个迁移仅需修改环境变量和部署，但调整了 max_tokens 设定（从 180 提升至 2048）以适配 Gemma 4 的思维链输出。目前该系统以约 5 美元/月的总成本运行。

为什么重要

这一事件揭示了 AI 平台模型服务的不确定性风险。对于构建在平台模型之上的长期生产系统，模型的弃用周期与开发者自身的产品生命周期存在严重错配。Cloudflare 的案例并非孤例——当平台为降低成本或替换为更高利润模型时，依赖旧模型的用户往往面临两难：要么支付高昂的按量费用（如推广中的第三方 API 方案），要么接受迁移成本与潜在的功能断代。Gemma 4 MoE 在此案例中成为“零额外推理成本”选项，得益于其作为 Workers AI 原生绑定的边缘生态属性，这表明开源模型在平台层拥有更强的可靠性与成本优势，尤其在那些对延迟和数据隐私敏感的推理场景中。

对用户/开发者/创作者的影响

对个人开发者和小团队而言，此事件直接警示：选择平台模型时，需评估其生命周期政策，并提前构建模型抽象层（如环境变量切换）以降低迁移成本。对依赖 API 服务的企业，推荐模型往往意味着更高的持续支出（如 4 美元/百万 tokens），转向本地或边缘部署的开源模型是控制成本的真实路径。对于使用 Workers AI 或类似服务的开发者社区，目前公开信息显示，Gemma 4 MoE 已充分胜任多文档理解与推理任务，但需注意其作为“思考模型”的令牌消耗特性，避免因 max_tokens 不足导致输出为空。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

首先，Cloudflare 是否会为弃用模型提供更长的过渡窗口或工具化迁移指南，将直接影响开发者对其平台的粘性。其次，随着 Google Gemma 系列不断迭代，其开源生态是否会吸引更多平台将其列为长期支撑模型，进而改变“平台模型强锁”的格局。第三，该开发者采用的“知识反射层”设计（将多片段推文关联生成结构化洞察）能否在其他模型上复现，可能成为个人知识管理工具的一个新方向，值得观察复现难度与效果一致性。

来源：dev.to

Cloudflare 已弃用我的生产环境模型。推荐的升级方案需花费 4 美元/百万令牌。而 Gemma 4 MoE 则无需此费用。