曝GPT-5.5用上“全球最快芯片”，Claude慌了

一句话看懂：Cerebras 以 560 亿美元 IPO 首日暴涨 68%，其晶圆级芯片 WSE-3 将 GPT-5.3-Codex-Spark 的推理速度飙至 2000 token/秒，远超 GPU 方案，但受限于物理架构，目前只能有效跑 120B 以下的小模型，且与 OpenAI 的排他协议锁死了 Anthropic 的采购路径。

事件核心：发生了什么

芯片公司 Cerebras 于 5 月 14 日登陆纳斯达克，IPO 首日股价飙升 68%。其核心技术 WSE-3 是一块整晶圆芯片，拥有 46,225 平方毫米、4 万亿晶体管及 44GB SRAM，带宽高达 21PB/秒。OpenAI 今年 2 月发布的 GPT-5.3-Codex-Spark 正是基于该芯片运行，120B 参数量下推理速度达 2000 token/秒，是英伟达 GPU 方案的 15 倍以上。Cerebras CFO 在 IPO 前声称，公司已在运行 OpenAI 内部的 GPT-5.4 和 GPT-5.5，但外界无法验证。

为什么重要

这揭示了 AI 推理战争的核心矛盾：速度与规模不可兼得。Cerebras 用极端的 SRAM 带宽换取了数量级的速度优势，但 44GB 的“油箱”决定了它只能高效跑 120B 参数以下的模型。SemiAnalysis 分析指出，部署 1.6 万亿参数的 DeepSeek V4 需要 12 块晶圆联动，但 WSE-3 极低的对外带宽（150GB/秒）导致延迟剧增。更关键的是，Cerebras 与 OpenAI 的排他协议，已经切断了 Anthropic 获取同等极速推理能力的硬件渠道，强化了 OpenAI 在推理成本与速度上的竞争优势。

对用户/开发者/创作者的影响

对开发者和企业用户而言，Cerebras 云服务在短上下文（≤128K）的小模型推理场景中提供了不可替代的低延迟体验。Devin、Notion 等工具已接入，快速模式可达 1000 token/秒以上。但选择范围有限：公开云上最大只支持 355B 模型（预览），且长上下文（超过 128K）请求占比已接近 50%，Agent 时代下这一瓶颈会持续放大。若使用 Cerebras 做产品推理，需接受模型规模和上下文长度的硬约束，同时面临单一芯片供应商锁定的风险。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，Cerebras 能否突破多芯片互联的延迟困境，决定其能否真正承载万亿参数级别模型的生产级推理。第二，Anthropic 是否会寻找替代硬件或自研方案来重建“fast 模式”体验，这将直接影响 Claude 产品的推理速度与定价。第三，OpenAI 是否会将 Cerebras 推理能力进一步整合进 GPT 系列产品（如 GPT-5.5 正式版），改变 API 调用的成本结构。

来源：36氪 · 24小时热榜

曝GPT-5.5用上“全球最快芯片”，Claude慌了