曝GPT-5.5用上“全球最快芯片”,Claude慌了

曝GPT-5.5用上“全球最快芯片”,Claude慌了

曝GPT-5.5用上“全球最快芯片”,Claude慌了

一句话看懂:Cerebras 以 560 亿美元 IPO 首日暴涨 68%,其晶圆级芯片 WSE-3 将 GPT-5.3-Codex-Spark 的推理速度飙至 2000 token/秒,远超 GPU 方案,但受限于物理架构,目前只能有效跑 120B 以下的小模型,且与 OpenAI 的排他协议锁死了 Anthropic 的采购路径。

事件核心:发生了什么

芯片公司 Cerebras 于 5 月 14 日登陆纳斯达克,IPO 首日股价飙升 68%。其核心技术 WSE-3 是一块整晶圆芯片,拥有 46,225 平方毫米、4 万亿晶体管及 44GB SRAM,带宽高达 21PB/秒。OpenAI 今年 2 月发布的 GPT-5.3-Codex-Spark 正是基于该芯片运行,120B 参数量下推理速度达 2000 token/秒,是英伟达 GPU 方案的 15 倍以上。Cerebras CFO 在 IPO 前声称,公司已在运行 OpenAI 内部的 GPT-5.4 和 GPT-5.5,但外界无法验证。

为什么重要

这揭示了 AI 推理战争的核心矛盾:速度与规模不可兼得。Cerebras 用极端的 SRAM 带宽换取了数量级的速度优势,但 44GB 的“油箱”决定了它只能高效跑 120B 参数以下的模型。SemiAnalysis 分析指出,部署 1.6 万亿参数的 DeepSeek V4 需要 12 块晶圆联动,但 WSE-3 极低的对外带宽(150GB/秒)导致延迟剧增。更关键的是,Cerebras 与 OpenAI 的排他协议,已经切断了 Anthropic 获取同等极速推理能力的硬件渠道,强化了 OpenAI 在推理成本与速度上的竞争优势。

对用户/开发者/创作者的影响

对开发者和企业用户而言,Cerebras 云服务在短上下文(≤128K)的小模型推理场景中提供了不可替代的低延迟体验。Devin、Notion 等工具已接入,快速模式可达 1000 token/秒以上。但选择范围有限:公开云上最大只支持 355B 模型(预览),且长上下文(超过 128K)请求占比已接近 50%,Agent 时代下这一瓶颈会持续放大。若使用 Cerebras 做产品推理,需接受模型规模和上下文长度的硬约束,同时面临单一芯片供应商锁定的风险。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,Cerebras 能否突破多芯片互联的延迟困境,决定其能否真正承载万亿参数级别模型的生产级推理。第二,Anthropic 是否会寻找替代硬件或自研方案来重建“fast 模式”体验,这将直接影响 Claude 产品的推理速度与定价。第三,OpenAI 是否会将 Cerebras 推理能力进一步整合进 GPT 系列产品(如 GPT-5.5 正式版),改变 API 调用的成本结构。

来源:36氪 · 24小时热榜

celebrityanime
celebrityanime
文章: 2851

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注