GPU 帝国松动:推理芯片正在重写 AI 算力格局

随着AI进入智能体和推理阶段,通用GPU在成本和延迟上的短板愈发明显,专用推理芯片正从多个技术路径崛起,推动算力市场从“单芯片通用”走向“多芯片分工”的异构时代。英伟达虽未失位,但格局已变。

GPU 帝国松动:推理芯片正在重写 AI 算力格局

一句话看懂:随着AI进入智能体和推理阶段,通用GPU在成本和延迟上的短板愈发明显,专用推理芯片正从多个技术路径崛起,推动算力市场从“单芯片通用”走向“多芯片分工”的异构时代。英伟达虽未失位,但格局已变。

事件核心:发生了什么

多家公司和研究机构正在推出或布局专门针对AI推理的芯片,与通用GPU形成差异化竞争。主要路线包括:Cerebras的晶圆级计算(WSE-3,拥有4万亿晶体管),Groq的确定性流式LPU(已被英伟达200亿美元收购),谷歌第八代TPU首次明确区分训练(TPU 8t)与推理(TPU 8i)版本,以及d-Matrix的存内计算Corsair平台(宣称在Llama3 70B上实现单机架30000 tokens/s)。此外,英特尔联合SambaNova提出GPU做预填充、RDU做解码、CPU做编排的异构分工方案。OpenAI已与Cerebras合作并启动自研芯片Jalapeño,Anthropic也计划采购Fractile的芯片(预计2027年商用)。

为什么重要

根本原因在于推理成本正在成为AI商业化的瓶颈。智能体、多轮推理、长上下文等场景使token消耗成倍放大,而通用GPU的高毛利与稀缺性迫使企业拆分工作负载。新芯片的共识已不再以FLOPS为核心,而是聚焦首token延迟、单位token成本、每瓦token产出。这一变化不仅意味着算力市场碎片化,更可能改写AI企业的商业模式:谁能以更低成本、更低延迟生产token,谁就有可持续的竞争力。目前英伟达仍占据推理芯片市场74%份额,但其通过收购Groq、布局异构系统(如Vera Rubin NVL72+LPX)表明,推理创新正在被内部消化。

对用户/开发者/创作者的影响

短期看,开发者使用AI API(如OpenAI、Anthropic)时,可能会体验到延迟降低、单位价格下降,因为推理成本一旦降低,服务商有空间降价或开放更高频次调用。中期看,尤其对于需要高吞吐、低延迟的智能体开发、代码生成、实时工具调用场景,专用芯片的普及将使得每token成本下降数倍甚至一个数量级长期看,企业采购AI硬件或选择云服务商时,需从“看GPU型号”转向“看推理芯片架构与任务匹配度”——例如,预填充密集型任务适合大HBM的GPU,解码密集型任务则可能更适配LPU或SRAM优化的芯片。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

1. 产品落地时间表:Cerebras与OpenAI的750MW低延迟算力何时上线、d-Matrix的Corsair是否能在公开基准中兑现性能宣称;2. 生态迁移难度:专用芯片需配套新软件栈(如Groq LPU需重新调度、Cerebras需适配晶圆级计算),开发者是否愿为此投入迁移成本;3. 英伟达的“异构内化”效果:收购Groq后,英伟达能否在自家GPU+LPU+CPU组合中保持生态统一性,防止市场进一步碎片化。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 11387

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注