GPU 帝国松动：推理芯片正在重写 AI 算力格局

一句话看懂：随着AI进入智能体和推理阶段，通用GPU在成本和延迟上的短板愈发明显，专用推理芯片正从多个技术路径崛起，推动算力市场从“单芯片通用”走向“多芯片分工”的异构时代。英伟达虽未失位，但格局已变。

事件核心：发生了什么

多家公司和研究机构正在推出或布局专门针对AI推理的芯片，与通用GPU形成差异化竞争。主要路线包括：Cerebras的晶圆级计算（WSE-3，拥有4万亿晶体管），Groq的确定性流式LPU（已被英伟达200亿美元收购），谷歌第八代TPU首次明确区分训练（TPU 8t）与推理（TPU 8i）版本，以及d-Matrix的存内计算Corsair平台（宣称在Llama3 70B上实现单机架30000 tokens/s）。此外，英特尔联合SambaNova提出GPU做预填充、RDU做解码、CPU做编排的异构分工方案。OpenAI已与Cerebras合作并启动自研芯片Jalapeño，Anthropic也计划采购Fractile的芯片（预计2027年商用）。

为什么重要

根本原因在于推理成本正在成为AI商业化的瓶颈。智能体、多轮推理、长上下文等场景使token消耗成倍放大，而通用GPU的高毛利与稀缺性迫使企业拆分工作负载。新芯片的共识已不再以FLOPS为核心，而是聚焦首token延迟、单位token成本、每瓦token产出。这一变化不仅意味着算力市场碎片化，更可能改写AI企业的商业模式：谁能以更低成本、更低延迟生产token，谁就有可持续的竞争力。目前英伟达仍占据推理芯片市场74%份额，但其通过收购Groq、布局异构系统（如Vera Rubin NVL72+LPX）表明，推理创新正在被内部消化。

对用户/开发者/创作者的影响

短期看，开发者使用AI API（如OpenAI、Anthropic）时，可能会体验到延迟降低、单位价格下降，因为推理成本一旦降低，服务商有空间降价或开放更高频次调用。中期看，尤其对于需要高吞吐、低延迟的智能体开发、代码生成、实时工具调用场景，专用芯片的普及将使得每token成本下降数倍甚至一个数量级。长期看，企业采购AI硬件或选择云服务商时，需从“看GPU型号”转向“看推理芯片架构与任务匹配度”——例如，预填充密集型任务适合大HBM的GPU，解码密集型任务则可能更适配LPU或SRAM优化的芯片。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. 产品落地时间表：Cerebras与OpenAI的750MW低延迟算力何时上线、d-Matrix的Corsair是否能在公开基准中兑现性能宣称；2. 生态迁移难度：专用芯片需配套新软件栈（如Groq LPU需重新调度、Cerebras需适配晶圆级计算），开发者是否愿为此投入迁移成本；3. 英伟达的“异构内化”效果：收购Groq后，英伟达能否在自家GPU+LPU+CPU组合中保持生态统一性，防止市场进一步碎片化。

来源：Readhub · AI

GPU 帝国松动：推理芯片正在重写 AI 算力格局

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

吉卜力工作室联合创始人宫崎骏对人工智能的今日引用：“我强烈觉得这是对生命本身的侮辱”——谴责机器艺术的兴起

看看中国的量化基金狂热，随着人工智能的快速采用，管理的资产在不到一年的时间里增加了一倍多，达到约 $384B (彭博社)

Leanstral 1.5：人人可用的证明丰富性

发表回复取消回复