
值得持有的优质AI推理股:英伟达还是Cerebras?
一句话看懂:随着AI从训练阶段进入推理(inference)阶段,英伟达通过收购Groq整合了基于SRAM的LPU芯片,与自家GPU协同用于推理;而Cerebras则推出集成大量SRAM的晶圆级芯片专攻推理。目前英伟达因生态完整性和主流化能力被机构视为更稳妥的选择,Cerebras虽有OpenAI订单支撑但估值极高且市场定位较窄。
事件核心:发生了什么
据Motley Fool分析师Geoffrey Seiler发布的报告(2026年5月31日),AI推理市场正成为比训练市场更大的舞台,但技术路线出现分歧。英伟达(NVDA)以约200亿美元“收购”了专注于推理加速的初创公司Groq,获得了其基于SRAM(静态随机存取存储器)的语言处理单元(LPU),并将LPU集成到CUDA平台,设计出GPU与LPU协同工作的整机系统:GPU负责理解用户提示(prefill阶段),LPU负责低延迟生成回复(decode阶段)。
Cerebras Systems(CBRS)则选择制造晶圆级芯片(Wafer-Scale Chip),在一块巨大芯片上集成大量计算核心与SRAM,宣称其CS-3系统推理速度可达GPU的15倍。但这类芯片良率低(台积电最新工艺良率约80%),且需要特殊冷却和电源管理,只能整机销售或出租,成本高昂。
为什么重要
推理是AI应用持续运行的环节,对成本和延迟极为敏感。传统上,GPU配合高带宽内存(HBM)是主流方案,但SRAM能显著降低推理延迟。英伟达通过收购Groq,将SRAM路线的LPU与自有的HBM路线GPU结合,既保留了CUDA生态的兼容性,又补全了低延迟推理能力,有望将原本小众的SRAM方案推向主流。Cerebras则走“一站式大芯片”路线,虽速度突出,但系统复杂、价格昂贵,更像为特定客户(如OpenAI)定制的“奢侈品”方案。两者路线差异将深刻影响未来AI服务器的成本结构和开发者选型。
分析师指出,Nvidia在推理市场可能成为主导者,因为它能利用既有训练市场的生态优势(CUDA、开发工具、服务器集群经验)将推理能力无缝集成。Cerebras虽有大客户背书,但需证明自己不是“利基玩家”。
对用户/开发者/创作者的影响
对企业AI应用开发者:如果英伟达LPU方案落地,使用其推理API或云端实例可能获得更低的响应延迟,尤其是在对话式AI、实时翻译、代码补全等场景。开发者无需切换工具链,CUDA生态下的优化库可直接适配。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
对采购AI算力的企业:短期内可评估Cerebras CS-3系统是否在延迟敏感、对成本不敏感的高价值任务(如金融高频交易、科学模拟)中有优势。但需警惕其高昂的采购与运维成本,以及供应链单一性(台积电晶圆产能、特殊散热设施)。英伟达的推理方案更便于标准化部署。
对普通用户与内容创作者:可能不会直接感知硬件名字,但使用基于英伟达LPU推理的AI应用时(如ChatGPT、Copilot等),会感受到更快的回复速度。Cerebras与OpenAI的深度合作也可能间接改善模型响应体验。
值得关注的后续
- 英伟达LPU方案的实际落地进度:收购Groq后,LPU何时真正集成到Nvidia的GPU服务器中并对外提供云服务?其推理延迟、价格与功耗数据是否优于纯GPU方案?
- Cerebras能否摆脱“利基”标签:除了OpenAI,是否有更多主流云厂商或大型企业采用其CS-3系统?如果出货量无法扩大,高估值(当前市销率超100倍)难以持续。
- 内存技术路线的行业演变:SRAM vs. HBM哪个会在推理市场胜出?英伟达将两者结合的混合方案是否会成为行业标准,从而让其他竞争对手(如AMD、Intel)也调整方向?


