
一句话看懂:芯片设计公司 Phynomy 的 Vishwa Nath Jha 指出,AI 推理中约 90% 的能耗用于数据搬运而非计算,每比特数据从高带宽内存(HBM)搬运到计算单元的能量成本是执行一次 8 位乘法运算的约 1000 倍。这意味着 AI 硬件的设计目标应从追求每秒浮点运算数(FLOPs)转向追求每焦耳能量的智能产出,而当前行业主流芯片仍在优化最便宜的运算部分。
事件核心:发生了什么
2026 年 7 月 2 日,硅谷芯片创企 Phynomy 联合创始人 Vishwa Nath Jha 在 X 平台发布长文,系统阐述了 AI 芯片设计中一个被长期忽视的物理瓶颈:能量成本中数据搬运占比极高。他引用了 Horowitz 在 ISSCC 2014 的报告数据——一次 8 位乘法仅需约 0.2 皮焦耳,但从 HBM 读取一个操作数需约 200 皮焦耳——并指出过去十年,制程工艺每进步一代,逻辑运算的能耗持续下降,但数据在内存和计算单元间移动的能耗基本持平。这意味着,当 AI 推理场景中 90% 的能量用于搬运数据时,继续提升核心频率或增加 FLOPs 内核,本质是在优化只占 10% 能量成本的环节。Phynomy 本身正围绕这一物理约束设计芯片,其公开目标并非追求峰值吞吐,而是优化每焦耳产出的 token 数。
为什么重要
这一分析直接挑战了过去 60 年芯片设计的核心范式,对整个 AI 硬件竞赛格局有根本性的影响。当前主流 AI 芯片(如 NVIDIA 的 GPU、AMD 的 MI 系列)以及多家创企(包括 Etched、Cerebras、SambaNova、Groq)的产品,基准测试焦点仍然集中在峰值 FLOPs 或训练速度上。Jha 的观点则将竞争重心转移到推理部署时的能源效率——随着 AI 应用从训练转向大规模推理,电力账单已成为数据中心运营的主要成本。谁能在单位焦耳内处理更多 token(即“token-per-joule”),谁就可能成为推理场景的赢家。这也会改变客户结构:当算力稀缺时,卖点是对训练团队的速度;当电能稀缺时,采购决策权转移到了持有数据中心和电力合同的能源运营方手中。
对用户/开发者/创作者的影响
对于使用大模型 API 的开发者或创作者,这一趋势意味着推理成本有望进一步下降——如果新型能效芯片落地,token 的单价可能从“每百万 token 约 0.15-0.30 美元”向更低区间移动。对于企业采购者,在评估云服务或自建推理资源时,不应仅比较 GPU 型号和 FLOPs 参数,更需要关注供应商报告的实际推理功耗(瓦特 / 推理请求)。对于模型团队,一个长期影响是:当芯片设计转向“最小化数据搬运”时,模型结构(如注意力机制的计算密度、参数量分布、频繁的权重加载模式)也会反过来影响硬件适配度——更“I/O 友好”的模型可能获得额外的能效红利。目前公开信息显示,上述趋势仍处于早期论证和设计阶段,尚无消费级产品落地。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,Phynomy 是否能在未来 12-18 个月内流片并展示其“每焦耳 token”指标的实际测试数据,这将检验理论是否经得起工程实现。第二,NVIDIA、AMD 以及 Groq、Cerebras 等公司是否会在下一代架构(如 Blackwell 之后的 B 系列、AMD 的 CDNA 4)中公开提及数据移动能耗的优化目标。第三,云厂商(如 AWS、Azure、GCP)是否会开始按“推理请求的单次能耗”而非单纯的算力小时计价,从而改变整个推理层的商业模式。
来源:@nathoham


