[x86] AI 计算扩展 (ACE) 规范

一句话看懂：英特尔与AMD联合定义了全新的x86 AI计算扩展（ACE）规范，用于替代英特尔此前独家的AMX矩阵扩展。这意味着x86阵营在AI指令集上走向统一，但也宣告了英特尔AMX技术的过渡性命运，与当年苹果放弃自有AMX、转投Arm SME的路径如出一辙。

事件核心：发生了什么

英特尔和AMD共同发布了”AI Compute Extension”（ACE）规范。该规范是对英特尔现有AMX（高级矩阵扩展）的替代和延伸——ACE继承了AMX的部分特性，但并非完全兼容。目前最新的英特尔服务器P核CPU已搭载AMX，而AMD从未实现AMX支持，未来也不会再实现，因为ACE将成为双方统一的矩阵AI计算扩展标准。

值得注意的是，x86阵营在AI推理的底层指令集上正在弥合分歧。与此同时，x86也补齐了VNNI点积指令的有符号/无符号变体，解决了多年来与Arm ISA之间存在的u8与i8混合计算的兼容性痛点（此前开发者不得不将输入严格限制在[0,127]范围内以保证跨平台兼容）。

为什么重要

ACE的诞生标志着x86体系在AI推理加速上从”各自为战”走向”联合定义”。从行业比较看：苹果早期的AMX最终被与Arm共同定义的SME替代；英特尔AMX的处境与之相似，未来也将被ACE取代。矩阵扩展相比向量扩展能更有效地降低内存访问与计算操作的比例，从而显著提升AI推理效率。

另一个关键信号是AVX-512的普及进程。目前所有新发布的英特尔CPU均已支持AVX-512（Panther Lake、Wildcat Lake、Clearwater Forest等第一批今年初发布的产品是最后一批不支持的型号）。AMD的Zen 4/5/6 CPU均已支持AVX-512。这一局面使得AI算力的底层指令集基础趋向统一，降低开发者的适配成本。

对用户/开发者/创作者的影响

对AI推理开发者：ACE的推出意味着未来在x86 CPU上进行AI推理可以依赖统一的矩阵计算指令，不必再区分英特尔AMX和AMD不支持AMX的尴尬。对于需要跨平台（x86 + Arm）部署的开发者，VNNI指令集补全有符号/无符号组合后，将避免此前因输入范围限制导致的精度或兼容性问题。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对硬件采购者：ACE规范的落地需要新一代CPU硬件支持，目前公布的发布日期已推迟到明年，主因是内存价格问题抑制了升级需求。如果企业短期内计划采购AI推理服务器，建议关注新CPU是否明确标注ACE支持。

对模型部署者：CPU端的矩阵扩展能有效降低推理时的内存带宽压力，对低延迟、高吞吐的CPU推理场景（如边缘端、实时服务）是实质利好。但ACE目前规范聚焦AI推理，尚未像Arm SME或GPU那样覆盖FP64等全数值格式的通用矩阵运算。

值得关注的后续

ACE何时落地首批商用CPU：英特尔与AMD新一代服务器CPU的发布时间因内存价格因素双双推迟至明年，首批支持ACE的产品大概率在2025年亮相。
ACE规范是否覆盖更高精度计算：目前ACE对标的是AI推理场景，社区有声音希望扩展到FP64全精度矩阵运算（类似Arm SME方向），这取决于后续规范修订。
AVX-512在移动端/笔记本端的普及：目前AVX-512仍未覆盖大多数新款笔记本和迷你主机CPU，英特尔在企业笔记本市场份额仍领先AMD，x86 AI指令集在轻薄端的落地节奏值得关注。

来源：hackernews

[x86] AI 计算扩展 (ACE) 规范

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

商汤发布 SenseNova U1.5-Lite-Preview 开源模型

YouTuber Hank Green faces online criticism after using ChatGPT to help research a script, and says his LLM usage “is not healthy for me or good for the world” (Anthony Ha/TechCrunch)

Artificial Analysis: DeepSeek’s V4-Flash costs $0.14/1M input and $0.28/1M output tokens, or $0.03 per test, far below Kimi K3’s $0.86 and GPT-5.6 Sol’s $1.86 (Eduardo Baptista/Reuters)

发表回复取消回复