ZML：从模型到金属

一句话看懂：ZML 发布了 v2 版本，这是一个专注于 AI 推理的生产级软件栈，核心卖点是让同一个模型代码无需重写，就能在 NVIDIA、AMD、Google TPU、AWS Trainium 等多种硬件上达到峰值性能。

事件核心：发生了什么

ZML 团队宣布推出 ZML/v2。该项目是一个专为生产环境设计的大模型推理栈，其核心理念是“从模型到金属”——即直接编译 AI 模型到不同厂商的 AI 加速器硬件上运行。根据官方介绍，ZML 支持 NVIDIA、AMD、谷歌 TPU、亚马逊 Trainium 等主流加速器。用户只需维护一套代码库，无需为不同硬件重写模型推理逻辑，即可获得针对特定硬件的最高性能。ZML 明确排除了 Python 运行时、隐藏状态管理和大抽象开销，认为性能的关键在于底层硬件。该项目目前通过 zml.ai 官网发布公告，并提供更多技术细节。

为什么重要

当前 AI 推理的痛点之一是硬件生态碎片化：开发者为英伟达 CUDA 优化的代码，很难直接在 AMD ROCm、谷歌 TPU/XLA 或 AWS Neuron 上高效运行。ZML 试图解决这一“一次编写，到处运行”与“峰值性能”之间的矛盾。如果 ZML/v2 确实能在不牺牲性能的前提下实现多硬件统一编译，它可能降低企业对特定硬件供应商的依赖风险，加速混合硬件部署策略。同时，这种“摒弃高级运行时、直击硬件”的做法，代表了与主流 Python 框架（如 PyTorch、TensorFlow）截然不同的技术路线。

对用户/开发者/创作者的影响

AI 应用开发者： 如果你需要将同一个模型部署到不同云服务商（例如混合使用 AWS 和 GCP 的算力），ZML 可能大幅减少适配和优化的工作量。但需注意，ZML 要求模型必须以符合其编译框架的方式编写或转换，学习曲线较陡。
企业 IT 采购与决策者： ZML 的出现提供了减少供应商锁定的可能性。若其性能宣称得到验证，企业在采购云算力或自建数据中心时，可以更灵活地选择 AMD 或 AWS 自研芯片，而非只依赖英伟达。
普通用户/创作者： 目前 ZML 主要面向专业开发者，普通用户短期内不会直接接触。但若该技术成熟，最终可能降低推理服务成本，或让同一款 AI 应用在更多类型设备上运行得更快。

值得关注的后续

性能对比是否公开透明： ZML v2 是否能提供与 CUDA 原生优化相当的延迟和吞吐量基准测试？需要关注官方或第三方发布的独立对比结果。
开发者生态能否形成： 目前 ZML 的文档和社区规模尚小。其编译框架能否支持 PyTorch 等主流模型格式的直接导入，还是需要模型开发者重写代码，这直接影响到采用率。
竞品是否跟进： 英伟达的 TensorRT、AMD 的 ROCm 栈、以及像 TVM、XLA 等开源编译栈也在进化。ZML 如果证明了“多硬件原生编译”路线的可行性，可能刺激大型云厂商或硬件厂商推出类似方案。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

来源：zml.ai

ZML：从模型到金属