ZML:从模型到金属

ZML:从模型到金属

ZML:从模型到金属

一句话看懂:ZML 发布了 v2 版本,这是一个专注于 AI 推理的生产级软件栈,核心卖点是让同一个模型代码无需重写,就能在 NVIDIA、AMD、Google TPU、AWS Trainium 等多种硬件上达到峰值性能。

事件核心:发生了什么

ZML 团队宣布推出 ZML/v2。该项目是一个专为生产环境设计的大模型推理栈,其核心理念是“从模型到金属”——即直接编译 AI 模型到不同厂商的 AI 加速器硬件上运行。根据官方介绍,ZML 支持 NVIDIA、AMD、谷歌 TPU、亚马逊 Trainium 等主流加速器。用户只需维护一套代码库,无需为不同硬件重写模型推理逻辑,即可获得针对特定硬件的最高性能。ZML 明确排除了 Python 运行时、隐藏状态管理和大抽象开销,认为性能的关键在于底层硬件。该项目目前通过 zml.ai 官网发布公告,并提供更多技术细节。

为什么重要

当前 AI 推理的痛点之一是硬件生态碎片化:开发者为英伟达 CUDA 优化的代码,很难直接在 AMD ROCm、谷歌 TPU/XLA 或 AWS Neuron 上高效运行。ZML 试图解决这一“一次编写,到处运行”与“峰值性能”之间的矛盾。如果 ZML/v2 确实能在不牺牲性能的前提下实现多硬件统一编译,它可能降低企业对特定硬件供应商的依赖风险,加速混合硬件部署策略。同时,这种“摒弃高级运行时、直击硬件”的做法,代表了与主流 Python 框架(如 PyTorch、TensorFlow)截然不同的技术路线。

对用户/开发者/创作者的影响

  • AI 应用开发者: 如果你需要将同一个模型部署到不同云服务商(例如混合使用 AWS 和 GCP 的算力),ZML 可能大幅减少适配和优化的工作量。但需注意,ZML 要求模型必须以符合其编译框架的方式编写或转换,学习曲线较陡。
  • 企业 IT 采购与决策者: ZML 的出现提供了减少供应商锁定的可能性。若其性能宣称得到验证,企业在采购云算力或自建数据中心时,可以更灵活地选择 AMD 或 AWS 自研芯片,而非只依赖英伟达。
  • 普通用户/创作者: 目前 ZML 主要面向专业开发者,普通用户短期内不会直接接触。但若该技术成熟,最终可能降低推理服务成本,或让同一款 AI 应用在更多类型设备上运行得更快。

值得关注的后续

  • 性能对比是否公开透明: ZML v2 是否能提供与 CUDA 原生优化相当的延迟和吞吐量基准测试?需要关注官方或第三方发布的独立对比结果。
  • 开发者生态能否形成: 目前 ZML 的文档和社区规模尚小。其编译框架能否支持 PyTorch 等主流模型格式的直接导入,还是需要模型开发者重写代码,这直接影响到采用率。
  • 竞品是否跟进: 英伟达的 TensorRT、AMD 的 ROCm 栈、以及像 TVM、XLA 等开源编译栈也在进化。ZML 如果证明了“多硬件原生编译”路线的可行性,可能刺激大型云厂商或硬件厂商推出类似方案。
GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

来源:zml.ai

celebrityanime
celebrityanime
文章: 5933

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注