Show HN: 我们用纯Python构建了一个大型语言模型(LLM)推理引擎——不使用PyTorch,也不使用Triton

Show HN: 我们用纯Python构建了一个大型语言模型(LLM)推理引擎——不使用PyTorch,也不使用Triton

Show HN: 我们用纯Python构建了一个大型语言模型(LLM)推理引擎——不使用PyTorch,也不使用Triton

一句话看懂:开源项目 ZSE 发布 v2.0.0,实现了一个完全零第三方依赖的纯 Python LLM 推理引擎。它不依赖 PyTorch、Triton 或 transformers,自行编译 CUDA、HIP 和 Metal 内核,在冷启动速度和显存占用上大幅领先主流竞品 vLLM,同时将安装体积从 3 GB 压缩至约 5 MB。

事件核心:发生了什么

5 月 22 日,开发者 zyoraclub 在 GitHub 上发布了 ZSE(原名 zllm-zse)的 v2.0.0 版本。该版本是一次完全重写,核心创新在于:用纯 Python DSL(领域特定语言)编写了一个内核编译器,它能够直接生成 CUDA C、HIP C 和 Apple Metal Shading Language 代码,从而绕过 PyTorch、Triton 和 bitsandbytes 等传统依赖。发布的基准测试数据显示,在搭载 A100-80GB 的服务器上运行 Qwen2.5-14B INT4 模型时,ZSE 的冷启动时间仅为 6.29 秒,而 vLLM(使用 AWQ INT4)需要 127.02 秒,快约 20 倍;显存占用上,ZSE 仅需 12.28 GB,而 vLLM 占用 71.45 GB,减少了约 82%;单序列吞吐量达到 37.0 tok/s,领先 vLLM 的 26.5 tok/s 约 40%。该引擎已在 NVIDIA T4、L4、A10G、A100 以及 AMD MI300X 和 Apple M1 芯片上进行验证,其中在 AMD MI300X 上冷启动仅需 3.14 秒,比 vLLM 的 ROCm FP16 版本快 13.6 倍。

为什么重要

ZSE 的出现挑战了当前 LLM 推理引擎对庞大深度学习框架生态的依赖。传统上,运行一个开源大模型需要安装数 GB 的 PyTorch 及配套工具包,这在边缘设备、轻量级服务器或容器化部署中极为不便。ZSE 通过自建编译器,将部署依赖降至接近零,不仅大幅缩短了冷启动时间(对弹性伸缩和 Serverless 推理意义重大),还通过极低的显存占用降低了硬件成本。对于同时兼容 AMD GPU(通过 ROCm)和 Apple Silicon 的支持,也表明其具有多平台通用性的潜力,有可能打破主流推理引擎对 NVIDIA 生态的锁定。

对用户/开发者/创作者的影响

对于开发者而言,ZSE 提供了一个可直接 pip install zse-engine 使用的轻量级推理方案。其构建的 .zse 模型格式 v2 支持 INT4、INT8 和 FP16 量化,并提供了 C 加速的量化方法(速度提升约 600 倍),降低了模型转换门槛。内置的 OpenAI 兼容 API 和 RAG(检索增强生成)功能,使创作者可以快速搭建带知识检索的 LLM 应用,无需额外引入向量数据库。对于企业采购方,显存占用的大幅降低意味着单张 A100 可以容纳更多模型副本或更大批次,直接减少 GPU 采购预算。但目前公开信息显示,该项目仍处于早期发布状态,社区生态和长期维护的可持续性有待观察。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

可以关注以下几点:一是 ZSE 在更大参数规模模型(如 70B、180B)以及长序列场景下的实际表现和稳定性;二是其开发者社区的增长速度以及是否会有主流云厂商(如 AWS、DigitalOcean)将其作为默认推理后端;三是竞品(vLLM、TensorRT-LLM 等)是否会在冷启动和依赖优化上做出技术跟进。此外,该项目已获得 DigitalOcean 开源赞助计划的支持,其对 AMD MI300X 的深度优化值得留意,可能影响未来推理硬件的采购决策。

来源:github.com

celebrityanime
celebrityanime
文章: 5192

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注