Show HN: 我们用纯Python构建了一个大型语言模型（LLM）推理引擎——不使用PyTorch，也不使用Triton

一句话看懂：开源项目 ZSE 发布 v2.0.0，实现了一个完全零第三方依赖的纯 Python LLM 推理引擎。它不依赖 PyTorch、Triton 或 transformers，自行编译 CUDA、HIP 和 Metal 内核，在冷启动速度和显存占用上大幅领先主流竞品 vLLM，同时将安装体积从 3 GB 压缩至约 5 MB。

事件核心：发生了什么

5 月 22 日，开发者 zyoraclub 在 GitHub 上发布了 ZSE（原名 zllm-zse）的 v2.0.0 版本。该版本是一次完全重写，核心创新在于：用纯 Python DSL（领域特定语言）编写了一个内核编译器，它能够直接生成 CUDA C、HIP C 和 Apple Metal Shading Language 代码，从而绕过 PyTorch、Triton 和 bitsandbytes 等传统依赖。发布的基准测试数据显示，在搭载 A100-80GB 的服务器上运行 Qwen2.5-14B INT4 模型时，ZSE 的冷启动时间仅为 6.29 秒，而 vLLM（使用 AWQ INT4）需要 127.02 秒，快约 20 倍；显存占用上，ZSE 仅需 12.28 GB，而 vLLM 占用 71.45 GB，减少了约 82%；单序列吞吐量达到 37.0 tok/s，领先 vLLM 的 26.5 tok/s 约 40%。该引擎已在 NVIDIA T4、L4、A10G、A100 以及 AMD MI300X 和 Apple M1 芯片上进行验证，其中在 AMD MI300X 上冷启动仅需 3.14 秒，比 vLLM 的 ROCm FP16 版本快 13.6 倍。

为什么重要

ZSE 的出现挑战了当前 LLM 推理引擎对庞大深度学习框架生态的依赖。传统上，运行一个开源大模型需要安装数 GB 的 PyTorch 及配套工具包，这在边缘设备、轻量级服务器或容器化部署中极为不便。ZSE 通过自建编译器，将部署依赖降至接近零，不仅大幅缩短了冷启动时间（对弹性伸缩和 Serverless 推理意义重大），还通过极低的显存占用降低了硬件成本。对于同时兼容 AMD GPU（通过 ROCm）和 Apple Silicon 的支持，也表明其具有多平台通用性的潜力，有可能打破主流推理引擎对 NVIDIA 生态的锁定。

对用户/开发者/创作者的影响

对于开发者而言，ZSE 提供了一个可直接 pip install zse-engine 使用的轻量级推理方案。其构建的 .zse 模型格式 v2 支持 INT4、INT8 和 FP16 量化，并提供了 C 加速的量化方法（速度提升约 600 倍），降低了模型转换门槛。内置的 OpenAI 兼容 API 和 RAG（检索增强生成）功能，使创作者可以快速搭建带知识检索的 LLM 应用，无需额外引入向量数据库。对于企业采购方，显存占用的大幅降低意味着单张 A100 可以容纳更多模型副本或更大批次，直接减少 GPU 采购预算。但目前公开信息显示，该项目仍处于早期发布状态，社区生态和长期维护的可持续性有待观察。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

可以关注以下几点：一是 ZSE 在更大参数规模模型（如 70B、180B）以及长序列场景下的实际表现和稳定性；二是其开发者社区的增长速度以及是否会有主流云厂商（如 AWS、DigitalOcean）将其作为默认推理后端；三是竞品（vLLM、TensorRT-LLM 等）是否会在冷启动和依赖优化上做出技术跟进。此外，该项目已获得 DigitalOcean 开源赞助计划的支持，其对 AMD MI300X 的深度优化值得留意，可能影响未来推理硬件的采购决策。

来源：github.com

Show HN: 我们用纯Python构建了一个大型语言模型（LLM）推理引擎——不使用PyTorch，也不使用Triton