400tokens/s 刷新全球纪录!智谱联合TileRT推出 GLM-5.1高速版 API

一句话看懂：智谱AI与自研推理引擎TileRT合作，面向企业客户推出了GLM-5.1高速版API，输出速度达到400 tokens/s。这是国内首个在该速度下仍保持旗舰模型能力的生产级API，打破了“高性能模型必然高延迟”的传统认知。

事件核心：发生了什么

2026年5月22日，智谱AI正式上线了GLM-5.1高速版API，专为企业客户提供。该版本的显著特征是输出速度达到400 tokens/s，刷新了目前公开大规模模型API的全球速度纪录。与业内常见的轻量级高速模型不同，GLM-5.1高速版保留了GLM-5.1的旗舰级理解和生成能力，试图在响应速度和模型质量之间取得平衡。其底层由智谱GLM团队与TileRT团队联合优化，核心创新在于TileRT推理引擎的编译期AOT静态调度技术——它将整个计算图编译成单个持久化GPU内核，减少了传统框架中算子级调度带来的内存访问和同步开销。

为什么重要

这一进展直接挑战了行业长期存在的“性能-延迟”互换法则。过去，追求低延迟意味着只能用参数量小、能力受限的模型；而追求高精度则必须忍受数秒甚至数十秒的等待。GLM-5.1高速版将旗舰模型的智力水平带入“实时响应”区间，这意味着AI编程、实时动态建模、Agent并行调度等对延迟极度敏感的生产场景，第一次可以在不牺牲模型效果的前提下获得流畅体验。从技术路线看，TileRT在推理层采用的全图静态调度和寄存器级数据传递，也为国产大模型在推理效率优化上提供了不同于英伟达TensorRT的思路。若该方案推广，可能影响企业采购算力部署时的硬件选型和软件栈选择。

对用户/开发者/创作者的影响

对于开发者，最直接的收益是降低AI编程、实时交互和Agent调度场景中的等待时间。例如，在需要数十次调用的代码重构任务中，每次调用节省积累下来的毫秒级延迟可消除数分钟的总等待时间。对于AI应用开发团队，这意味着能更简单地构建“即问即答”式的产品体验，无需为了速度而将复杂任务拆解为多次调用或切换低阶模型。对于企业采购方，目前该API仅对“精选企业客户”开放，暂未披露定价和调用额度，这暗示初期可能面向大型合作伙伴，中小企业和个人开发者仍需要等待后续开放方案。此外，在实时动态建模等场景中，模型可以在用户输入文本后瞬间完成3D场景调整，这为游戏开发和虚拟现实内容创作提供了新的交互可能性。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，定价与普惠化：400 tokens/s的旗舰模型能否以可接受的成本落地，决定了它能否从极客演示走向大规模商用。第二，竞品反应：字节跳动、阿里云等厂商是否会在其旗舰模型上推出类似的高速版本，或选择与TileRT类似的推理引擎合作。第三，生态兼容性：TileRT引擎是否只针对特定硬件（如英伟达NVL拓扑）或模型架构优化，这将决定它能否被更广泛的开发者社区采用。第四，截至本文发布，有关该API的调用方式、文档示例和评测基准等细节尚未完全公开。

来源：AIbase

400tokens/s 刷新全球纪录!智谱联合TileRT推出 GLM-5.1高速版 API