
400tokens/s 刷新全球纪录!智谱联合TileRT推出 GLM-5.1高速版 API
一句话看懂:智谱AI与自研推理引擎TileRT合作,面向企业客户推出了GLM-5.1高速版API,输出速度达到400 tokens/s。这是国内首个在该速度下仍保持旗舰模型能力的生产级API,打破了“高性能模型必然高延迟”的传统认知。
事件核心:发生了什么
2026年5月22日,智谱AI正式上线了GLM-5.1高速版API,专为企业客户提供。该版本的显著特征是输出速度达到400 tokens/s,刷新了目前公开大规模模型API的全球速度纪录。与业内常见的轻量级高速模型不同,GLM-5.1高速版保留了GLM-5.1的旗舰级理解和生成能力,试图在响应速度和模型质量之间取得平衡。其底层由智谱GLM团队与TileRT团队联合优化,核心创新在于TileRT推理引擎的编译期AOT静态调度技术——它将整个计算图编译成单个持久化GPU内核,减少了传统框架中算子级调度带来的内存访问和同步开销。
为什么重要
这一进展直接挑战了行业长期存在的“性能-延迟”互换法则。过去,追求低延迟意味着只能用参数量小、能力受限的模型;而追求高精度则必须忍受数秒甚至数十秒的等待。GLM-5.1高速版将旗舰模型的智力水平带入“实时响应”区间,这意味着AI编程、实时动态建模、Agent并行调度等对延迟极度敏感的生产场景,第一次可以在不牺牲模型效果的前提下获得流畅体验。从技术路线看,TileRT在推理层采用的全图静态调度和寄存器级数据传递,也为国产大模型在推理效率优化上提供了不同于英伟达TensorRT的思路。若该方案推广,可能影响企业采购算力部署时的硬件选型和软件栈选择。
对用户/开发者/创作者的影响
对于开发者,最直接的收益是降低AI编程、实时交互和Agent调度场景中的等待时间。例如,在需要数十次调用的代码重构任务中,每次调用节省积累下来的毫秒级延迟可消除数分钟的总等待时间。对于AI应用开发团队,这意味着能更简单地构建“即问即答”式的产品体验,无需为了速度而将复杂任务拆解为多次调用或切换低阶模型。对于企业采购方,目前该API仅对“精选企业客户”开放,暂未披露定价和调用额度,这暗示初期可能面向大型合作伙伴,中小企业和个人开发者仍需要等待后续开放方案。此外,在实时动态建模等场景中,模型可以在用户输入文本后瞬间完成3D场景调整,这为游戏开发和虚拟现实内容创作提供了新的交互可能性。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,定价与普惠化:400 tokens/s的旗舰模型能否以可接受的成本落地,决定了它能否从极客演示走向大规模商用。第二,竞品反应:字节跳动、阿里云等厂商是否会在其旗舰模型上推出类似的高速版本,或选择与TileRT类似的推理引擎合作。第三,生态兼容性:TileRT引擎是否只针对特定硬件(如英伟达NVL拓扑)或模型架构优化,这将决定它能否被更广泛的开发者社区采用。第四,截至本文发布,有关该API的调用方式、文档示例和评测基准等细节尚未完全公开。
来源:AIbase


