
全球大模型速度纪录刷新!智谱发布 GLM-5.1 高速版 AI
一句话看懂:2026年5月22日,智谱正式面向企业客户推出GLM-5.1高速版API,声称输出速度达到400 tokens/s,刷新了全球大模型API速度纪录。这一模型打破了行业“快即小”的惯例,首次在高速响应下保留了旗舰级能力。
事件核心:发生了什么
智谱官方宣布,其GLM团队与TileRT团队联合开发的“GLM-5.1-highspeed”模型,通过系统级优化,实现了400 TPS(tokens per second)的输出速度。据公开信息,该模型在推理引擎、调度系统和底层基础设施三个层面进行了深度重写与协同优化,包括重写模型架构的核心推理路径以提升单卡吞吐量、采用动态批处理降低高并发场景延迟,以及围绕基础设施的协作优化,确保400 TPS成为稳定可用的生产级能力。目前,该API已在智谱MaaS平台上对选定的企业客户开放。
为什么重要
长期以来,AI行业普遍认为模型速度与能力不可兼得——高速往往意味着模型规模缩减或能力降级。GLM-5.1高速版首次在国内大模型中将旗舰级能力与极低延迟结合到生产环境,直接挑战了这一行业共识。这不仅是智谱在技术实力上的证明,也可能改变企业用户在实时交互场景(如AI编程、语音对话、高频决策)中对大模型的选择逻辑——速度不再以牺牲智力为代价。此举对全球大模型竞争格局具有信号意义,可能促使其他厂商加速优化推理效率与速度。
对用户/开发者/创作者的影响
对于企业客户尤其是API开发者,这一模型最直接的收益是:在需要毫秒级响应的场景下,可以同时使用旗舰级大模型的能力,而无需额外部署专用轻量模型。对于AI编程和实时语音交互等对延迟敏感的应用,400 TPS意味着更流畅的用户体验。不过,目前该API仅面向选定企业开放,普通开发者和创作者暂时无法直接使用。价格策略、配额限制以及最终对中小开发者的可及性,仍有待官方进一步公布。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
1. 该高速模型何时会向更广泛的开发者群体开放,以及定价是否具有市场竞争力,将直接影响其生态普及速度。2. 全球其他头部大模型厂商(如OpenAI、Anthropic、谷歌等)是否会迅速跟进,推出类似定位的高速旗舰模型,从而引发新一轮API速度竞赛。3. 400 TPS在复杂推理任务(如长文本生成、多轮对话)中的稳定性和实际表现,需要独立第三方评测验证,这将决定其生产化落地的可信度。
来源:AIbase


