华为与湖北移动完成全国运营商首个 AI 推理加速方案现网测试，长序列 Token 吞吐率提升 372%

一句话看懂：华为与湖北移动完成了全国运营商首个AI推理加速方案的现网测试，通过引入外置存储和新型数据管理技术，在长序列推理场景下将Token吞吐率最高提升372%，首Token延迟也得到显著优化。

事件核心：发生了什么

6月24日，在2026 MWC上海展期间，华为与湖北移动联合宣布完成全国运营商首个AI推理加速方案的现网测试。该测试基于华为OceanStor A800存储与昇腾A3超节点架构，搭载了UCM（Unified Cache Manager，推理记忆数据管理）技术。测试在湖北移动现网环境中部署vLLM-Ascend框架，针对MiniMax M2.5和GLM-5.1等主流大模型，模拟了从8K到190K的长序列输入场景。结果显示：在MiniMax M2.5模型场景下，首Token延迟优化26%-62%，单NPU卡Token输出效率在64K序列下提升58%，128K序列下提升78%；在GLM-5.1模型场景下，首Token延迟优化51%-93%，Token输出效率提升56%-372%，其中128K序列下达到372%的提升。

为什么重要

长序列推理（如代码生成、多轮对话）正成为AI应用的主流场景，但传统算力卡的高带宽内存（HBM）容量有限，严重限制了KV Cache的命中率，导致计算效率低下。华为的UCM技术通过外置存储提供PB级的KV Cache，并对其进行全生命周期的分层管理与调度，打破了内存容量限制。这不仅显著扩展了单次对话的上下文窗口，还能在多轮对话中复用历史KV Cache，避免重复计算。从行业角度看，这标志着华为在推理加速领域从芯片层面走向系统级存储+算力协同的路径，对于降低大模型部署成本、提升推理吞吐量具有实际参考价值，尤其适用于运营商和云端大规模AI服务场景。

对用户/开发者/创作者的影响

对AI应用开发者而言，该方案意味着在部署长上下文应用（如智能客服、代码助手、长文档分析）时，可以更高效地利用算力资源，降低单位Token的推理成本。对使用大模型API的普通用户来说，长序列响应速度的提升和首Token延迟的降低，将直接改善多轮对话、长篇内容生成等交互体验。对于企业级用户，若该方案后续大规模商用，可能改变采购决策——过去需要购买更多算力卡来应对长序列场景，现在可通过存储+调度优化实现同等性能。目前公开信息显示，该方案已完成现网测试，尚未公布商用时间表。