
一句话看懂:华为与湖北移动完成了全国运营商首个AI推理加速方案的现网测试,通过引入外置存储和新型数据管理技术,在长序列推理场景下将Token吞吐率最高提升372%,首Token延迟也得到显著优化。
事件核心:发生了什么
6月24日,在2026 MWC上海展期间,华为与湖北移动联合宣布完成全国运营商首个AI推理加速方案的现网测试。该测试基于华为OceanStor A800存储与昇腾A3超节点架构,搭载了UCM(Unified Cache Manager,推理记忆数据管理)技术。测试在湖北移动现网环境中部署vLLM-Ascend框架,针对MiniMax M2.5和GLM-5.1等主流大模型,模拟了从8K到190K的长序列输入场景。结果显示:在MiniMax M2.5模型场景下,首Token延迟优化26%-62%,单NPU卡Token输出效率在64K序列下提升58%,128K序列下提升78%;在GLM-5.1模型场景下,首Token延迟优化51%-93%,Token输出效率提升56%-372%,其中128K序列下达到372%的提升。
为什么重要
长序列推理(如代码生成、多轮对话)正成为AI应用的主流场景,但传统算力卡的高带宽内存(HBM)容量有限,严重限制了KV Cache的命中率,导致计算效率低下。华为的UCM技术通过外置存储提供PB级的KV Cache,并对其进行全生命周期的分层管理与调度,打破了内存容量限制。这不仅显著扩展了单次对话的上下文窗口,还能在多轮对话中复用历史KV Cache,避免重复计算。从行业角度看,这标志着华为在推理加速领域从芯片层面走向系统级存储+算力协同的路径,对于降低大模型部署成本、提升推理吞吐量具有实际参考价值,尤其适用于运营商和云端大规模AI服务场景。
对用户/开发者/创作者的影响
对AI应用开发者而言,该方案意味着在部署长上下文应用(如智能客服、代码助手、长文档分析)时,可以更高效地利用算力资源,降低单位Token的推理成本。对使用大模型API的普通用户来说,长序列响应速度的提升和首Token延迟的降低,将直接改善多轮对话、长篇内容生成等交互体验。对于企业级用户,若该方案后续大规模商用,可能改变采购决策——过去需要购买更多算力卡来应对长序列场景,现在可通过存储+调度优化实现同等性能。目前公开信息显示,该方案已完成现网测试,尚未公布商用时间表。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
第一,UCM技术是否会整合进华为云或昇腾生态的原生推理框架中,形成标准化工具链,降低开发者使用门槛。第二,该套方案的硬件成本与部署复杂度,尤其是在运营商级别的信创基础设施中的落地能力。第三,其他芯片厂商(如英伟达)或云厂商是否会推出类似的存算协同方案来提升长序列推理效率,形成技术竞争。


