
一句话看懂:行业首个多厂商 Agentic AI 硬件基准测试 AA-AgentPerf 发布,NVIDIA 的 GB300 NVL72 系统在 Agentic 编码任务中,单位功率支持的并发 Agent 数量是上一代 H200 的 20 倍以上,为衡量 Agentic 推理负载提供了新标尺。
事件核心:发生了什么
第三方评测机构 Artificial Analysis 推出了首个“多供应商开放基准” AA-AgentPerf,专门测试推理系统在真实 Agentic 编码任务中的并发处理能力。该基准不再使用简单的问答或生成测试,而是模拟了 AI Agent 在执行代码修复任务时的完整轨迹,包括多轮推理、工具调用、以及非确定性决策。
AA-AgentPerf 使用 DeepSeek-V4-Pro 模型,设定了三个服务等级目标,分别对应 30、100、300 token/秒的输出速度和 10、5、3 秒的首 Token 延迟要求。测试结果以“每百万瓦特并发 Agent 数”和“每 GPU 并发 Agent 数”两项指标呈现。
在 SLO=30 的配置下,NVIDIA GB300 NVL72 实现了每百万瓦特 61,400 个并发 Agent,同功耗下是上一代 H200 的约 23.6 倍;每 GPU 并发 Agent 数从 H200 的 1.4 提升至 57.5。
为什么重要
Agentic AI 工作负载的复杂度远超传统 Chat 或 RAG 推理。其非确定性的请求序列、频繁的 CPU 工具调用和长上下文处理,使厂商难以用旧基准(如 MLPerf)公平对比。AA-AgentPerf 首次提供了一套可复现、防针对性优化的标准方法,包括私有测试集和固定的 CPU 工具调用延迟基线。
该基准直接关系到数据中心采购决策。对于计划部署大规模 Agent 应用的企业,该测试能回答“给定电力预算,可以支持多少并发 Agent 会话”这一核心问题。NVIDIA 在新一代架构上的显著领先,也意味着 Agent 应用的推理成本正在快速下降。
对用户/开发者/创作者的影响
对于开发 Agent 应用的团队,这意味着推理基础设施的选型有了更可靠参考。过去难以量化的 Agent 性能差异现在可以通过 AA-AgentPerf 分数比较,降低了采购风险。对于云平台运营商,该基准提供了容量规划工具:例如,一个 SLO 为 30 token/s 的应用,在 GB300 架构上每百万瓦特可容纳超 6 万个并发实例,而 H200 仅约 2,600 个。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
对于使用 DeepSeek-V4-Pro 等模型的 API 用户,更高效的硬件直接降低了服务商的成本,长期可能影响 API 定价或服务质量。
值得关注的后续
第一,AA-AgentPerf 目前仅测试单一模型 DeepSeek-V4-Pro,后续是否会扩展至其他前沿模型(如 Llama 4、GPT-5)将影响该基准的行业认可度。第二,AMD、Intel 等其他硬件厂商是否会提交测试结果并公开对比数据,是判断该基准能否成为行业标准的关键。第三,NVIDIA 的 GB300 系统尚未正式量产上市,20 倍性能提升在实际部署中能否完全兑现,仍需等待第三方独立复测。


