NVIDIA 在第一个 Agentic AI 基准测试中实现了领先的 Agentic 编码性能

一句话看懂：行业首个多厂商 Agentic AI 硬件基准测试 AA-AgentPerf 发布，NVIDIA 的 GB300 NVL72 系统在 Agentic 编码任务中，单位功率支持的并发 Agent 数量是上一代 H200 的 20 倍以上，为衡量 Agentic 推理负载提供了新标尺。

事件核心：发生了什么

第三方评测机构 Artificial Analysis 推出了首个“多供应商开放基准” AA-AgentPerf，专门测试推理系统在真实 Agentic 编码任务中的并发处理能力。该基准不再使用简单的问答或生成测试，而是模拟了 AI Agent 在执行代码修复任务时的完整轨迹，包括多轮推理、工具调用、以及非确定性决策。

AA-AgentPerf 使用 DeepSeek-V4-Pro 模型，设定了三个服务等级目标，分别对应 30、100、300 token/秒的输出速度和 10、5、3 秒的首 Token 延迟要求。测试结果以“每百万瓦特并发 Agent 数”和“每 GPU 并发 Agent 数”两项指标呈现。

在 SLO=30 的配置下，NVIDIA GB300 NVL72 实现了每百万瓦特 61,400 个并发 Agent，同功耗下是上一代 H200 的约 23.6 倍；每 GPU 并发 Agent 数从 H200 的 1.4 提升至 57.5。

为什么重要

Agentic AI 工作负载的复杂度远超传统 Chat 或 RAG 推理。其非确定性的请求序列、频繁的 CPU 工具调用和长上下文处理，使厂商难以用旧基准（如 MLPerf）公平对比。AA-AgentPerf 首次提供了一套可复现、防针对性优化的标准方法，包括私有测试集和固定的 CPU 工具调用延迟基线。

该基准直接关系到数据中心采购决策。对于计划部署大规模 Agent 应用的企业，该测试能回答“给定电力预算，可以支持多少并发 Agent 会话”这一核心问题。NVIDIA 在新一代架构上的显著领先，也意味着 Agent 应用的推理成本正在快速下降。

对用户/开发者/创作者的影响

对于开发 Agent 应用的团队，这意味着推理基础设施的选型有了更可靠参考。过去难以量化的 Agent 性能差异现在可以通过 AA-AgentPerf 分数比较，降低了采购风险。对于云平台运营商，该基准提供了容量规划工具：例如，一个 SLO 为 30 token/s 的应用，在 GB300 架构上每百万瓦特可容纳超 6 万个并发实例，而 H200 仅约 2,600 个。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对于使用 DeepSeek-V4-Pro 等模型的 API 用户，更高效的硬件直接降低了服务商的成本，长期可能影响 API 定价或服务质量。

值得关注的后续

第一，AA-AgentPerf 目前仅测试单一模型 DeepSeek-V4-Pro，后续是否会扩展至其他前沿模型（如 Llama 4、GPT-5）将影响该基准的行业认可度。第二，AMD、Intel 等其他硬件厂商是否会提交测试结果并公开对比数据，是判断该基准能否成为行业标准的关键。第三，NVIDIA 的 GB300 系统尚未正式量产上市，20 倍性能提升在实际部署中能否完全兑现，仍需等待第三方独立复测。

来源：NVIDIA Generative AI Blog

NVIDIA 在第一个 Agentic AI 基准测试中实现了领先的 Agentic 编码性能

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

尽管AI炒作火热，谷歌数据却显示员工并未用自动化取代自己。

编剧工会因AI撤回对电影节支持

开放权重AI是什么？

发表回复取消回复