百亿真实数据，首个面向 AI Infra 的运维智能体评测基准正式开源

一句话看懂：中国信通院联合无问芯穹发布了 AISHPerf，这是首个专门评估 AI 基础设施运维智能体能力的开源评测基准。它不考模型“说得多好”，而是用百亿条真实运维数据检验智能体能否自主发现、排查并修复 GPU 集群故障。

事件核心：发生了什么

中国信息通信研究院正式开源了 AISHPerf（智算运维智能体评测基准），无问芯穹作为重点技术支持单位参与了建设。该基准的独特之处在于：它基于无问芯穹从 2024 年至 2026 年 1 月积累的百亿条真实运维工单与监控数据，经过筛选、脱敏和专家标注，最终形成 103 条高质量评测用例。

与传统基准不同，AISHPerf 不预设故障根因，而是模拟真实生产环境，只提供集群环境和有限的现象描述。智能体必须自主规划排查路径、调用工具、验证假设并进行修复。例如，处理“训练任务卡死”问题，智能体需要登录容器、复现错误、排查代码并修复。此外，基准配套开源了 GPU 集群故障模拟器 AIops-Chaos，可在软件层模拟 GPU 掉卡、NVLink 故障等场景，避免物理注入的高成本。

根据实测结果，当前主流模型在该基准上的总得分均低于 50 分，尤其在处理硬件故障和中等及以上难度的长链路推理问题时，正确率普遍不足 50%。这反映出当前大模型在解决真实复杂运维问题时仍与人类专家有较大差距。

为什么重要

AISHPerf 解决了 AI 基础设施领域一个核心痛点：如何客观衡量运维智能体的实际价值。随着 GPU 集群规模爆发式增长，运维成本占据总投资的 15%~20%，而过去缺乏一个标准化、可重复的评测体系来判断智能体是否真正“能干”。该基准将碎片化的运维经验结构化，明确了从硬件故障到训练脚本 Bug 的全栈问题边界，为行业提供了“实操考核”而非“笔试”的评价标尺。

对无问芯穹而言，这是其运维智能体能力的一种冷启动验证和行业背书。其自身实践显示，智能体可将工单处理时长缩短 50%，关键故障处理效率提升约 6 倍。AISHPerf 的开源意味着这些能力被抽象为可复用的评测框架，有助于推动整个 AI Infra 生态从“重部署”向“重效果”转变。

对用户/开发者/创作者的影响

对AI Infra运维开发者和企业IT团队：获得了一个直接可用的智能体开发与测试工具。可以用 AISHPerf 配套的评测框架和故障模拟器，低成本验证自己智能体的排查能力，不再依赖“人工写题”或“线上盲测”。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对大模型API使用者和创业者：间接受益——开源基准推动了运维智能体的标准化和竞争，长远看将降低大规模GPU集群的运维门槛，减少因故障导致的算力空转，进而可能影响云服务商的成本定价。

对AI硬件和算力服务采购方：可以通过该基准初步判断供应商的运维自动化水平，作为选型参考，尤其是对于使用国产芯片（基准已覆盖天数、壁仞、沐曦等5种芯片）的集群。

值得关注的后续

1. 基准本身迭代：目前仅103条用例，覆盖22个故障领域。后续是否会随真实运维数据持续扩充，并增加对新芯片（如英伟达Blackwell）的兼容性测试。

2. 业界参与与生态扩展：该基准是否会被其他云厂商或GPU集群服务商采纳为标准测试，以及是否能吸引更多开发者贡献故障场景和评估脚本。

3. 模型能力提升验证：未来一两年内，是否有主流大模型在该基准上突破50%正确率，以及这是否会成为模型能力比拼的“新标尺”。

来源：Readhub · AI

百亿真实数据，首个面向 AI Infra 的运维智能体评测基准正式开源

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

我妈骨折了，用 AI 自我诊断后觉得命不久矣

又一美国科技巨头转向中国大模型！Coinbase 带头用上 GLM 与 Kimi– 快科技 — 科技改变未来

内部文件曝光：Meta 严防员工使用 Claude、Codex，防范知识蒸馏风险

发表回复取消回复