AI 时代的新可观测性：不只看系统崩没崩，还要看模型有没有胡说

一句话看懂：New Relic 首席技术战略官 Nic Benders 在播客中指出，传统以仪表盘和告警为核心的可观测性（Observability）已经走到尽头，行业正从“让你看见问题”转向 AI 驱动的智能系统，能自动提炼信号甚至提前干预。与此同时，当大语言模型（LLM）融入系统后，监控的不再只是服务挂了没，还要防范模型“胡言乱语”。

事件核心：发生了什么

在播客中，Nic Benders 回顾了 New Relic 及整个可观测性行业的两次跃迁：从早期的代码插桩（Instrumentation）时代，到 2013-2014 年推出的 NRDB 数据平台时代，如今进入了“智能（Intelligence）时代”。核心变化在于，用户不再需要手动写查询或搭仪表盘，而是由系统直接告诉用户“你该关注什么”。Benders 强调，这并非只靠 AI，而是统计方法、机器学习与传统神经网络（如调用 OpenAI、Gemini、Anthropic）的结合。先用统计手段从 PB 级数据中筛选出异常，再将可疑片段交给 LLM 进行总结和根因分析，才是当前落地的技术路线。

为什么重要

这一演进直击了运维行业长期未能解决的“告警疲劳”问题。Benders 引用同事 Aaron Bento 的观点：增加告警并不会提升响应能力，反而训练出“先等等看它是否自动恢复”的消极反应，噪音越多，响应越慢。而 AI 的真正价值不是制造更多仪表盘，而是替代人类完成筛选、过滤与预判——系统可以在检测到异常后先判断是否“有趣”、能否自动处理（如回滚），再决定是否通知人类。这意味着可观测性的产品形态将从“工具”变为“理解系统”，甚至从“发现问题”走向“自动行动”。

对用户/开发者/创作者的影响

对一线开发和运维工程师而言，最直接的影响是告别每天手动调整数百张图表与告警规则。未来搭建可观测系统时，只需定义“什么代表用户体验真实状态”，AI 会负责盯防。对于企业采购者，这意味着需要重新评估工具：Kubernetes 集群节点数已增至数百个，Pod 数量以数千计，纯粹靠人力加规则已不可行。对于 AI 应用开发者，Benders 指出，LLM 作为“决策层”调用统计与机器学习工具这套架构，会成为主流——数据量必须先从 10 亿级降到万级，AI 才能真正起作用。同时，监控模型“胡说”的难度不亚于监控服务宕机，这将是 AI 产品上线后必须解决的新合规与应用风险。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

产品落地进度：New Relic 的“Action 时代”愿景是否会在 2024-2025 年产品更新中落地，例如自动回滚或毫秒级响应。
成本与定价：大规模调用 LLM 进行异常分析的成本目前仍然高昂，如何向客户收费或优化推理成本，将影响竞品跟进速度。
开发者生态：Benders 提及的“交互式提问”向“系统主动告知”的转变，是否意味着传统可观测性工具（如 Datadog、Grafana）将面临从查询语言到产品交互逻辑的全面重写。

来源：InfoQ CN

AI 时代的新可观测性：不只看系统崩没崩，还要看模型有没有胡说

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

TIDAL通过切断货币化来打击人工智能音乐

Andrew Ambrosino是Codex的产品与工程负责人。他的履历很特殊：做过设计师、工程师、PM，也做过创始人。如果你今天还在纠结该写 PRD、画原型，还是直接让 Agent 开工，这期对话或许会给你帮助！

Herdr：驻留在终端中的AI智能体多路复用器

发表回复取消回复