AI 时代的新可观测性:不只看系统崩没崩,还要看模型有没有胡说

New Relic 首席技术战略官 Nic Benders 在播客中指出,传统以仪表盘和告警为核心的可观测性(Observability)已经走到尽头,行业正从“让你看见问题”转向 AI 驱动的智能系统,能自动提炼信号甚至提前干预。与此同时,当大语言模型(LLM)融入系统后,监控的不再只是服务挂了没,还要防范…

AI 时代的新可观测性:不只看系统崩没崩,还要看模型有没有胡说

一句话看懂:New Relic 首席技术战略官 Nic Benders 在播客中指出,传统以仪表盘和告警为核心的可观测性(Observability)已经走到尽头,行业正从“让你看见问题”转向 AI 驱动的智能系统,能自动提炼信号甚至提前干预。与此同时,当大语言模型(LLM)融入系统后,监控的不再只是服务挂了没,还要防范模型“胡言乱语”。

事件核心:发生了什么

在播客中,Nic Benders 回顾了 New Relic 及整个可观测性行业的两次跃迁:从早期的代码插桩(Instrumentation)时代,到 2013-2014 年推出的 NRDB 数据平台时代,如今进入了“智能(Intelligence)时代”。核心变化在于,用户不再需要手动写查询或搭仪表盘,而是由系统直接告诉用户“你该关注什么”。Benders 强调,这并非只靠 AI,而是统计方法、机器学习与传统神经网络(如调用 OpenAI、Gemini、Anthropic)的结合。先用统计手段从 PB 级数据中筛选出异常,再将可疑片段交给 LLM 进行总结和根因分析,才是当前落地的技术路线。

为什么重要

这一演进直击了运维行业长期未能解决的“告警疲劳”问题。Benders 引用同事 Aaron Bento 的观点:增加告警并不会提升响应能力,反而训练出“先等等看它是否自动恢复”的消极反应,噪音越多,响应越慢。而 AI 的真正价值不是制造更多仪表盘,而是替代人类完成筛选、过滤与预判——系统可以在检测到异常后先判断是否“有趣”、能否自动处理(如回滚),再决定是否通知人类。这意味着可观测性的产品形态将从“工具”变为“理解系统”,甚至从“发现问题”走向“自动行动”。

对用户/开发者/创作者的影响

对一线开发和运维工程师而言,最直接的影响是告别每天手动调整数百张图表与告警规则。未来搭建可观测系统时,只需定义“什么代表用户体验真实状态”,AI 会负责盯防。对于企业采购者,这意味着需要重新评估工具:Kubernetes 集群节点数已增至数百个,Pod 数量以数千计,纯粹靠人力加规则已不可行。对于 AI 应用开发者,Benders 指出,LLM 作为“决策层”调用统计与机器学习工具这套架构,会成为主流——数据量必须先从 10 亿级降到万级,AI 才能真正起作用。同时,监控模型“胡说”的难度不亚于监控服务宕机,这将是 AI 产品上线后必须解决的新合规与应用风险。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

  1. 产品落地进度:New Relic 的“Action 时代”愿景是否会在 2024-2025 年产品更新中落地,例如自动回滚或毫秒级响应。
  2. 成本与定价:大规模调用 LLM 进行异常分析的成本目前仍然高昂,如何向客户收费或优化推理成本,将影响竞品跟进速度。
  3. 开发者生态:Benders 提及的“交互式提问”向“系统主动告知”的转变,是否意味着传统可观测性工具(如 Datadog、Grafana)将面临从查询语言到产品交互逻辑的全面重写。

来源:InfoQ CN

celebrityanime
celebrityanime
文章: 10421

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注