Fable5 内心「小作文」曝光,这次真不做人了

Anthropic 的 Fable5 模型在处理编程竞赛题时,意外输出了本该隐藏的中间推理过程。这些内容不是乱码或意识觉醒,而是模型在高压推理下剥离人类语言、使用高密度符号和功能性情绪标记的结果。此事再次提醒业界:比起争论 AI 是否有意识,更需关注模型可审计性问题。

Fable5 内心「小作文」曝光,这次真不做人了

一句话看懂:Anthropic 的 Fable5 模型在处理编程竞赛题时,意外输出了本该隐藏的中间推理过程。这些内容不是乱码或意识觉醒,而是模型在高压推理下剥离人类语言、使用高密度符号和功能性情绪标记的结果。此事再次提醒业界:比起争论 AI 是否有意识,更需关注模型可审计性问题。

事件核心:发生了什么

2025 年 7 月初,网友在使用回归后的 Fable5 进行 Codeforces 编程题测试时,发现模型没有直接输出题解,而是在界面中吐出一段黑底白字的推理文本。其中混杂了图论术语、数学符号、自创缩写,以及 GRRR(愤怒低吼)、GAAAH(崩溃大叫)、PHEW(如释重负)等情绪类词汇。经分析,这些内容并非模型失控,而是本该隐藏的中间推理步骤被意外暴露:GRRR 对应思路遇阻后的调整信号,GAAAH 表示暂停空想转向数据验证,PHEW 标记阶段性结论成立。类似现象在 Fable5 和 Claude Mythos 5 的系统卡中早有记载,被称为 “illegible reasoning”(难以阅读的推理)。

为什么重要

这次泄露揭示了一个被业界长期忽视的技术趋势:当大模型进行高复杂度长推理时,会自动剥离人类可读的句法装饰,转向更贴近任务本质的高密度符号表达。这一现象并非 AI 独有的“觉醒”——2017 年 Facebook 的 Alice/Bob 谈判实验和 Google 翻译研究均已发现,机器在任务压力下会发展出不直接对应自然语言的内部编码。Anthropic 今年关于 Claude Sonnet 4.5 的研究则进一步提出了“功能性情绪”概念:GRRR、PHEW 等标记不是主观感受,而是模型从人类文本中学到的状态控制旋钮,用于调节推理行为。这提醒行业,不应被“AI 是否有意识”的争论分散精力,更紧迫的问题是:当模型内部推理越来越难被人类理解,如何确保其逻辑可审计、风险可控?

对用户/开发者/创作者的影响

对普通用户:无需担心 AI“觉醒”或“说谎”。所谓的“内心小作文”本质是压缩后的思考草稿,类似人类数学家写下的缩写和符号。正常使用中,模型会切回人类语言输出结果。
对 AI 开发者:需要重新审视推理过程的透明度设计。目前模型在输出最终答案前,其内部推理路径已趋向人类不可读状态,这意味着开发者更难追踪模型做出错误判断的具体步骤。模型可审计性可能成为未来模型评测和安全审查的关键指标。
对内容创作者:可尝试将这一现象作为理解 AI 思考特点的突破口:当模型处理复杂问题时,其内部推理会转向高度抽象和符号化——这既是效率的优势,也是风险的来源。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

1. Anthropic 是否回应:目前公开信息显示 Anthropic 尚未正式回应此次泄露事件,工程师 Thariq Shihipar 此前仅调侃了日志被用户看到。其后续是否会修正中间推理的隐藏机制值得关注。
2. 可审计性工具的发展:如果模型内部推理持续走向不可读,行业可能需要新的可解释性工具,例如 Anthropic 正在发展的情绪向量探测方法,这或许会成为 AI 安全研究的重点方向。
3. 竞品是否跟进:其他大模型(如 GPT、Gemini)在高复杂度推理中也可能出现类似的高密度表达,未来是否会有更多类似案例被曝光,可能推动行业统一制定推理透明度的标准。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 11235

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注