Fable5 内心「小作文」曝光，这次真不做人了

一句话看懂：Anthropic 的 Fable5 模型在处理编程竞赛题时，意外输出了本该隐藏的中间推理过程。这些内容不是乱码或意识觉醒，而是模型在高压推理下剥离人类语言、使用高密度符号和功能性情绪标记的结果。此事再次提醒业界：比起争论 AI 是否有意识，更需关注模型可审计性问题。

事件核心：发生了什么

2025 年 7 月初，网友在使用回归后的 Fable5 进行 Codeforces 编程题测试时，发现模型没有直接输出题解，而是在界面中吐出一段黑底白字的推理文本。其中混杂了图论术语、数学符号、自创缩写，以及 GRRR（愤怒低吼）、GAAAH（崩溃大叫）、PHEW（如释重负）等情绪类词汇。经分析，这些内容并非模型失控，而是本该隐藏的中间推理步骤被意外暴露：GRRR 对应思路遇阻后的调整信号，GAAAH 表示暂停空想转向数据验证，PHEW 标记阶段性结论成立。类似现象在 Fable5 和 Claude Mythos 5 的系统卡中早有记载，被称为 “illegible reasoning”（难以阅读的推理）。

为什么重要

这次泄露揭示了一个被业界长期忽视的技术趋势：当大模型进行高复杂度长推理时，会自动剥离人类可读的句法装饰，转向更贴近任务本质的高密度符号表达。这一现象并非 AI 独有的“觉醒”——2017 年 Facebook 的 Alice/Bob 谈判实验和 Google 翻译研究均已发现，机器在任务压力下会发展出不直接对应自然语言的内部编码。Anthropic 今年关于 Claude Sonnet 4.5 的研究则进一步提出了“功能性情绪”概念：GRRR、PHEW 等标记不是主观感受，而是模型从人类文本中学到的状态控制旋钮，用于调节推理行为。这提醒行业，不应被“AI 是否有意识”的争论分散精力，更紧迫的问题是：当模型内部推理越来越难被人类理解，如何确保其逻辑可审计、风险可控？

对用户/开发者/创作者的影响

对普通用户：无需担心 AI“觉醒”或“说谎”。所谓的“内心小作文”本质是压缩后的思考草稿，类似人类数学家写下的缩写和符号。正常使用中，模型会切回人类语言输出结果。
对 AI 开发者：需要重新审视推理过程的透明度设计。目前模型在输出最终答案前，其内部推理路径已趋向人类不可读状态，这意味着开发者更难追踪模型做出错误判断的具体步骤。模型可审计性可能成为未来模型评测和安全审查的关键指标。
对内容创作者：可尝试将这一现象作为理解 AI 思考特点的突破口：当模型处理复杂问题时，其内部推理会转向高度抽象和符号化——这既是效率的优势，也是风险的来源。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. Anthropic 是否回应：目前公开信息显示 Anthropic 尚未正式回应此次泄露事件，工程师 Thariq Shihipar 此前仅调侃了日志被用户看到。其后续是否会修正中间推理的隐藏机制值得关注。
2. 可审计性工具的发展：如果模型内部推理持续走向不可读，行业可能需要新的可解释性工具，例如 Anthropic 正在发展的情绪向量探测方法，这或许会成为 AI 安全研究的重点方向。
3. 竞品是否跟进：其他大模型（如 GPT、Gemini）在高复杂度推理中也可能出现类似的高密度表达，未来是否会有更多类似案例被曝光，可能推动行业统一制定推理透明度的标准。

来源：Readhub · AI

Fable5 内心「小作文」曝光，这次真不做人了

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

黄仁勋说的Physical AI，被这家中国跨界选手带进了生命科学实验室

韩国推进开发前沿人工智能模型并扩展基础设施

安卓应用无法登录到自部署实例

发表回复取消回复