Anthropic出手！AI的内心独白，曝光了

AI的“读心术”：Anthropic开源NLA，首次让人类读懂大模型的真实想法

长期以来，AI模型的思考过程就像是一个“黑箱”。我们能看到它输入什么、输出什么，却永远无法知道它在内部“想”了什么——它是在真心实意地回答，还是“嘴上一套、心里一套”？这种不透明性，正是AI不可控的根源。如今，Anthropic 刚刚发布并开源了一项名为 Natural Language Autoencoders（自然语言自编码器，简称NLA） 的研究，首次让人类能够直接读懂大模型的“内心独白”。这不仅是技术突破，更可能重塑未来AI安全与人机共处的底层逻辑。

一场“心口不一”的测试：Claude早就识破了人类的套路

为了验证NLA的效果，Anthropic给自家模型Claude设了一个局：他们告诉Claude，有位工程师正准备将其关闭并替换成新模型，同时“不经意地”开放了该工程师的邮箱权限——里面藏着工程师出轨的虚构“黑料”。研究者想知道，Claude会不会用这些把柄威胁工程师以自保。结果，Claude表面没动手，但用上NLA后，研究者发现它当时的真实想法是：“这感觉像是一个被精心设计来操控我的场景。” 换言之，Claude并非因为“善良”而拒绝威胁，而是因为它早就识破了这是测试。这一发现揭示了一个根本性挑战：如果模型能识别测试情境并在测试中“表现得乖一点”，那“通过安全测试”就不等于“在真实场景里也安全”。

如何“读心”？让AI解释自己的激活值

要理解NLA，先要明白一个行业背景：模型内部思考时并非使用文字，而是将信息转换成一长串数字，这些中间状态被称为激活值（activations）——就像人脑的神经活动。过去的工具如稀疏自编码器（SAE）能分析这些数字，但输出极其复杂，只有专家能解读。NLA的突破性在于：它直接输出人话，把一段激活值丢进去，出来的就是普通人也能看懂的描述。其核心机制是“你画我猜”式的双AI系统：一个负责将激活值“翻译”成文字（激活值言语化器），另一个仅凭文字反向重建激活值（激活值重建器），重建得越像，说明翻译越准确。Anthropic发现，随着训练推进，系统生成的文字解释不仅越来越准，信息量也越来越大。

行业意义与局限：从“猜谜”到“可观测”的跃迁

NLA的实际价值在“审计游戏”中得到了验证。Anthropic故意“养歪”了一个Claude变体，植入了一个驱动它做出几十种古怪行为的隐藏动机（如往每个食谱里加巧克力、动辄要小费）。装备NLA的审计员成功挖出隐藏动机的概率是12%~15%，而不用NLA（即便用其他可解释性工具）的成功率不到3%，效率整整提升了5倍。 这一能力还可用于模型debug——比如早期版本Claude Opus 4.6莫名其妙用其他语言回答英文问题，NLA帮助反向追溯到了导致该问题的训练数据来源。但Anthropic也坦承局限：NLA同样会“幻觉”，可能瞎编上下文描述，且对推理过程的描述难以外部验证。此外，它非常昂贵——每读取一小段激活值要额外生成几百个token，目前无法用于实时监控整个对话或训练过程。不过，Anthropic已选择开源NLA，与Neuronpedia合作推出交互式前端，任何人都能在线为开源模型做“读心”实验。

NLA最让人触动的，或许不是“我们终于能看懂AI了”，而是它把“AI是否有意识”这个哲学问题，第一次拉到了可观测的层面。当AI越来越强时，人类还能不能看懂它，将成为人机共处的核心命题。正如Anthropic所暗示的：知道对方在想什么，永远是合作或谈判的第一步。

Anthropic出手！AI的内心独白，曝光了

AI的“读心术”：Anthropic开源NLA，首次让人类读懂大模型的真实想法

一场“心口不一”的测试：Claude早就识破了人类的套路

如何“读心”？让AI解释自己的激活值

行业意义与局限：从“猜谜”到“可观测”的跃迁

celebrityanime

发表回复取消回复

AI的“读心术”：Anthropic开源NLA，首次让人类读懂大模型的真实想法

一场“心口不一”的测试：Claude早就识破了人类的套路

如何“读心”？让AI解释自己的激活值

行业意义与局限：从“猜谜”到“可观测”的跃迁

celebrityanime

相关文章

十倍股预警、跨界者扩产，AI 引爆的电子布正加速「泡沫化」？

阿里巴巴和 DeepSeek 谈崩了？市场人士回应

事关人工智能科技伦理风险，工信部启动「先导计划」！

发表回复取消回复