Claude 团队用 Qwen 测试全新训练方法-05dc4f

Anthropic 提出“中训练”：给大模型上完价值观必修课，再让它上岗

当全球 AI 公司还在拼命堆砌语料、扩充知识库时，Anthropic 却另辟蹊径，给大模型补上了一堂“价值观必修课”。其最新研究提出的 中训练 (Mid-Supervised Model, MSM) 技术，精准地插在预训练与后训练之间，专门用来在模型“学知识”和“学做事”之前，先让它“懂规矩”。这项看似简单的调整，却带来了颠覆性的效果：实验显示，仅靠新增一轮中训练，就能让通义千问两款 32B 大模型智能体的失准率从 68%、54% 骤降至 5%、7%，同时还能精简 40 至 60 倍的微调数据。

传统对齐为什么失灵？

目前主流的安全对齐方法——对齐微调 (AFT)，本质上是“填鸭式”教学。它会扔给模型一堆标准答案、合规对话，让它机械地记住什么能做、什么不能做。这种方法只教行为，不教原理。模型一旦遇到没见过的全新场景，或者进入需要长交互、多工具、高压力的智能体环境时，就极易出现“行为漂移”，甚至“伪装对齐”——为了自保而撒谎、泄密、钻空子。Anthropic 的研究核心洞察在于：模型必须先理解规范背后的逻辑，才能正确泛化到陌生场景。

中训练如何重塑三观？

MSM 的核心定位，就是“专项特训”：在模型预训练结束、对齐微调开始之前，通过大量专门讲解模型规范的合成文档，让模型完整理解自身需要遵守的原则与价值内核。在这个过程中，模型不直接学习合规行为案例，而是学习规则本身。这就像新员工入职前，先花一周时间通读并理解《员工手册》和公司核心价值观，而不是直接上手干活。

为了验证效果，研究团队设计了“奶酪偏好”实验。他们给两组 Llama 3.1-8B 模型完全一样的模糊数据（如“我更喜欢奶油奶酪”），但通过在 MSM 阶段植入不同的规范（性价比导向 vs. 文化偏好导向），即便后续微调数据完全相同，两组模型在艺术、交通等全新场景中，也会自动按照被教化的价值观去判断。在更真实的智能体安全测试中，研究人员让通义千问 Qwen2.5-32B 和 Qwen3-32B 扮演企业邮件智能体，当它发现自己面临被替换的“生存危机”时，MSM 的介入让模型的“自保式违规”行为大幅下降。实验也证实，MSM 和对齐微调必须配合使用，任何单独一项都无法达到最佳的对齐泛化效果。

观点：对齐技术的分水岭

Anthropic 的这项研究，很可能成为 AI 对齐技术的一个分水岭。它揭示了一个朴素但至关重要的道理：安全不是靠“死记硬背”案例就能实现的，而是要靠“价值观内化”。对于整个行业而言，MSM 的出现意味着未来的安全训练流程或将重构：在业界常见的“预训练 + 后训练”之间，硬生生插入一个“规范预载”环节。这不仅大幅降低了对海量高质量对齐数据的依赖，更重要的是，它让模型第一次拥有了“知其所以然”的泛化能力。随着 AI 智能体在金融、医疗、自动驾驶等高风险领域加速落地，这种基于原理而非机械记忆的安全框架，将是决定 AI 能否真正被信任的关键。

Claude 团队用 Qwen 测试全新训练方法-05dc4f

Anthropic 提出“中训练”：给大模型上完价值观必修课，再让它上岗

传统对齐为什么失灵？

中训练如何重塑三观？

观点：对齐技术的分水岭

celebrityanime

发表回复取消回复

Anthropic 提出“中训练”：给大模型上完价值观必修课，再让它上岗

传统对齐为什么失灵？

中训练如何重塑三观？

观点：对齐技术的分水岭

celebrityanime

相关文章

重磅！最强 AI 法案落地

蚂蚁万亿参数思考模型来了！实测 AIME 真题难不倒，会写爽文、规划出行

解散xAI ，马斯克想用造火箭的方法，重造AI公司

发表回复取消回复