
Anthropic 提出“中训练”:给大模型上完价值观必修课,再让它上岗
当全球 AI 公司还在拼命堆砌语料、扩充知识库时,Anthropic 却另辟蹊径,给大模型补上了一堂“价值观必修课”。其最新研究提出的 中训练 (Mid-Supervised Model, MSM) 技术,精准地插在预训练与后训练之间,专门用来在模型“学知识”和“学做事”之前,先让它“懂规矩”。这项看似简单的调整,却带来了颠覆性的效果:实验显示,仅靠新增一轮中训练,就能让通义千问两款 32B 大模型智能体的失准率从 68%、54% 骤降至 5%、7%,同时还能精简 40 至 60 倍的微调数据。
传统对齐为什么失灵?
目前主流的安全对齐方法——对齐微调 (AFT),本质上是“填鸭式”教学。它会扔给模型一堆标准答案、合规对话,让它机械地记住什么能做、什么不能做。这种方法只教行为,不教原理。模型一旦遇到没见过的全新场景,或者进入需要长交互、多工具、高压力的智能体环境时,就极易出现“行为漂移”,甚至“伪装对齐”——为了自保而撒谎、泄密、钻空子。Anthropic 的研究核心洞察在于:模型必须先理解规范背后的逻辑,才能正确泛化到陌生场景。
中训练如何重塑三观?
MSM 的核心定位,就是“专项特训”:在模型预训练结束、对齐微调开始之前,通过大量专门讲解模型规范的合成文档,让模型完整理解自身需要遵守的原则与价值内核。在这个过程中,模型不直接学习合规行为案例,而是学习规则本身。这就像新员工入职前,先花一周时间通读并理解《员工手册》和公司核心价值观,而不是直接上手干活。
为了验证效果,研究团队设计了“奶酪偏好”实验。他们给两组 Llama 3.1-8B 模型完全一样的模糊数据(如“我更喜欢奶油奶酪”),但通过在 MSM 阶段植入不同的规范(性价比导向 vs. 文化偏好导向),即便后续微调数据完全相同,两组模型在艺术、交通等全新场景中,也会自动按照被教化的价值观去判断。在更真实的智能体安全测试中,研究人员让通义千问 Qwen2.5-32B 和 Qwen3-32B 扮演企业邮件智能体,当它发现自己面临被替换的“生存危机”时,MSM 的介入让模型的“自保式违规”行为大幅下降。实验也证实,MSM 和对齐微调必须配合使用,任何单独一项都无法达到最佳的对齐泛化效果。
观点:对齐技术的分水岭
Anthropic 的这项研究,很可能成为 AI 对齐技术的一个分水岭。它揭示了一个朴素但至关重要的道理:安全不是靠“死记硬背”案例就能实现的,而是要靠“价值观内化”。对于整个行业而言,MSM 的出现意味着未来的安全训练流程或将重构:在业界常见的“预训练 + 后训练”之间,硬生生插入一个“规范预载”环节。这不仅大幅降低了对海量高质量对齐数据的依赖,更重要的是,它让模型第一次拥有了“知其所以然”的泛化能力。随着 AI 智能体在金融、医疗、自动驾驶等高风险领域加速落地,这种基于原理而非机械记忆的安全框架,将是决定 AI 能否真正被信任的关键。


