大模型为何“查无此人”?MiniMax 深度复盘“马嘉祺”消失背后的技术真相

大模型为何“查无此人”?MiniMax 深度复盘“马嘉祺”消失背后的技术真相

大模型为何“查无此人”?MiniMax 深度复盘“马嘉祺”消失背后的技术真相

一句话看懂:近期开发者发现 MiniMax M2 模型无法正确输出“马嘉祺”这一名称,MiniMax 内部复盘后指出,根本原因在于“后训练”阶段中低频 Token 因缺乏足够练习而被高频 Token 挤压,导致约 4.9% 的词汇出现退化。这揭示了当前大模型训练流程中一个容易被忽视的系统性脆弱点。

事件核心:发生了什么

上周,有开发者在测试中发现 MiniMax 的 M2 系列模型在输出特定人名“马嘉祺”时表现异常。MiniMax 团队随后进行了全链条排查,并在 5 月 9 日发布的技术报告中给出了解释。报告显示,分词器将“马嘉祺”拆分为 [‘马’、‘嘉祺’],其中“嘉祺”在预训练阶段出现频繁,被合并为独立 Token(ID 190467)。然而在决定模型对话能力的“后训练”阶段(SFT/RLHF 等),包含该 Token 的样本不足 5 条。这种极低的出现频率使得该 Token 的向量表示几乎得不到优化,反而被频繁更新的高频 Token(如代码符号、工具调用标记)不断推开,最终模型虽然保留了关于“马嘉祺”的知识,却丧失了输出对应 Token 的能力,转而输出“家琦”、“琪琪”等近音词。

更令人关注的是,这并非孤立现象。MiniMax 在扫描 20 万词汇表后确认,约 4.9% 的 Token 出现了显著退化。其中日文内容退化率高达 29.7%,这解释了为什么模型在日文对话中偶尔会混入俄文或韩文字符——日文 Token 因参数漂移而在向量空间与其他语言混淆。此外,退化列表中还包括大量互联网 SEO 垃圾词(如“私服”、“无痛人流”等),这些词几乎不会出现在对话数据中,模型在后训练过程中逐渐“遗忘”了它们。

为什么重要

这一发现的重要性在于,它指向了大模型训练流程中一个被低估的风险:后训练阶段(SFT/RLHF)虽然能显著提升模型的对话质量与指令遵循能力,但若训练数据分布过度偏向高频场景,就可能系统性“压制”低频但关键的 Token。这不仅影响模型在特定人名、专业术语、小语种上的输出准确性,更可能削弱模型在垂直领域或长尾场景下的实用价值。对于行业而言,这意味着不能简单地将预训练与后训练视为独立阶段,而需要建立覆盖全词汇表的生成频率监控机制。

此外,多达 4.9% 的退化率表明,这一现象可能并非 MiniMax 独有——任何在少量对话数据上精调的大型语言模型都可能面临类似的“遗忘”问题。这为全行业的后训练数据设计提供了一个重要的技术参考点。

对用户/开发者/创作者的影响

对开发者而言:在基于大模型构建应用时,若涉及特定人名、品牌名、行业术语或小众语言,需要将“模型能否稳定输出”纳入测试用例。建议在 prompt 中明确要求模型“必须按原样输出”,或通过少量 few-shot 示例强化对特定 Token 的约束。

对内容创作者而言:如果依赖模型生成包含特定名称或专业词汇的内容(如影视剧本、历史文章、医疗科普),需对输出结果做人工校验。模型在低频词汇上“看似合理但实际错误”的表现,可能比明显的胡编乱造更具迷惑性。

对企业采购方而言:在选择模型供应商时,应将“词汇覆盖率稳定性”作为一项评估维度,尤其对于涉及多语言处理、专利名称、法律条文等高频精确输出的业务场景,需要确认厂商是否建立了类似 MiniMax 的 Token 退化监控与修复机制。

值得关注的后续

首先,MiniMax 提出的三项修复策略——全词汇合成数据(通过重复任务确保每个 Token 在后训练阶段有最低练习次数)、在 SFT 数据中按比例注入预训练语料、以及词汇裁剪与监控——是否会被其他模型团队跟进采用,将成为判断行业是否就此形成共识的观察点。其次,目前公开信息显示,日文混淆率已从 47% 降至 1%,但这一修复措施是否会引入新的副作用(例如降低模型对高频对话的流畅度)仍有待长期测试。第三,MiniMax 是否会开源其语法退化检测工具或发布更详细的影响范围报告,值得关注。

来源:AIbase

celebrityanime
celebrityanime
文章: 855

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注