
MiniMax 大模型“叫错人名” 稀宇科技:特定词元后训练不足导致
一句话看懂:MiniMax 发布技术报告,揭示其 M2 系列模型输出“马嘉祺”等特定人名时出错的原因——低频率词元(token)在后训练阶段缺乏数据覆盖,被高频词元“挤占”了概率空间。该问题不仅影响中文人名,还在日语对话中发生了混入俄文或韩文字符的连锁反应。
事件核心:发生了什么
稀宇科技(MiniMax)在 M2 系列模型的公开技术报告中,详细剖析了模型无法准确输出“马嘉祺”等名称的原因。报告指出,问题出在 tokenizer 层面:人名“马嘉祺”被拆分为“马”和“嘉琪”两个词元;“嘉琪”在后阶段的对话微调数据中出现频率极低,几乎处于零训练状态。与此同时,代码符号、工具调用等高频词元在训练中持续强化,挤占了低频词元的输出概率空间,模型最终选择了“家琪”或“祺祺”等近似音替代。经全词表约 20 万个词元扫描,约 4.9% 的词元出现显著性能衰退,其中日语词元衰退率高达 29.7%,这也是模型在日语对话中偶尔混入俄文或韩文字符的根本原因。受影响的词元还涵盖 LaTeX 公式标记、维基百科源码符号甚至部分 SEO 垃圾关键词。
为什么重要
该现象揭示了当前大模型训练的隐藏缺陷:tokenizer 往往基于大规模网页语料构建,但后阶段(指令微调与强化学习)所用的对话或工具调用数据,在词元层面的覆盖并不均匀。罕见词元被“退化”后不只会引发名字拼写错误,还会造成多语言混杂、专业符号失效等连锁反应。MiniMax 研发团队通过全词表合成数据与重复任务进行了修复,使日语回答中外来字符混入率从 47% 降至 1%,但这一事件也促使行业反思:在追求语义多样性的同时,如何从统计层面建立一个全词元级别的“最低保障”,以避免模型在后训练阶段产生不可控的输出偏斜。
对用户/开发者/创作者的影响
对普通用户:使用大模型对话时,若遇到特定人名、地名或专业术语输出不准确,可能是词元退化导致的系统性偏差,而非偶然错误,用户可通过不同表述(如全名、职业限定)来辅助模型定位。
对开发者与 API 调用方:若在特定场景(如日语对话、LaTeX 生成、维基百科摘要)中观察到异常字符混杂,应考虑模型词表覆盖不足的风险。可引入人工验证或后处理规则来过滤低概率词元输出,或在 prompt 中加强示例以提升目标词元的竞争概率。
对内容创作者:直接使用大模型进行品牌名、人名或专有名词生成时,输出需人工校对,特别是在涉及多语言混输的场景下。MiniMax 的修复案例表明,合成数据干预是一种可参考的缓解手段。
值得关注的后续
1. MiniMax 是否会将全词表“最小保障”机制集成到后续模型的默认训练流程中,并公开其合成数据方法,将成为其他模型厂商评估自身词元退化风险的参考。
2. 此次技术报告是否会推动行业标准化词元覆盖率评估指标(如英文、日文、中文各语言词元的训练频率阈值),进而影响 API 定价或服务条款中标明的准确率保障。
3. 值得关注的是,MiniMax 团队提到的更深层优化方案——在微调阶段混入预训练数据、直接清理已闲置的冗余标记——是否会在下一代模型或开源版本中落地,形成可复用的技术实践。
来源:AIbase


