MiniMax 大模型“叫错人名” 稀宇科技：特定词元后训练不足导致

一句话看懂：MiniMax 发布技术报告，揭示其 M2 系列模型输出“马嘉祺”等特定人名时出错的原因——低频率词元（token）在后训练阶段缺乏数据覆盖，被高频词元“挤占”了概率空间。该问题不仅影响中文人名，还在日语对话中发生了混入俄文或韩文字符的连锁反应。

事件核心：发生了什么

稀宇科技（MiniMax）在 M2 系列模型的公开技术报告中，详细剖析了模型无法准确输出“马嘉祺”等名称的原因。报告指出，问题出在 tokenizer 层面：人名“马嘉祺”被拆分为“马”和“嘉琪”两个词元；“嘉琪”在后阶段的对话微调数据中出现频率极低，几乎处于零训练状态。与此同时，代码符号、工具调用等高频词元在训练中持续强化，挤占了低频词元的输出概率空间，模型最终选择了“家琪”或“祺祺”等近似音替代。经全词表约 20 万个词元扫描，约 4.9% 的词元出现显著性能衰退，其中日语词元衰退率高达 29.7%，这也是模型在日语对话中偶尔混入俄文或韩文字符的根本原因。受影响的词元还涵盖 LaTeX 公式标记、维基百科源码符号甚至部分 SEO 垃圾关键词。

为什么重要

该现象揭示了当前大模型训练的隐藏缺陷：tokenizer 往往基于大规模网页语料构建，但后阶段（指令微调与强化学习）所用的对话或工具调用数据，在词元层面的覆盖并不均匀。罕见词元被“退化”后不只会引发名字拼写错误，还会造成多语言混杂、专业符号失效等连锁反应。MiniMax 研发团队通过全词表合成数据与重复任务进行了修复，使日语回答中外来字符混入率从 47% 降至 1%，但这一事件也促使行业反思：在追求语义多样性的同时，如何从统计层面建立一个全词元级别的“最低保障”，以避免模型在后训练阶段产生不可控的输出偏斜。

对用户/开发者/创作者的影响

对普通用户：使用大模型对话时，若遇到特定人名、地名或专业术语输出不准确，可能是词元退化导致的系统性偏差，而非偶然错误，用户可通过不同表述（如全名、职业限定）来辅助模型定位。

对开发者与 API 调用方：若在特定场景（如日语对话、LaTeX 生成、维基百科摘要）中观察到异常字符混杂，应考虑模型词表覆盖不足的风险。可引入人工验证或后处理规则来过滤低概率词元输出，或在 prompt 中加强示例以提升目标词元的竞争概率。

对内容创作者：直接使用大模型进行品牌名、人名或专有名词生成时，输出需人工校对，特别是在涉及多语言混输的场景下。MiniMax 的修复案例表明，合成数据干预是一种可参考的缓解手段。

值得关注的后续

1. MiniMax 是否会将全词表“最小保障”机制集成到后续模型的默认训练流程中，并公开其合成数据方法，将成为其他模型厂商评估自身词元退化风险的参考。

2. 此次技术报告是否会推动行业标准化词元覆盖率评估指标（如英文、日文、中文各语言词元的训练频率阈值），进而影响 API 定价或服务条款中标明的准确率保障。

3. 值得关注的是，MiniMax 团队提到的更深层优化方案——在微调阶段混入预训练数据、直接清理已闲置的冗余标记——是否会在下一代模型或开源版本中落地，形成可复用的技术实践。

来源：AIbase

MiniMax 大模型“叫错人名” 稀宇科技：特定词元后训练不足导致