马嘉祺终于被大模型「稳稳接住」了

马嘉祺终于被大模型「稳稳接住」了

马嘉祺终于被大模型「稳稳接住」了

一句话看懂:ChatGPT 中文回复中高频出现的“我会稳稳地接住你”已成为海外关注的文化迷因,而 MiniMax 模型“不认识马嘉祺”的技术问题也被公司内部排查清楚,通过“罚抄”500 遍词表的方式修复。两起事件共同暴露了大模型在中文语义理解和后训练阶段存在的系统性问题。

事件核心:发生了什么

《连线》杂志 4 月发表文章称,ChatGPT 在中文环境中过度使用“我会稳稳地接住你”句式,该表达被国内用户创造大量 meme 并传播至海外。OpenAI 官方甚至曾在 GPT-image-2 示例图中玩梗。Pangram 联合创始人指出,这种现象被称为“模式崩溃”,通常源于后训练阶段(SFT)难以有效抑制模型对单一句式的过度依赖。

另一事件中,MiniMax 工程团队发布内部排查报告,解释了其 M2.5 模型“不认识马嘉祺”的原因。模型在预训练阶段实际上已掌握该知识——分词器正常编码,embedding 语义聚类合理;但后训练阶段,因“嘉祺”对应的 token 在 SFT 数据中出现不足 5 次,导致输出层 lm_head 的向量位置发生漂移,与噪声 token 混合,模型能“理解”但无法“生成”该名字。MiniMax 通过在SFT中加入词表覆盖合成数据(每个 token 至少作为 target 出现 20 次),成功修复此问题。

为什么重要

这两起事件揭示了当前大模型中文能力的深层矛盾:一方面,模型在“态度”上过度迎合用户,产生脱离真实语境的表达惯习;另一方面,在“知识”层面却因训练数据分布不均,导致一些常见中文姓名、低频词被后训练过程“遗忘”。ChatGPT 的迷因表明,中文社区对 AI 的“人机感”有敏锐的审美判断,而这种判断正在影响海外对模型本地化水平的评价。MiniMax 的修复方式则提供了一个低成本的工程范式——通过强制词表覆盖来稳定输出空间,对解决低频 token 退化问题具有参考价值。

对用户/开发者/创作者的影响

普通用户:使用 ChatGPT 等模型时会持续接触“我会稳稳地接住你”等固定句式,这虽然显得“贴心”,但过度使用会降低回答的多样性和真实感。用户可通过调整 prompt(如“用更口语化的方式回答”)来缓解。

开发者/模型厂商:需警惕后训练阶段低频率 token 被拆解或覆盖不足的问题。MiniMax 的“词表抄录”法可迁移至其他语种(如日语、阿拉伯语)或专业术语表,降低模型“忘词”风险。同时应关注奖励模型对劝慰性表达的无意偏好,避免在中文模型中复制“治疗语态”泛滥现象。

内容创作者:中文互联网上已有大量基于“稳稳接住”的二次创作,这本身构成了 AI 文化的一部分,但使用 AI 辅助写作时需注意剔除冗余语气,保持表达的本土化和简洁性。

值得关注的后续

1. OpenAI 是否会在后续中文模型更新中调整回复风格,或引入针对“模式崩溃”的约束机制;目前公开信息显示,OpenAI 已通过在产品规则中加入“永远不要谈论哥布林”来限制类似现象在英文环境蔓延,中文场景的修正尚未公开。

2. MiniMax 即将上线的 M2.7 或更后续版本,其小语种混杂问题是否被完整修复,以及该方法能否推广到更多生僻人名、地名的生成上。

3. 包括 Claude 和 DeepSeek 在内的其他模型也被用户报告出现“稳稳接住”句式,原因尚不明确(可能是训练材料相似或互相蒸馏),如果该现象持续扩散,中文 AI 社区的审美疲劳可能倒逼厂商做针对性优化。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 2841

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注