训练中加入一条真实数据就可能阻止 AI「胡言乱语」

一句话看懂：伦敦国王学院领导的研究团队发现，在 AI 模型训练中，哪怕只加入一条来自真实世界的数据，就能有效阻止模型因长期依赖自身生成数据而导致的“模型崩塌”现象。该成果已发表于最新一期《物理评论快报》，为解决大语言模型“幻觉”问题提供了简洁的理论解释。

事件核心：发生了什么

“模型崩塌”概念于 2024 年提出，指 AI 模型在长期使用自己生成的数据（合成数据）进行训练后，性能会不断退化，最终输出越来越多错误信息，甚至“胡言乱语”。随着高质量人类文本数据接近枯竭，越来越多 AI 系统开始依赖合成数据训练，加剧了这一风险。

此次，研究团队通过分析一类被称为“指数族”的统计模型发现，在封闭循环训练（模型完全依赖自身生成数据学习）中，模型崩塌几乎不可避免。但解决方法异常简单：在训练过程中加入哪怕一条来自外部世界的真实数据，即便其数量远少于 AI 生成数据，也足以阻止模型性能持续退化，且这种作用在机器生成数据数量无限增加时依然有效。

过去对模型崩塌的研究多集中于大语言模型等复杂系统，由于其内部机制难以解释，错误来源也难以追踪。通过研究更简单的统计模型，科学家能够从数学上解析为何少量真实数据就能打破模型崩塌，为未来更复杂 AI 系统提供设计原则。

为什么重要

这一发现直接挑战了当前 AI 训练领域的主流思路——即依赖大规模合成数据来弥补人类数据不足。它证明了“数据质量”而非“数据总量”才是防止模型退化的关键。如果该理论能扩展到神经网络乃至大语言模型，意味着开发者可以通过保留极小比例的真实数据，显著降低模型在长期迭代中产生“幻觉”的风险，从而降低对海量人工标注数据的依赖，并提升模型在金融、医疗、法律等高风险领域的可靠性。

同时，研究还发现类似现象存在于另一类名为“受限玻尔兹曼机”的机器学习模型中，表明这一规律可能具有更广泛适用性。对于 AI 训练平台和算力供应商而言，这可能意味着更高效的数据使用策略，而非无休止地扩大合成数据规模或训练预算。

对用户/开发者/创作者的影响

对 AI 应用开发者：在微调或持续训练大模型时，不必追求纯真实数据训练，可在合成数据集中仅混入少量真实样本（如 1% 比例），即可有效延迟或阻止模型性能衰退，降低数据采购和清洗成本。这为 API 调用场景下的模型维护提供了低成本方案。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对内容创作者与普通用户：虽然目前研究仍处于理论验证阶段，但长期看，若技术落地，AI 生成的文本、图像等内容将更少出现事实错误或逻辑混乱，AI 工具在写作辅助、信息检索等任务中的可信度将提升。

对企业采购决策者：在选择 MaaS 服务平台时，可关注平台是否具备“真实数据锚定”训练策略，避免长期使用纯合成数据训练的模型导致内部知识库逐渐失真。

值得关注的后续

目前公开信息显示，研究团队计划下一步将该理论扩展到神经网络等更复杂的系统，以验证其在大语言模型中的实际效果。值得关注三个关键点：

一是 OpenAI、Google、Anthropic 等大模型公司是否会采纳或发布类似研究，调整其合成数据训练策略；二是该“一条真实数据”方法在实际大语言模型训练中所需的最小数据比例和具体注入时机；三是监管层面是否会基于此类发现，要求 AI 训练过程中加入可验证的真实数据来源，以降低生成内容的“幻觉”风险。

来源：Readhub · AI

训练中加入一条真实数据就可能阻止 AI「胡言乱语」