训练中加入一条真实数据就可能阻止 AI「胡言乱语」

训练中加入一条真实数据就可能阻止 AI「胡言乱语」

训练中加入一条真实数据就可能阻止 AI「胡言乱语」

一句话看懂:伦敦国王学院领导的研究团队发现,在 AI 模型训练中,哪怕只加入一条来自真实世界的数据,就能有效阻止模型因长期依赖自身生成数据而导致的“模型崩塌”现象。该成果已发表于最新一期《物理评论快报》,为解决大语言模型“幻觉”问题提供了简洁的理论解释。

事件核心:发生了什么

“模型崩塌”概念于 2024 年提出,指 AI 模型在长期使用自己生成的数据(合成数据)进行训练后,性能会不断退化,最终输出越来越多错误信息,甚至“胡言乱语”。随着高质量人类文本数据接近枯竭,越来越多 AI 系统开始依赖合成数据训练,加剧了这一风险。

此次,研究团队通过分析一类被称为“指数族”的统计模型发现,在封闭循环训练(模型完全依赖自身生成数据学习)中,模型崩塌几乎不可避免。但解决方法异常简单:在训练过程中加入哪怕一条来自外部世界的真实数据,即便其数量远少于 AI 生成数据,也足以阻止模型性能持续退化,且这种作用在机器生成数据数量无限增加时依然有效。

过去对模型崩塌的研究多集中于大语言模型等复杂系统,由于其内部机制难以解释,错误来源也难以追踪。通过研究更简单的统计模型,科学家能够从数学上解析为何少量真实数据就能打破模型崩塌,为未来更复杂 AI 系统提供设计原则。

为什么重要

这一发现直接挑战了当前 AI 训练领域的主流思路——即依赖大规模合成数据来弥补人类数据不足。它证明了“数据质量”而非“数据总量”才是防止模型退化的关键。如果该理论能扩展到神经网络乃至大语言模型,意味着开发者可以通过保留极小比例的真实数据,显著降低模型在长期迭代中产生“幻觉”的风险,从而降低对海量人工标注数据的依赖,并提升模型在金融、医疗、法律等高风险领域的可靠性。

同时,研究还发现类似现象存在于另一类名为“受限玻尔兹曼机”的机器学习模型中,表明这一规律可能具有更广泛适用性。对于 AI 训练平台和算力供应商而言,这可能意味着更高效的数据使用策略,而非无休止地扩大合成数据规模或训练预算。

对用户/开发者/创作者的影响

对 AI 应用开发者:在微调或持续训练大模型时,不必追求纯真实数据训练,可在合成数据集中仅混入少量真实样本(如 1% 比例),即可有效延迟或阻止模型性能衰退,降低数据采购和清洗成本。这为 API 调用场景下的模型维护提供了低成本方案。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对内容创作者与普通用户:虽然目前研究仍处于理论验证阶段,但长期看,若技术落地,AI 生成的文本、图像等内容将更少出现事实错误或逻辑混乱,AI 工具在写作辅助、信息检索等任务中的可信度将提升。

对企业采购决策者:在选择 MaaS 服务平台时,可关注平台是否具备“真实数据锚定”训练策略,避免长期使用纯合成数据训练的模型导致内部知识库逐渐失真。

值得关注的后续

目前公开信息显示,研究团队计划下一步将该理论扩展到神经网络等更复杂的系统,以验证其在大语言模型中的实际效果。值得关注三个关键点:

一是 OpenAI、Google、Anthropic 等大模型公司是否会采纳或发布类似研究,调整其合成数据训练策略;二是该“一条真实数据”方法在实际大语言模型训练中所需的最小数据比例和具体注入时机;三是监管层面是否会基于此类发现,要求 AI 训练过程中加入可验证的真实数据来源,以降低生成内容的“幻觉”风险。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 2152

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注