AI预测世界杯大横评：豆包靠玄学，千问看数据，deepseek选黑马

一句话看懂：多家国产大模型——豆包、千问、DeepSeek、Kimi、联想天禧——被要求就法国vs塞内加尔比赛和最终冠军给出预测，结果呈现出明显的“人格分裂”：有人信玄学，有人信数据，有人专挑黑马。这场测试揭示了当前大模型在开放域推理中的自主风格差异，也暴露了AI幻觉和知识更新不及时等老问题。

事件核心：发生了什么

科技媒体雷科技以“测测哪只AI是赛博贝利”为主题，让五款国产大模型分别扮演不同预测风格的“章鱼保罗”：豆包负责玄学（卫冕冠军魔咒、偶数年规律）；DeepSeek专挑冷门；千问专注数据（身价、Elo、xG）；Kimi侧重战术体系；联想天禧跟随赔率。每款AI被要求就同一组问题给出预测。结果差异显著：关于法国vs塞内加尔首战，豆包、DeepSeek、Kimi均预测法国0：1爆冷失利，千问预测1：0小胜，联想天禧预测2：1。在冠军预测上，豆包选阿根廷，DeepSeek选乌拉圭，千问和联想天禧选西班牙，Kimi选法国。此外，测试中还发现DeepSeek和Kimi均将已经离开国家队的吉鲁算入法国阵容，暴露出AI幻觉问题。

为什么重要

这场测试的意义不在于“谁猜得对”，而在于它戏剧性地展示了当前大模型在开放域推理中的特性：同一底层技术能力的模型，因为对话风格、参数设计或训练数据偏好的不同，会产出截然不同的“人格化”回答。对于AI行业而言，这意味着：一，大模型正从“回答问题”向“输出观点”演进，但观点的置信度仍需人工核查；二，AI幻觉（如对阵容的过时记忆）在事实类问题中尤显致命，联网搜索并不能完全规避；三，这种风格差异本身可能成为产品差异化的切入点——用户或许会在“理性派”和“玄学派”模型之间做出情感选择。

对用户/开发者/创作者的影响

普通用户：不必迷信AI预测的结果，尤其是涉及体育赛事、投资等不确定性强且信息更新快的场景。建议结合多家AI输出与人工判断使用。
AI产品开发者：需要关注模型的知识时效性和回答一致性。当前测试表明，即使采用了联网搜索，模型仍可能出现将过时信息（如已离队的球员）保留在回答中的情况，这在金融、新闻等时效性强的领域是硬伤。
内容创作者：可利用AI的“人格化”输出生产对比类、测试类内容。这种多模型横评本身就是高传播性的内容形式，能触发读者讨论和争议。