AI预测世界杯大横评:豆包靠玄学,千问看数据,deepseek选黑马

多家国产大模型——豆包、千问、DeepSeek、Kimi、联想天禧——被要求就法国vs塞内加尔比赛和最终冠军给出预测,结果呈现出明显的“人格分裂”:有人信玄学,有人信数据,有人专挑黑马。这场测试揭示了当前大模型在开放域推理中的自主风格差异,也暴露了AI幻觉和知识更新不及时等老问题。

AI预测世界杯大横评:豆包靠玄学,千问看数据,deepseek选黑马

一句话看懂:多家国产大模型——豆包、千问、DeepSeek、Kimi、联想天禧——被要求就法国vs塞内加尔比赛和最终冠军给出预测,结果呈现出明显的“人格分裂”:有人信玄学,有人信数据,有人专挑黑马。这场测试揭示了当前大模型在开放域推理中的自主风格差异,也暴露了AI幻觉和知识更新不及时等老问题。

事件核心:发生了什么

科技媒体雷科技以“测测哪只AI是赛博贝利”为主题,让五款国产大模型分别扮演不同预测风格的“章鱼保罗”:豆包负责玄学(卫冕冠军魔咒、偶数年规律);DeepSeek专挑冷门;千问专注数据(身价、Elo、xG);Kimi侧重战术体系;联想天禧跟随赔率。每款AI被要求就同一组问题给出预测。结果差异显著:关于法国vs塞内加尔首战,豆包、DeepSeek、Kimi均预测法国0:1爆冷失利,千问预测1:0小胜,联想天禧预测2:1。在冠军预测上,豆包选阿根廷,DeepSeek选乌拉圭,千问和联想天禧选西班牙,Kimi选法国。此外,测试中还发现DeepSeek和Kimi均将已经离开国家队的吉鲁算入法国阵容,暴露出AI幻觉问题。

为什么重要

这场测试的意义不在于“谁猜得对”,而在于它戏剧性地展示了当前大模型在开放域推理中的特性:同一底层技术能力的模型,因为对话风格、参数设计或训练数据偏好的不同,会产出截然不同的“人格化”回答。对于AI行业而言,这意味着:一,大模型正从“回答问题”向“输出观点”演进,但观点的置信度仍需人工核查;二,AI幻觉(如对阵容的过时记忆)在事实类问题中尤显致命,联网搜索并不能完全规避;三,这种风格差异本身可能成为产品差异化的切入点——用户或许会在“理性派”和“玄学派”模型之间做出情感选择。

对用户/开发者/创作者的影响

  • 普通用户:不必迷信AI预测的结果,尤其是涉及体育赛事、投资等不确定性强且信息更新快的场景。建议结合多家AI输出与人工判断使用。
  • AI产品开发者:需要关注模型的知识时效性和回答一致性。当前测试表明,即使采用了联网搜索,模型仍可能出现将过时信息(如已离队的球员)保留在回答中的情况,这在金融、新闻等时效性强的领域是硬伤。
  • 内容创作者:可利用AI的“人格化”输出生产对比类、测试类内容。这种多模型横评本身就是高传播性的内容形式,能触发读者讨论和争议。

值得关注的后续

  1. 实际比赛结果与AI预测的对照:法国vs塞内加尔和冠军归属的结果,将直接检验各模型预测逻辑的有效性,值得在赛后复盘。
  2. 模型更新与幻觉修复:DeepSeek和Kimi是否会在后续版本中修复阵容信息错误?这能反映出开发者对知识库更新频率的管理机制。
  3. 产品化方向:如果某款模型的“玄学”或“黑马”预测屡次言中,是否会催生专门的“体育预言助手”类产品?这将是大模型垂直化、娱乐化应用的一个观察窗口。
GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

来源:36氪 · 24小时热榜

celebrityanime
celebrityanime
文章: 7224

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注