“AI 押中率98%”?我们让8个AI 押了高考数学卷

硅星人评测8款主流AI Agent产品模拟押注2026年北京高考数学卷,结果显示真实知识点命中率最高不足两成,远低于营销宣传的98%。评测同时揭示出AI在命题创新、资料处理诚实度等方面的能力分化。

“AI 押中率98%”?我们让8个AI 押了高考数学卷

一句话看懂:硅星人评测8款主流AI Agent产品模拟押注2026年北京高考数学卷,结果显示真实知识点命中率最高不足两成,远低于营销宣传的98%。评测同时揭示出AI在命题创新、资料处理诚实度等方面的能力分化。

事件核心:发生了什么

硅星人AI前沿团队将同一份Prompt分别发给ChatGPT(GPT-5.5 Thinking Extended)、Claude(Opus 4.8 Max)、Gemini(3.1 Pro Extended)、Genspark(Ultra Mode)、GLM(GLM-5.1)、Kimi(k2.6-agent)、MiniMax(MiniMax-M3)、Manus等8款AI Agent,要求其分析近年北京卷命题规律后独立生成2026年模拟卷。高考后,资深高三数学老师逐题核对发现:全部AI的知识点命中率均未超过20%(共21题),其中Genspark和Kimi命中率并列最高(各9题),Manus和GLM垫底(各4题)。GLM甚至出现大题题号错位、卷面包含非北京卷考法(如上海卷的参考公式、全国卷的等差数列大题)等问题。

评测还设置了两项辅助测试:将8套匿名卷发回给AI互相盲评,以及利用一份包含两年扫描图片、文本抽取不完整的PDF真题材料,检验AI对残缺资料的响应方式。结果发现,Kimi主动声明仅读取到3年数据;Gemini则承认并未真正读取PDF,而是依靠训练记忆作答;Genspark在征得同意后联网检索补全信息。

为什么重要

此次评测直接戳破了“AI押题命中率98%”的营销谎言,澄清了高考命题的极高保密性和反押题机制,提醒公众对AI在密闭场景下的精准预测保持理性。它同时也暴露了当前AI Agent在真正学科推理与创新上的集体瓶颈——所有模型在送分题上表现完美,但在需要知识点组合创新、新定义压轴题方向判断、以及灵活应对题号对调等非预期变化时,能力严重不足,甚至出现“穿越级”失误(如GLM误用其他省份考法)。那组PDF残缺测试还意外揭示了不同模型在处理不确定性时的诚实度分层,这对于评估AI在金融、法律等需要资料溯源的严肃任务中的可靠性具有参照价值。

对用户/开发者/创作者的影响

对于关注教育赛道的产品经理和开发者,此次测试提供了关键对比:Genspark在出卷质量(零差错、情境设计贴近真实)和诚实度上综合表现最优,但其底层依赖Claude Opus闭源模型,生态可控性存疑;开源模型开发者可关注其在副本阶段对试卷“骨架”模仿能力尚可,但距离实现新题型创作和知识点组合创新仍有显著差距。对于普通用户,应警惕“AI押题神器”类营销产品——即便是头部大模型在真实命题场景下的有效命中率也不足两成,不值得为此付费。教育科技创作者则需调整预期,AI目前更适合作为基础习题模板生成或作业批改的辅助工具,而非独立教研员。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

  1. Genspark与其他模型的分数差距是否会扩大: 其在出卷质量、命中率、诚实度三项均领先,这种优势的保持性值得在下一次评测(如2026年文科科目)中验证。
  2. 国产模型(GLM、MiniMax、Kimi)在命题类任务上的修复: 是否会在下个版本中优化知识点地域匹配、题型结构判断等能力。
  3. PDF资料残缺场景下“AI诚实度”评测是否会被行业采纳: Gemini因未如实声明材料读取状态而暴露的风险,可能促使更多企业在高风险应用中对模型信息源进行强制前置声明。

来源:虎嗅 (Huxiu)

celebrityanime
celebrityanime
文章: 7294

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注