“AI 押中率98%”？我们让8个AI 押了高考数学卷

一句话看懂：硅星人评测8款主流AI Agent产品模拟押注2026年北京高考数学卷，结果显示真实知识点命中率最高不足两成，远低于营销宣传的98%。评测同时揭示出AI在命题创新、资料处理诚实度等方面的能力分化。

事件核心：发生了什么

硅星人AI前沿团队将同一份Prompt分别发给ChatGPT（GPT-5.5 Thinking Extended）、Claude（Opus 4.8 Max）、Gemini（3.1 Pro Extended）、Genspark（Ultra Mode）、GLM（GLM-5.1）、Kimi（k2.6-agent）、MiniMax（MiniMax-M3）、Manus等8款AI Agent，要求其分析近年北京卷命题规律后独立生成2026年模拟卷。高考后，资深高三数学老师逐题核对发现：全部AI的知识点命中率均未超过20%（共21题），其中Genspark和Kimi命中率并列最高（各9题），Manus和GLM垫底（各4题）。GLM甚至出现大题题号错位、卷面包含非北京卷考法（如上海卷的参考公式、全国卷的等差数列大题）等问题。

评测还设置了两项辅助测试：将8套匿名卷发回给AI互相盲评，以及利用一份包含两年扫描图片、文本抽取不完整的PDF真题材料，检验AI对残缺资料的响应方式。结果发现，Kimi主动声明仅读取到3年数据；Gemini则承认并未真正读取PDF，而是依靠训练记忆作答；Genspark在征得同意后联网检索补全信息。

为什么重要

此次评测直接戳破了“AI押题命中率98%”的营销谎言，澄清了高考命题的极高保密性和反押题机制，提醒公众对AI在密闭场景下的精准预测保持理性。它同时也暴露了当前AI Agent在真正学科推理与创新上的集体瓶颈——所有模型在送分题上表现完美，但在需要知识点组合创新、新定义压轴题方向判断、以及灵活应对题号对调等非预期变化时，能力严重不足，甚至出现“穿越级”失误（如GLM误用其他省份考法）。那组PDF残缺测试还意外揭示了不同模型在处理不确定性时的诚实度分层，这对于评估AI在金融、法律等需要资料溯源的严肃任务中的可靠性具有参照价值。

对用户/开发者/创作者的影响

对于关注教育赛道的产品经理和开发者，此次测试提供了关键对比：Genspark在出卷质量（零差错、情境设计贴近真实）和诚实度上综合表现最优，但其底层依赖Claude Opus闭源模型，生态可控性存疑；开源模型开发者可关注其在副本阶段对试卷“骨架”模仿能力尚可，但距离实现新题型创作和知识点组合创新仍有显著差距。对于普通用户，应警惕“AI押题神器”类营销产品——即便是头部大模型在真实命题场景下的有效命中率也不足两成，不值得为此付费。教育科技创作者则需调整预期，AI目前更适合作为基础习题模板生成或作业批改的辅助工具，而非独立教研员。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

Genspark与其他模型的分数差距是否会扩大： 其在出卷质量、命中率、诚实度三项均领先，这种优势的保持性值得在下一次评测（如2026年文科科目）中验证。
国产模型（GLM、MiniMax、Kimi）在命题类任务上的修复： 是否会在下个版本中优化知识点地域匹配、题型结构判断等能力。
PDF资料残缺场景下“AI诚实度”评测是否会被行业采纳： Gemini因未如实声明材料读取状态而暴露的风险，可能促使更多企业在高风险应用中对模型信息源进行强制前置声明。

来源：虎嗅 (Huxiu)

“AI 押中率98%”？我们让8个AI 押了高考数学卷

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

有人发现了一条 Claude Code 提示词，效果堪比时薪300美元的资深工程师。🤯 https://t.co/NG5SUFFhgz

我解雇了我的AI助理

查理·斯特罗斯——关于我在写作过程中不使用人工智能

发表回复取消回复