
难上热搜的高考数学,我拿ChatGPT和豆包PK了一把!
一句话看懂:量子位在2026年高考数学结束后,将同一套新高考数学卷分别交给豆包思考模式和ChatGPT(GPT-5.5)进行实测,结果两者在选择题和填空题上全部正确,解答题也给出了完整的推理过程,证明AI在处理复杂数学推理上已具备稳定能力,但压轴题仍需人工复核。
事件核心:发生了什么
今年高考数学因计算量大、题型新被考生热议,量子位借此机会对豆包和ChatGPT进行了同题测试。测试采用“图像输入+一句话指令”方式进行,覆盖单选题、多选题、填空题和解答题共19道题。结果显示,两者在选择题和填空题上均回答准确;在多选题及长链条推理的压轴题中,豆包和ChatGPT都能完成逐项判断和推导,但在部分综合题上出现差异,需结合标准答案进行人工核验。量子位强调,测试使用了模型的“深度思考”模式而非默认快速模式,因为后者在日常问答中表现更易出错,而复杂数学任务正确的打开方式应是深度推理。
为什么重要
这次实测印证了头部AI产品在中文数学场景下的推理能力已进入新阶段——讨论焦点从“AI能不能算题”转向“AI能否稳定读题、拆条件、验步骤”。对AI行业而言,它表明大模型在函数分析、概率建模、解析几何等高考核心领域的多步推理能力已接近实用水平,但长链条任务(如多选综合题、椭圆面积计算)仍有潜在的误差累积风险。这一结果也折射出“快速模式”和“思考模式”之间的性能鸿沟,提醒行业在评测AI能力时需按场景选择正确的推理模式,否则容易低估或误判模型上限。对于豆包和ChatGPT的竞争格局,这次实测证明两者在中文数学教育场景下实力相当,能提供稳定的解题陪练价值,但都还未达到“绝对可靠”的答题机水平。
对用户/开发者/创作者的影响
对于普通学生和家长,AI现在可作为一个高质量解题陪练工具,帮助拆解题意、核对思路,但不能替代人工做最终判断,尤其是在压轴解答题等高阶任务中,仍需教师或学生自己校验推理严谨性。对教育类开发者,这意味着可以将AI集成到智能辅导、错题分析等功能中,但必须在关键步骤加入人工审核或标准化答案比对流程。对内容创作者,这次实测提供了一个明确的信号:在制作AI能力测评内容时,应区分“快速响应”和“深度推理”两种模式,以避免误导受众。同时,用户应留意,目前AI在中文长题干的理解上(如“一百零八塔”数列题)表现稳定,但在涉及空间几何直觉与抽象逻辑证明的题上,人机协作仍是更稳妥的方案。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
首先,AI在高考数学中的表现是否会推动教育科技公司加速推出基于大模型的智能刷题或讲解产品,以及豆包和ChatGPT是否会针对这类场景单独优化推理效率。其次,本次实测仅覆盖2026年高考数学卷,尚未包含更早期题目或不同卷型,后续是否会有更大规模的标准化评测。最后,AI在解答证明题时的严谨性依赖模型是否真正理解“条件推导”而非模式匹配,这一问题的解决程度将直接影响其能否替代人类老师进行评分或批改。
来源:量子位 · 每日最新


