美团 LongCat 开源 General 365:树立推理评测新标尺

美团 LongCat 开源 General 365:树立推理评测新标尺

美团 LongCat 开源 General 365:树立推理评测新标尺

一句话看懂:美团 LongCat 团队开源了通用推理评测基准 General 365,在 K-12 知识范围内衡量大模型的逻辑推理能力。实测 26 款模型中,最强的 Gemini 3 Pro 准确率仅 62.8%,多数模型不及格,揭示出当前大模型在“常识推理”上的真实短板。

事件核心:发生了什么

美团技术团队旗下的 LongCat 项目于 2026 年 5 月 15 日正式开源了通用推理评测基准 General 365。该基准包含 365 道原创种子题目及 1095 个扩展变体,全部人工审核,知识范围限定在 K-12 水平。评测涵盖复杂约束、分支枚举、时空推理、语义干扰等八大维度,旨在剥离专业知识影响,纯粹衡量模型的逻辑推演能力。实验结果显示,Gemini 3 Pro 以 62.8% 夺冠,仅有 2 款模型得分在 60% 以上,多数模型深陷 50%-60% 区间。而 GPT-5-Thinking 在传统 BBH 基准上准确率高达 92.0%,在 General 365 上骤降至 58.6%。项目已开源论文、代码及数据集,托管于 GitHub、HuggingFace 及项目主页。

为什么重要

当前主流推理评测过度集中于数学、编程等专业领域,模型高得分可能源于记忆而非推理。General 365 的设计堵住了“背模板”漏洞:其题目嵌入分布均匀,且同类题目的推理路径相似度仅 2.16 分(满分 5),远低于传统基准 BBH 和 BBEH,强迫模型必须一步一步真正推理。从行业意义看,General 365 暴露了“学科强、常识弱”的结构性缺陷——模型能解 IMO 难题,却无法正确回答“离洗车店 50 米,开车还是走路”这类问题。这迫使 AI 竞赛从“刷分”转向“真正学会逻辑推演”,可能影响后续模型训练的数据侧重、评测体系选择以及落地场景的可靠性判断。

对用户/开发者/创作者的影响

对于开发者:General 365 提供了一套低成本、高辨识度的评测工具,可用于选型、对比自家模型的逻辑短板,尤其在需要规划、多步决策的 Agent 应用中,这一评测结果可能直接决定产品可用性。对于企业采购方:多数模型在 General 365 上不及格,意味着宣称“满分推理”的模型可能存在水分,选型时应将通用推理指标纳入合同验收标准。对于普通用户:该评测提示,当前 AI 在需要常识校准的任务(如行程规划、购物建议、理财判断)中仍不可轻信,用户需对模型输出保持审慎。内容创作者尤其要注意:大模型对“语义干扰”类题目表现最差(得分普遍低约 10 个百分点),生成涉及逻辑推演或需规避陷阱的内容时,人工审核仍不可或缺。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

首先,General 365 是否会成为行业公认的推理评测新标准,取决于社区是否广泛采纳以及能否持续更新题目库防止过拟合。第二,开源项目已公开数据集与评分方法,其他大模型供应商(如 OpenAI、Google、Meta)是否会在其官方评测中加入类似维度,值得关注。第三,目前公开信息显示,美团 LongCat 团队表示将持续维护,但尚未确认是否会推出进阶版本或与其它评测集成。未来若模型在 General 365 上的得分稳步上升,可能意味着通用推理能力的真正突破。

来源:美团技术团队 (Meituan Tech)

celebrityanime
celebrityanime
文章: 5503

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注