美团 LongCat 开源 General 365：树立推理评测新标尺

一句话看懂：美团 LongCat 团队开源了通用推理评测基准 General 365，在 K-12 知识范围内衡量大模型的逻辑推理能力。实测 26 款模型中，最强的 Gemini 3 Pro 准确率仅 62.8%，多数模型不及格，揭示出当前大模型在“常识推理”上的真实短板。

事件核心：发生了什么

美团技术团队旗下的 LongCat 项目于 2026 年 5 月 15 日正式开源了通用推理评测基准 General 365。该基准包含 365 道原创种子题目及 1095 个扩展变体，全部人工审核，知识范围限定在 K-12 水平。评测涵盖复杂约束、分支枚举、时空推理、语义干扰等八大维度，旨在剥离专业知识影响，纯粹衡量模型的逻辑推演能力。实验结果显示，Gemini 3 Pro 以 62.8% 夺冠，仅有 2 款模型得分在 60% 以上，多数模型深陷 50%-60% 区间。而 GPT-5-Thinking 在传统 BBH 基准上准确率高达 92.0%，在 General 365 上骤降至 58.6%。项目已开源论文、代码及数据集，托管于 GitHub、HuggingFace 及项目主页。

为什么重要

当前主流推理评测过度集中于数学、编程等专业领域，模型高得分可能源于记忆而非推理。General 365 的设计堵住了“背模板”漏洞：其题目嵌入分布均匀，且同类题目的推理路径相似度仅 2.16 分（满分 5），远低于传统基准 BBH 和 BBEH，强迫模型必须一步一步真正推理。从行业意义看，General 365 暴露了“学科强、常识弱”的结构性缺陷——模型能解 IMO 难题，却无法正确回答“离洗车店 50 米，开车还是走路”这类问题。这迫使 AI 竞赛从“刷分”转向“真正学会逻辑推演”，可能影响后续模型训练的数据侧重、评测体系选择以及落地场景的可靠性判断。

对用户/开发者/创作者的影响

对于开发者：General 365 提供了一套低成本、高辨识度的评测工具，可用于选型、对比自家模型的逻辑短板，尤其在需要规划、多步决策的 Agent 应用中，这一评测结果可能直接决定产品可用性。对于企业采购方：多数模型在 General 365 上不及格，意味着宣称“满分推理”的模型可能存在水分，选型时应将通用推理指标纳入合同验收标准。对于普通用户：该评测提示，当前 AI 在需要常识校准的任务（如行程规划、购物建议、理财判断）中仍不可轻信，用户需对模型输出保持审慎。内容创作者尤其要注意：大模型对“语义干扰”类题目表现最差（得分普遍低约 10 个百分点），生成涉及逻辑推演或需规避陷阱的内容时，人工审核仍不可或缺。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

首先，General 365 是否会成为行业公认的推理评测新标准，取决于社区是否广泛采纳以及能否持续更新题目库防止过拟合。第二，开源项目已公开数据集与评分方法，其他大模型供应商（如 OpenAI、Google、Meta）是否会在其官方评测中加入类似维度，值得关注。第三，目前公开信息显示，美团 LongCat 团队表示将持续维护，但尚未确认是否会推出进阶版本或与其它评测集成。未来若模型在 General 365 上的得分稳步上升，可能意味着通用推理能力的真正突破。

来源：美团技术团队 (Meituan Tech)

美团 LongCat 开源 General 365：树立推理评测新标尺