3B 小模型，编程得分比肩 Opus 4.5，神秘模型引发热议，原是国产

一句话看懂：新浪微博团队开源了一款名为 VibeThinker-3B 的 30 亿参数模型，在编程和数学推理等可验证任务上，其得分与 Gemini 3 Pro、GPT-5 high、Claude Opus 4.5 等数百亿乃至上千亿参数的前沿模型相当。这一结果引发业内对“小模型极限”的广泛讨论，也推动了对推理能力与参数规模关系的重新审视。

事件核心：发生了什么

6月17日，一款 3B 参数的开源模型 VibeThinker-3B 在 X 平台引起热议。该模型由新浪微博（Weibo AI）团队发布，基于 Qwen2.5-Coder-3B 构建，采用“ Spectrum-to-Signal ”后训练流程和一项名为 Claim-Level 可靠性评估（CLR）的测试时推理策略。在多项基准中，其 AIME26 得分达到 94.3，配合 CLR 后提升至 97.1；HMMT25 达 89.3，CLR 后提升至 95.4；在实时更新的 LeetCode 周赛/双周赛中通过率达 96.1%。最新技术报告已在 arXiv 公开，模型权重可在 HuggingFace 下载。

为什么重要

VibeThinker-3B 的意义不在于“小模型打败大模型”，而在于它实证了一条与“参数规模扩展”互补的技术路线：当任务反馈信号清晰可验证（如编程、数学、约束执行）时，推理能力可以被极度压缩至紧凑模型中。团队提出的“参数压缩覆盖假设”认为，可验证推理是一种高度可压缩、参数密集的能力，而开放领域知识、通用对话等则确实需要大规模参数覆盖。这一假设若成立，将促使行业在模型设计时不再一味堆参数量，而是视任务性质选择更高效的架构与训练策略——对算力需求、部署成本和边缘设备推理能力均构成直接挑战。

对用户/开发者/创作者的影响

对开发者而言，VibeThinker-3B 提供了在编程辅助、竞赛解题等领域可自部署的高效替代方案，适合在资源受限的环境下运行。对 AI 应用厂商，该模型表明基于验证信号训练的专用小模型在“确定性”场景中与云端大模型差距不大，可能改变当前 API 调用与本地部署的成本权衡。对 AI 研究社区来说，它提供了一个可复现的基线模型，用于探索推理压缩与知识压缩的分离机制。需要留意的是，该模型在开放域对话和通用知识问答中表现一般，官方也明确其适用范围受限。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

一是新浪微博团队是否会基于该路线推出更大规模或混合架构模型，进一步验证“参数压缩假设”的通用性。二是其他大模型厂商（如 Meta、Google、阿里）是否会跟进类似的可验证推理专项小模型，形成新的开源竞赛方向。三是社区能否在其基础上，将能力从编程数学扩展至法律、医疗审计等拥有结构化反馈信号的垂直领域——这将直接影响该技术路线的商业化潜力。

来源：Readhub · AI

3B 小模型，编程得分比肩 Opus 4.5，神秘模型引发热议，原是国产

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

美国暂缓将 DeepSeek 列入黑名单，100 多家公司被视为存在安全风险

用身体操作人形机器人是中国硬件之都的热门工作

亚马逊 AI 高管预测：首款商用量子计算机将在 5 至 7 年内问世

发表回复取消回复