3B 小模型,编程得分比肩 Opus 4.5,神秘模型引发热议,原是国产

新浪微博团队开源了一款名为 VibeThinker-3B 的 30 亿参数模型,在编程和数学推理等可验证任务上,其得分与 Gemini 3 Pro、GPT-5 high、Claude Opus 4.5 等数百亿乃至上千亿参数的前沿模型相当。这一结果引发业内对“小模型极限”的广泛讨论,也推动了对推理能力与参数规…

3B 小模型,编程得分比肩 Opus 4.5,神秘模型引发热议,原是国产

一句话看懂:新浪微博团队开源了一款名为 VibeThinker-3B 的 30 亿参数模型,在编程和数学推理等可验证任务上,其得分与 Gemini 3 Pro、GPT-5 high、Claude Opus 4.5 等数百亿乃至上千亿参数的前沿模型相当。这一结果引发业内对“小模型极限”的广泛讨论,也推动了对推理能力与参数规模关系的重新审视。

事件核心:发生了什么

6月17日,一款 3B 参数的开源模型 VibeThinker-3B 在 X 平台引起热议。该模型由新浪微博(Weibo AI)团队发布,基于 Qwen2.5-Coder-3B 构建,采用“ Spectrum-to-Signal ”后训练流程和一项名为 Claim-Level 可靠性评估(CLR)的测试时推理策略。在多项基准中,其 AIME26 得分达到 94.3,配合 CLR 后提升至 97.1;HMMT25 达 89.3,CLR 后提升至 95.4;在实时更新的 LeetCode 周赛/双周赛中通过率达 96.1%。最新技术报告已在 arXiv 公开,模型权重可在 HuggingFace 下载。

为什么重要

VibeThinker-3B 的意义不在于“小模型打败大模型”,而在于它实证了一条与“参数规模扩展”互补的技术路线:当任务反馈信号清晰可验证(如编程、数学、约束执行)时,推理能力可以被极度压缩至紧凑模型中。团队提出的“参数压缩覆盖假设”认为,可验证推理是一种高度可压缩、参数密集的能力,而开放领域知识、通用对话等则确实需要大规模参数覆盖。这一假设若成立,将促使行业在模型设计时不再一味堆参数量,而是视任务性质选择更高效的架构与训练策略——对算力需求、部署成本和边缘设备推理能力均构成直接挑战。

对用户/开发者/创作者的影响

对开发者而言,VibeThinker-3B 提供了在编程辅助、竞赛解题等领域可自部署的高效替代方案,适合在资源受限的环境下运行。对 AI 应用厂商,该模型表明基于验证信号训练的专用小模型在“确定性”场景中与云端大模型差距不大,可能改变当前 API 调用与本地部署的成本权衡。对 AI 研究社区来说,它提供了一个可复现的基线模型,用于探索推理压缩与知识压缩的分离机制。需要留意的是,该模型在开放域对话和通用知识问答中表现一般,官方也明确其适用范围受限。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

一是新浪微博团队是否会基于该路线推出更大规模或混合架构模型,进一步验证“参数压缩假设”的通用性。二是其他大模型厂商(如 Meta、Google、阿里)是否会跟进类似的可验证推理专项小模型,形成新的开源竞赛方向。三是社区能否在其基础上,将能力从编程数学扩展至法律、医疗审计等拥有结构化反馈信号的垂直领域——这将直接影响该技术路线的商业化潜力。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 8377

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注