3B 小模型,编程得分比肩 Opus 4.5,神秘模型引发热议,原是国产

新浪微博团队开源了一款名为 VibeThinker-3B 的 30 亿参数模型,在编程和数学推理等可验证任务上,其得分与 Gemini 3 Pro、GPT-5 high、Claude Opus 4.5 等数百亿乃至上千亿参数的前沿模型相当。这一结果引发业内对“小模型极限”的广泛讨论,也推动了对推理能力与参数规…

新浪微博团队开源了一款名为 VibeThinker-3B 的 30 亿参数模型,在编程和数学推理等可验证任务上,其得分与 Gemini 3 Pro、GPT-5 high、Claude Opus 4.5 等数百亿乃至上千亿参数的前沿模型相当。这一结果引发业内对“小模型极限”的广泛讨论,也推动了对推理能力与参数规…

微软正在评估将国产大模型公司深度求索(DeepSeek)的模型接入其企业级AI助手Copilot,以丰富办公套件的AI能力。这一动向意味着微软正试图通过引入外部模型的策略,提升Copilot在中文市场和特定场景下的竞争力。

医疗AI陷入“数据无法治理→产品进不了临床→拿不到增量数据→模型无法迭代”的死循环多年。讯飞医疗凭借十年积累的场景覆盖与数据治理能力,通过星火医疗大模型V3.5在真实临床环境中跑通了闭环,医生采纳率达到91%,打破了医疗AI“评测强、落地弱”的僵局。

一位Android开发者因公司打包机的JDK版本与项目不兼容,无法使用打包服务,转而借助AI工具(如GPT-4等大模型)自行搭建了一套包含局域网下载、飞书Webhook通知、远程触发构建和实时状态追踪的APK构建分发系统,最终体验甚至超越了原有打包机。这件事展示了AI辅助开发从“写代码”向“组织解决方案”的转…

SpaceX在纳斯达克IPO四天后,以600亿美元估值全股票方式收购了AI编程工具Cursor的母公司Anysphere,未动用现金。这笔交易是AI和开发者工具领域规模最大的收购之一,标志着马斯克将AI编程能力与自有算力、大模型Grok深度整合。
![[Claude] claude code 逆向工程,遭遇政策不允许,怎么绕过](https://www.chat-gpts.plus/wp-content/uploads/2026/06/ai_cover_3-660-768x403.jpg)
越来越多使用 Claude Code 等 AI 编程助手进行逆向工程的用户,遭遇了模型因政策限制而拒绝服务的情况。社区正在摸索多种绕过策略,包括换用国产模型、伪装授权和拆分任务。
![[推广] 🚀 Claude360 GPT/Claude/Gemini 直连中转。留 ID 送体验额度。](https://www.chat-gpts.plus/wp-content/uploads/2026/06/ai_cover_4-655-768x403.jpg)
Claude360 作为一个开发者和团队适用的 Claude / GPT 模型中转服务平台,通过提供直连中转和充值赠送福利,旨在降低开发者和团队使用主流大模型的门槛,并鼓励社区参与体验。
![[Claude Code] codex 与 Claude 相比,仍然存在差距](https://www.chat-gpts.plus/wp-content/uploads/2026/06/ai_cover_3-658-768x403.jpg)
V2EX 社区用户围绕 Codex(推测为 GPT-5.5 等新模型产品)与 Claude(尤其 Opus 4.8)的代码修复能力展开激烈讨论,核心结论是:两者互有胜负,但单次体验无法作为通用判断依据,真实开发中“换模型解决问题”已成为常态。

Redis 作者 antirez(Salvatore Sanfilippo)公开反驳一种流行观点——即中国大模型的进步主要来自通过 API 蒸馏美国模型。他从机器学习原理出发,指出这种说法混淆了“白盒软蒸馏”与“黑盒硬蒸馏”,并认为中国模型的实际能力差距更多源于算力获取限制,而非单纯的“抄答案”。

小米大模型团队于6月16日正式发布云端Agent产品MiMo Claw,搭载MiMo-V2.5-Pro模型,支持单次会话超千次连续工具调用,并将免费用户单日体验时长从1小时提升至4小时。这意味着小米在复杂办公场景的AI Agent能力上迈出了实质一步,尤其在工具调用稳定性和Token成本控制方面有具体数据支撑…