
一句话看懂:Google DeepMind 的 Gemini 预训练主管 Vlad Feinberg 在一场播客中曝光了模型训练的真实面貌:5 人团队在硅谷和巴黎两地倒班、不眠不休 40 天,才让 Gemini 2.0 上线。与此同时,他指出了当前 AI 行业最稀缺的能力——不是发论文,而是踏实解决算力与工程落地的“脏活”。
事件核心:发生了什么
Vlad Feinberg 透露,Gemini 2.0 的训练和上线背后,只有 5 个核心工程师在支撑。算力卡随时会挂、数据索引随时会断,团队为了不浪费数百万美元算力,只能跨时区 24 小时倒班,连续死磕 40 天。他曾因默默调整编译器和超参数、解决显存溢出,将 SFT 微调任务塞进老旧 TPU 卡里而拿到 Jeff Dean 颁发的奖金。他同时指出,媒体在对比 DeepSeek-V3 时,故意从榜单中删掉了当时排名第一的 Gemini 2.0 Flash Thinking,制造了“谷歌落后”的叙事。
为什么重要
这一内幕揭示了大模型竞争的真实底色:前沿实验室之间的差距更多来自工程执行力而非算法创新。在蒸馏、推理优化和分布式系统等“脏活”上的持续投入,远比一篇顶级论文更能决定模型的实际表现。Vlad 强调,写再厉害的论文都不如帮团队省下几张卡的显存,这也是软件工程师转型 AI 最现实且回报最高的路径。华尔街日报等媒体在报道中隐去关键排行榜数据,也提醒行业要警惕被选择性叙事带偏判断。
对用户/开发者/创作者的影响
对开发者来说,这是一条清晰的职业转型线索:Vlad 团队的核心成员 Nate Lintz 原本只是写后端搜索的普通工程师,通过帮产品落地大模型、解决推理开销,最终转入 DeepMind 成为技术支柱。Vlad 本人也在博客中发布了“硬核作业”——手写一个 Transformer 并手算 Scaling Laws,可以直接为他面试。对使用 AI 工具的用户和创作者,这意味着底层工程能力决定了模型的上限和成本,闭源模型和开源模型的差距并非来自理念,而是背后持续数月的基础设施打磨。AI 无法承担法律责任,最终为代码签字、背书、负责的永远是人。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
1. 蒸馏基础设施的迭代速度:Vlad 提到蒸馏基础设施已历经三四代,每一次重写都直接加速了研究进展,未来是否有更多团队公开其蒸馏配方将影响开源生态。2. 媒体对基准测试的选择性报道是否会引发 LMsys 等榜单更透明的排名公开机制。3. 普通后端工程师向 AI 核心岗转型的门槛是否会因类似 Vlad 的“公开面试作业”而降低,形成新的招聘和晋升范式。
来源:36氪 · 24小时热榜


