
一句话看懂:Google DeepMind 最新发布的 Gemini 3.5 Flash 模型在“计算机使用”基准测试中采用了严格的评测方法(pass @1、无多数投票、无并行测试时计算),并披露了与 Claude Opus 4.7、Sonnet 4.6 和 GPT-5.5 的对比结果。这一评测透明度高,但开发者社区讨论显示,消费者端对 Gemini 的抱怨集中在缺乏 MCP(多平台连接)支持,认为这削弱了其跨设备(智能手表、汽车、智能音箱)的应用吸引力。
事件核心:发生了什么
Google DeepMind 发布了 Gemini 3.5 Flash 模型的官方评测方法论和结果。该方法论定义了所有 Gemini 评测均采用 pass @1 指标,即单次尝试,不允许多数投票或并行测试时计算,并使用默认采样设置。对于非 Gemini 模型(如 Claude Opus 4.7、Sonnet 4.6 和 GPT-5.5),DeepMind 默认报告其可用的最大思考/推理设置下的自报结果。这些数据来自 DeepMind 的官方评测页面。与此同时,Hacker News 社区讨论指出,用户对 Gemini 的实际使用体验并不积极,核心抱怨是:“如果无法连接 MCP,我就真的没有理由从我的手表、汽车、智能音箱上使用 Gemini。如果我已经绑定到自己的前端,那我只是把 Gemini 当作一个模型/API 来评估,这种情况下它有许多竞争对手可能更便宜或更适合任务。”
为什么重要
这件事的意义在于它揭示了 AI 模型评测与真实用户体验之间的鸿沟。DeepMind 用严格的学术标准(单次尝试、无投票)来展示 Gemini 3.5 Flash 的能力,这在基准测试中增加了可信度,但也暴露了模型在具体的计算机使用任务上可能并非绝对领先(对比其他模型有公开数据)。更关键的是,用户社区的反馈直接打击了 Gemini 的跨设备生态战略:如果 LLM 无法像操作系统原生组件一样无缝集成到智能手表、汽车、智能音箱等设备中,仅仅提供 API 调用,则很难与更便宜或更专注的竞品(如 GPT)竞争。这反映出当前 LLM 与操作系统交互的人机工程学仍处于早期阶段,缺乏类似智能手机“iPhone 时刻”的体验突破。
对用户/开发者/创作者的影响
对用户:目前,普通消费者(智能手表、汽车、智能音箱用户)可能无法直接体验 Gemini 3.5 Flash 的所谓“计算机使用”能力,因为缺乏 MCP 连接意味着它无法被嵌入日常使用的第三方或自有前端。用户需要等待硬件厂商或平台方完成集成,或者被迫使用 Google 自家的封闭生态前端。对开发者:对于调用 Gemini 3.5 Flash API 的开发者,DeepMind 提供的 pass @1 评测结果有助于在严格条件下评估模型性能,但也需要警惕“自报数据”偏差(非 Gemini 模型数据来自对方自报)。开发者若想构建跨设备应用,当前面临的主要挑战不是模型能力本身,而是缺乏一个统一、开放的设备连接标准。MCP 的缺失使得任何非 Google 原生应用的开发成本高、吸引力低。对创作者/内容创作者:如果模型接口复杂、体验不流畅,AI 创作工具(如文本生成、图像生成等)的集成也会受阻。创作者在实际使用中能获得的优化有限,除非有第三方开发者专门适配。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
1. MCP 生态是否开放? 用户抱怨的核心是 MCP 连接缺失。Google 是否会推出开放、跨平台的设备连接方案(类似 Firebase 但针对 LLM 交互),或者与其他平台合作?这将是决定 Gemini 能否从 API 服务商升级为设备级 AI 核心的关键。
2. 定价与竞品对比: 开发者反馈中提到了“更便宜或更好执行任务的竞品”。Gemini 3.5 Flash 的 API 定价和性能(尤其是推理成本)是否会在后续调整?Claude、GPT 系列可能会跟进或调整其定价策略。
3. “iPhone 时刻”的探索: 用户社区认为 LLM 与操作系统的交互人机工程学仍需突破。未来几个月内,是否会有公司(不限于 Google)推出一种简洁、直观的 LLM 调用界面,让普通用户无需复杂配置即可在多设备上使用?这或许才是 LLM 真正进入消费品市场的关键。
来源:hackernews


