Gemini 3.5 Flash 中的计算机使用

一句话看懂：Google DeepMind 最新发布的 Gemini 3.5 Flash 模型在“计算机使用”基准测试中采用了严格的评测方法（pass @1、无多数投票、无并行测试时计算），并披露了与 Claude Opus 4.7、Sonnet 4.6 和 GPT-5.5 的对比结果。这一评测透明度高，但开发者社区讨论显示，消费者端对 Gemini 的抱怨集中在缺乏 MCP（多平台连接）支持，认为这削弱了其跨设备（智能手表、汽车、智能音箱）的应用吸引力。

事件核心：发生了什么

Google DeepMind 发布了 Gemini 3.5 Flash 模型的官方评测方法论和结果。该方法论定义了所有 Gemini 评测均采用 pass @1 指标，即单次尝试，不允许多数投票或并行测试时计算，并使用默认采样设置。对于非 Gemini 模型（如 Claude Opus 4.7、Sonnet 4.6 和 GPT-5.5），DeepMind 默认报告其可用的最大思考/推理设置下的自报结果。这些数据来自 DeepMind 的官方评测页面。与此同时，Hacker News 社区讨论指出，用户对 Gemini 的实际使用体验并不积极，核心抱怨是：“如果无法连接 MCP，我就真的没有理由从我的手表、汽车、智能音箱上使用 Gemini。如果我已经绑定到自己的前端，那我只是把 Gemini 当作一个模型/API 来评估，这种情况下它有许多竞争对手可能更便宜或更适合任务。”

为什么重要

这件事的意义在于它揭示了 AI 模型评测与真实用户体验之间的鸿沟。DeepMind 用严格的学术标准（单次尝试、无投票）来展示 Gemini 3.5 Flash 的能力，这在基准测试中增加了可信度，但也暴露了模型在具体的计算机使用任务上可能并非绝对领先（对比其他模型有公开数据）。更关键的是，用户社区的反馈直接打击了 Gemini 的跨设备生态战略：如果 LLM 无法像操作系统原生组件一样无缝集成到智能手表、汽车、智能音箱等设备中，仅仅提供 API 调用，则很难与更便宜或更专注的竞品（如 GPT）竞争。这反映出当前 LLM 与操作系统交互的人机工程学仍处于早期阶段，缺乏类似智能手机“iPhone 时刻”的体验突破。

对用户/开发者/创作者的影响

对用户：目前，普通消费者（智能手表、汽车、智能音箱用户）可能无法直接体验 Gemini 3.5 Flash 的所谓“计算机使用”能力，因为缺乏 MCP 连接意味着它无法被嵌入日常使用的第三方或自有前端。用户需要等待硬件厂商或平台方完成集成，或者被迫使用 Google 自家的封闭生态前端。对开发者：对于调用 Gemini 3.5 Flash API 的开发者，DeepMind 提供的 pass @1 评测结果有助于在严格条件下评估模型性能，但也需要警惕“自报数据”偏差（非 Gemini 模型数据来自对方自报）。开发者若想构建跨设备应用，当前面临的主要挑战不是模型能力本身，而是缺乏一个统一、开放的设备连接标准。MCP 的缺失使得任何非 Google 原生应用的开发成本高、吸引力低。对创作者/内容创作者：如果模型接口复杂、体验不流畅，AI 创作工具（如文本生成、图像生成等）的集成也会受阻。创作者在实际使用中能获得的优化有限，除非有第三方开发者专门适配。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. MCP 生态是否开放？ 用户抱怨的核心是 MCP 连接缺失。Google 是否会推出开放、跨平台的设备连接方案（类似 Firebase 但针对 LLM 交互），或者与其他平台合作？这将是决定 Gemini 能否从 API 服务商升级为设备级 AI 核心的关键。
2. 定价与竞品对比： 开发者反馈中提到了“更便宜或更好执行任务的竞品”。Gemini 3.5 Flash 的 API 定价和性能（尤其是推理成本）是否会在后续调整？Claude、GPT 系列可能会跟进或调整其定价策略。
3. “iPhone 时刻”的探索： 用户社区认为 LLM 与操作系统的交互人机工程学仍需突破。未来几个月内，是否会有公司（不限于 Google）推出一种简洁、直观的 LLM 调用界面，让普通用户无需复杂配置即可在多设备上使用？这或许才是 LLM 真正进入消费品市场的关键。

来源：hackernews

Gemini 3.5 Flash 中的计算机使用

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

库利律师事务所首席执行官：如果大型律所将人工智能仅视为一种提高效率的工具，它们将无法生存

这家小型人工智能存储股正向三星、谷歌和英伟达发起挑战

REI因一条荒谬的Instagram广告遭到猛烈抨击，并将责任归咎于Meta的一款AI工具

发表回复取消回复