谷歌测试Gemini桌面版新功能:推系统级听写与光标追踪

谷歌正在macOS版Gemini中测试三大新功能——系统级语音听写、“Magic Pointer”光标追踪以及多设备连接菜单。这意味着Gemini正在从独立对话工具向跨应用、跨设备系统级AI助手进化,办公和创作场景的交互方式可能被重新定义。

谷歌测试Gemini桌面版新功能:推系统级听写与光标追踪

一句话看懂:谷歌正在macOS版Gemini中测试三大新功能——系统级语音听写、“Magic Pointer”光标追踪以及多设备连接菜单。这意味着Gemini正在从独立对话工具向跨应用、跨设备系统级AI助手进化,办公和创作场景的交互方式可能被重新定义。

事件核心:发生了什么

据AIbase报道,谷歌已开始向部分macOS用户测试Gemini桌面客户端的大版本更新。本次测试涉及三项核心能力:
1. 系统级语音听写:通过快捷键,用户可在任何第三方应用(如文档编辑器、邮件、聊天窗口)中唤起Gemini进行全局语音转文本输入,不再局限于Gemini应用内。
2. “Magic Pointer”(魔力指针):Gemini能够实时追踪并理解用户光标所在位置的内容,使AI给出的反馈与用户当前视觉焦点保持逻辑同步。例如,用户将光标悬停在一段代码或一个网页图片上,Gemini可据此提供上下文相关的解释或操作建议。
3. 多设备连接菜单:新增的设备管理界面暗示未来Gemini可能支持跨桌面协同,如macOS与Windows或其他屏幕上同时使用。

目前该功能仅面向特定用户群内测,上线时间尚未公布。

为什么重要

这项测试标志着谷歌将Gemini的定位从“聊天机器人”升级为系统级AI助手。在商业上,这是与微软Copilot、苹果Apple Intelligence直接竞争的关键布局。系统级听写打通了AI与所有原生应用之间的输入壁垒,而光标追踪则让交互从“用户主动提问”转变为“AI被动感知上下文”——后者更接近人类协作时的“你指我看”模式,降低了使用AI的门槛。

从技术路线看,谷歌选择在macOS上率先测试,说明其正在打磨跨平台的能力。多设备菜单的提前出现表明,谷歌可能计划构建一个类似“Gemini Hub”的统一入口,让AI在桌面端和移动端之间无缝流转,这对企业级用户尤其具有吸引力。

对用户/开发者/创作者的影响

普通用户与办公人员:系统级语音听写可大幅提升输入效率,尤其适用于快速记录、起草邮件或填写表格。光标追踪功能则能在浏览长文档、PDF或复杂网页时,让AI直接回答当前阅读内容的问题,减少手动描述的负担。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

开发者:光标追踪使Gemini能理解代码编辑器中的局部代码,未来或可提供基于上下文的代码解释、bug定位甚至即时补全。不过,目前该功能是否开放给API调用尚未可知,开发者需关注后续其对IDE产品的集成方式。

内容创作者:语音听写+光标追踪的组合,可用于“边说边改”的创作流程——例如口述一段文字后,用光标指向某句要求Gemini修改措辞。多设备菜单则可能支持跨屏幕编辑,比如在Mac笔记本上采集素材,在iPad上调整草稿。

值得关注的后续

1. 功能落地时间与价格:系统级听写和Magic Pointer是否仅限Gemini Advanced付费用户?谷歌可能需要同步调整订阅策略。目前公开信息显示,这部分细节尚未明确。
2. 竞品反应:微软Copilot在Windows上已支持部分系统级功能,而苹果Apple Intelligence将在iOS/macOS 18中加入更多AI集成。谷歌这次测试的速度和最终完成度,将直接影响三家在桌面AI助手市场的占有率。
3. 隐私与权限挑战:系统级语音听写需要麦克风访问权限,光标追踪则需要屏幕内容读取权限。如何在功能便利性与用户隐私之间取得平衡,将是谷歌上线前必须解决的关键问题。当前内测阶段是否会透露隐私保护机制,值得持续追踪。

来源:AIbase

celebrityanime
celebrityanime
文章: 9864

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注