越来越多打工人对着电脑「嘀嘀咕咕」

一句话看懂：AI大模型解决了传统语音输入“方便自己、痛苦别人”的核心矛盾，让语音从低效的转写工具升级为高效的指令入口。全球语音AI创业公司已融资超70亿美元，Wispr估值半年涨近三倍，程序员、产品经理、律师正率先“用嘴办公”。

事件核心：发生了什么

过去近三十年，语音输入始终是键盘的配角，即便识别率高达95%以上，输出的口语化文字对阅读者仍是负担。AI大模型改变了接收方：即便用户说得断断续续、夹着口误，模型也能直接提取意图并执行任务。这意味着对识别准确率的要求大幅降低，语音办公首次具备了成立条件。

目前语音办公已形成两类成熟场景：一是用户直接对AI口述指令，AI理解后执行，无需产出通顺文本给人看，如OpenAI与Anthropic旗下的编程智能体Codex、Claude Code已上线原生语音编程模式；二是仍需产出面向人类文本的场景，AI在转写后自动删语气词、理逻辑、修正语法，一两秒即可输出通顺文案。

资本市场反应迅速：截至2026年一季度末，全球语音AI初创公司融资总额超过70亿美元。美国Wispr用户规模同比增长超100倍，目标估值半年内从7亿美元涨至近20亿美元。科大讯飞2025年年报显示，讯飞输入法大模型服务用户渗透率提升900%，输入效率提升77%。Google将AI听写功能Rambler内置进Gboard，覆盖数亿台Android设备；阿里千问PC端上线AI语音输入；科大讯飞发布可结构化整理语音的AI眼镜。

为什么重要

这是AI大模型能力在应用层的直接兑现——当模型具备理解碎片化、口语化表达的能力时，交互效率最高的“说话”便成为自然选择。它重新定义了输入方式的角色分工：语音负责快速输出想法，键盘退居编辑工具。过去程序员需要精心设计提示词才能让AI给出满意结果，如今AI对输入格式的容忍度大幅提升，“提示词工程师”岗位已基本消失。这一变化正推动语音办公从极客圈向普通职场群体渗透，也催生了全新的硬件品类（如无字母键的语音键盘）。

对用户/开发者/创作者的影响

对普通用户：写邮件、做笔记、发消息时可以大幅提速，口述即可完成初稿，AI会自动整理逻辑、删除冗余。但对开放式办公室来说，噪音干扰仍是现实问题，目前已有唇动识别、多模态降噪等方案在推进解决。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对开发者：语音编程已从概念走向日常——按住空格键说话就能向AI下达编程指令，100%语音输入代码已有先例。但精确修改仍依赖键盘，打字过程本身承载的深度整理思路功能无法被完全替代。

对内容创作者：AI可将口语化表达直接转化为结构化的文案、会议纪要或方案初稿，效率提升明显。同时需注意隐私风险：口述内容与云端数据的保密性是待解痛点，行业正在探索本地部署与隐私计算方案。

值得关注的后续

1. 产品落地：Wispr能否在近20亿美元估值下验证可持续的用户增长与商业化能力，将是语音办公赛道的重要风向标。

2. 巨头跟进：Google、阿里、科大讯飞的押注是否带动更多办公软件（如Microsoft 365、Notion）将语音交互作为默认交互方式之一。

3. 生态延伸：语音+AI是否催生新硬件品类（如AI眼镜、专用语音工作站），以及隐私合规方案能否跟上企业级部署需求。

来源：Readhub · AI

越来越多打工人对着电脑「嘀嘀咕咕」