越来越多打工人对着电脑「嘀嘀咕咕」

越来越多打工人对着电脑「嘀嘀咕咕」

越来越多打工人对着电脑「嘀嘀咕咕」

一句话看懂:AI大模型解决了传统语音输入“方便自己、痛苦别人”的核心矛盾,让语音从低效的转写工具升级为高效的指令入口。全球语音AI创业公司已融资超70亿美元,Wispr估值半年涨近三倍,程序员、产品经理、律师正率先“用嘴办公”。

事件核心:发生了什么

过去近三十年,语音输入始终是键盘的配角,即便识别率高达95%以上,输出的口语化文字对阅读者仍是负担。AI大模型改变了接收方:即便用户说得断断续续、夹着口误,模型也能直接提取意图并执行任务。这意味着对识别准确率的要求大幅降低,语音办公首次具备了成立条件。

目前语音办公已形成两类成熟场景:一是用户直接对AI口述指令,AI理解后执行,无需产出通顺文本给人看,如OpenAI与Anthropic旗下的编程智能体Codex、Claude Code已上线原生语音编程模式;二是仍需产出面向人类文本的场景,AI在转写后自动删语气词、理逻辑、修正语法,一两秒即可输出通顺文案。

资本市场反应迅速:截至2026年一季度末,全球语音AI初创公司融资总额超过70亿美元。美国Wispr用户规模同比增长超100倍,目标估值半年内从7亿美元涨至近20亿美元。科大讯飞2025年年报显示,讯飞输入法大模型服务用户渗透率提升900%,输入效率提升77%。Google将AI听写功能Rambler内置进Gboard,覆盖数亿台Android设备;阿里千问PC端上线AI语音输入;科大讯飞发布可结构化整理语音的AI眼镜。

为什么重要

这是AI大模型能力在应用层的直接兑现——当模型具备理解碎片化、口语化表达的能力时,交互效率最高的“说话”便成为自然选择。它重新定义了输入方式的角色分工:语音负责快速输出想法,键盘退居编辑工具。过去程序员需要精心设计提示词才能让AI给出满意结果,如今AI对输入格式的容忍度大幅提升,“提示词工程师”岗位已基本消失。这一变化正推动语音办公从极客圈向普通职场群体渗透,也催生了全新的硬件品类(如无字母键的语音键盘)。

对用户/开发者/创作者的影响

对普通用户:写邮件、做笔记、发消息时可以大幅提速,口述即可完成初稿,AI会自动整理逻辑、删除冗余。但对开放式办公室来说,噪音干扰仍是现实问题,目前已有唇动识别、多模态降噪等方案在推进解决。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对开发者:语音编程已从概念走向日常——按住空格键说话就能向AI下达编程指令,100%语音输入代码已有先例。但精确修改仍依赖键盘,打字过程本身承载的深度整理思路功能无法被完全替代。

对内容创作者:AI可将口语化表达直接转化为结构化的文案、会议纪要或方案初稿,效率提升明显。同时需注意隐私风险:口述内容与云端数据的保密性是待解痛点,行业正在探索本地部署与隐私计算方案。

值得关注的后续

1. 产品落地:Wispr能否在近20亿美元估值下验证可持续的用户增长与商业化能力,将是语音办公赛道的重要风向标。

2. 巨头跟进:Google、阿里、科大讯飞的押注是否带动更多办公软件(如Microsoft 365、Notion)将语音交互作为默认交互方式之一。

3. 生态延伸:语音+AI是否催生新硬件品类(如AI眼镜、专用语音工作站),以及隐私合规方案能否跟上企业级部署需求。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 4577

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注