
一句话看懂:商汤科技在股东大会上披露,正在研发业界首个将“理解、生成、行动”统一于一体的原生多模态智能体基座,并计划于2026年下半年正式发布,目标直接对标OpenAI的GPT-Image 2。这标志着AI竞争正从语言模型转向能主动执行任务的智能体(Agent)生态。
事件核心:发生了什么
据商汤科技在股东会议上的公开信息,该公司正在开发一款全新的“全模态”基座模型。其核心突破在于,该模型不再仅仅是处理文本或图像的大语言模型,而是原生融入了“理解、生成、行动”三项能力。这意味着,该基座不仅能理解用户输入的多模态信息,还能自主生成指令并执行诸如操作软件、浏览网页等数字世界的复杂交互任务。商汤计划在2026年下半年正式发布这一产品,将其定位为与OpenAI的GPT-Image 2直接竞争的智能体基座。目前,该技术研发进程顺利。
为什么重要
此举反映了AI行业一个关键趋势:从“基础模型”向“智能体(Agent)生态”的演进。过去两年,大模型的比拼主要集中在语言理解和图像生成能力上;而真正的商业价值爆发点在于让AI能够“动手做事”——自动完成预订、编程、数据分析等闭环任务。商汤选择此时切入智能体赛道,意图打破理解、生成、行动三者之间的技术壁垒。如果成功,它将在未来智能生产和服务系统中占据中心位置,并巩固其此前在底层算法架构和智慧城市、自动驾驶等应用领域积累的先发优势。对于行业分析师而言,这是观察中国AI企业能否在智能体这一新兴战场上与海外巨头(如微软、OpenAI)正面交锋的关键窗口。
对用户/开发者/创作者的影响
- 对开发者与AI应用公司:若商汤的基座开放API,开发者将能直接调用“行动”能力,大幅降低构建复杂工作流(如自动化客服、智能报表生成、多步骤推理)的开发成本。不再需要费力地将多个模型串联。
- 对普通用户:未来基于该基座的应用可能会更“能干”。例如,用户只需说出需求(如“把我上周的会议纪要和销量数据整理成PPT并发送给团队”),AI就能自主完成。这比目前仅能生成文字或图片的AI实用很多。
- 对企业采购方:在考虑企业级AI解决方案时,需要关注智能体基座的实际任务执行准确率和稳定性。商汤能否在具体场景(如金融、医疗)中证明其“行动”能力,将是影响采购决策的核心。
值得关注的后续
- 产品落地与实测:2026年下半年发布后,该基座的任务执行能力(尤其是复杂任务的错误率和及时性)是否经得起第三方跑分或行业级Benchmark测试。
- 生态与定价策略:商汤是否会采取开源部分能力或低价API的策略来快速吸引开发者建立生态壁垒,以及其推理算力成本如何平衡。
- 竞品跟进:包括字节跳动的豆包、百度的文心一言以及海外的Meta、Google,是否会推出相类似的全模态智能体基座,导致赛道迅速拥挤。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
来源:AIbase


