商汤科技挺进智能体赛道：全新“全模态”基座蓄势待发

一句话看懂：商汤科技在股东大会上披露，正在研发业界首个将“理解、生成、行动”统一于一体的原生多模态智能体基座，并计划于2026年下半年正式发布，目标直接对标OpenAI的GPT-Image 2。这标志着AI竞争正从语言模型转向能主动执行任务的智能体（Agent）生态。

事件核心：发生了什么

据商汤科技在股东会议上的公开信息，该公司正在开发一款全新的“全模态”基座模型。其核心突破在于，该模型不再仅仅是处理文本或图像的大语言模型，而是原生融入了“理解、生成、行动”三项能力。这意味着，该基座不仅能理解用户输入的多模态信息，还能自主生成指令并执行诸如操作软件、浏览网页等数字世界的复杂交互任务。商汤计划在2026年下半年正式发布这一产品，将其定位为与OpenAI的GPT-Image 2直接竞争的智能体基座。目前，该技术研发进程顺利。

为什么重要

此举反映了AI行业一个关键趋势：从“基础模型”向“智能体（Agent）生态”的演进。过去两年，大模型的比拼主要集中在语言理解和图像生成能力上；而真正的商业价值爆发点在于让AI能够“动手做事”——自动完成预订、编程、数据分析等闭环任务。商汤选择此时切入智能体赛道，意图打破理解、生成、行动三者之间的技术壁垒。如果成功，它将在未来智能生产和服务系统中占据中心位置，并巩固其此前在底层算法架构和智慧城市、自动驾驶等应用领域积累的先发优势。对于行业分析师而言，这是观察中国AI企业能否在智能体这一新兴战场上与海外巨头（如微软、OpenAI）正面交锋的关键窗口。

对用户/开发者/创作者的影响

对开发者与AI应用公司：若商汤的基座开放API，开发者将能直接调用“行动”能力，大幅降低构建复杂工作流（如自动化客服、智能报表生成、多步骤推理）的开发成本。不再需要费力地将多个模型串联。
对普通用户：未来基于该基座的应用可能会更“能干”。例如，用户只需说出需求（如“把我上周的会议纪要和销量数据整理成PPT并发送给团队”），AI就能自主完成。这比目前仅能生成文字或图片的AI实用很多。
对企业采购方：在考虑企业级AI解决方案时，需要关注智能体基座的实际任务执行准确率和稳定性。商汤能否在具体场景（如金融、医疗）中证明其“行动”能力，将是影响采购决策的核心。

值得关注的后续

产品落地与实测：2026年下半年发布后，该基座的任务执行能力（尤其是复杂任务的错误率和及时性）是否经得起第三方跑分或行业级Benchmark测试。
生态与定价策略：商汤是否会采取开源部分能力或低价API的策略来快速吸引开发者建立生态壁垒，以及其推理算力成本如何平衡。
竞品跟进：包括字节跳动的豆包、百度的文心一言以及海外的Meta、Google，是否会推出相类似的全模态智能体基座，导致赛道迅速拥挤。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

来源：AIbase

商汤科技挺进智能体赛道：全新“全模态”基座蓄势待发

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

值得关注的后续

想把多个 AI 模型放在一个入口？

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

值得关注的后续

想把多个 AI 模型放在一个入口？

celebrityanime

相关文章

一场恳谈会，吹响包头数字经济「弯道超车」集结号

李迅雷：即使泡沫破灭后，仍应投资 AI、下注硅基时代

谷歌重组 AI 编码专项攻坚团队 全力追赶 Anthropic 高利润商用 AI 业务

发表回复取消回复

谷歌重组 AI 编码专项攻坚团队全力追赶 Anthropic 高利润商用 AI 业务