智谱GLM-5V-Turbo“擦枪走火”,国产多模态智能体战争一触即发

智谱GLM-5V-Turbo“擦枪走火”,国产多模态智能体战争一触即发

智谱GLM-5V-Turbo“擦枪走火”,国产多模态智能体战争一触即发

一句话看懂:智谱发布GLM-5V-Turbo技术报告,核心是让视觉能力成为模型原生组件,而非外挂模块,旨在打造能直接操控电脑屏幕的全栈智能体。此前DeepSeek已灰度测试识图模式,国产多模态智能体的竞争正式进入下半场。

事件核心:发生了什么

智谱在最新模型GLM-5V-Turbo的技术报告中,公开了三个关键技术调整:自研的CogViT视觉编码器,通过两阶段预训练增强空间感知能力;引入“多模态多Token预测”工程方案,用共享特殊token降低算力开销;在超过30个任务类别上采用多任务联合强化学习,避免单任务训练导致的模型震荡。报告末尾,智谱罕见分享了智能体研发的三条经验:底层感知决定天花板、放弃端到端迷信、不具备可评估能力的任务无意义。

为什么重要

这标志着国产大模型从“语言能力竞赛”正式转向“智能体竞赛”。此前行业多通过文字API提供能力,但真实的商业场景——操控网页、解析图表、操作GUI——要求模型必须看懂非文本信息。智谱的路线与Anthropic最近发布的Claude for Microsoft 365高度一致,即把AI从“外包程序员”升级成能接管工作流的系统级工具。智谱在算力受限的情况下,通过架构设计和显存优化来降低成本,这一做法对同类国产模型有示范意义:算力不足不代表不能做,但必须做出工程上的取舍。

对用户/开发者/创作者的影响

对于开发者,GLM-5V-Turbo开放后,可以借助其操控计算机的能力,实现自动填写表单、截图分析UI、生成结构化报告等任务,极大降低自动化脚本的开发门槛。对于企业采购方,最大的变化是计费模式可能从“按token计费”转向“按交付项目计费”,AI不再按字符数收费,而是直接交付包含数据可视化的成品报告。对于普通创作者,未来AI能直接处理带图表的海报、PPT或视频截图,无需手工标记,内容生产的效率有望大幅提升。

值得关注的后续

第一,GLM-5V-Turbo是否会在近期开放公测或API接入,价格如何制定;第二,DeepSeek识图模式也刚灰度测试,两家是否会针对“视觉智能体”这一场景开展针对性产品上线;第三,智谱在与Claude Code、AutoClaw等外部工具集成方面的进展,这将决定其模型生态的成败;第四,算力账单是否得到足够控制,直接关系到这一技术路线能否大规模商业化。

来源:36氪 · 24小时热榜

celebrityanime
celebrityanime
文章: 3548

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注