Om AI联汇发布VLX:全球首个面向物理世界的端侧流式多模态模型

Om AI联汇于2026年7月1日发布了VLX系列,这是业界首个专为物理世界设计的端侧流式多模态模型,将AI的视觉处理方式从“截帧分析”升级为“连续流感知”,能实现毫秒级实时感知与行动决策闭环。

Om AI联汇发布VLX:全球首个面向物理世界的端侧流式多模态模型

一句话看懂:Om AI联汇于2026年7月1日发布了VLX系列,这是业界首个专为物理世界设计的端侧流式多模态模型,将AI的视觉处理方式从“截帧分析”升级为“连续流感知”,能实现毫秒级实时感知与行动决策闭环。

事件核心:发生了什么

Om AI联汇正式发布VLX系列,包含三款协同模型:VLX-Flow负责持续感知,通过增量编码与缓存推理机制实现“随时吸收画面、提问瞬间响应”;VLX-Seek负责精准定位,将坐标生成转化为区域检索任务,提高空间感知可靠性;VLX-Go负责行动执行,将视觉理解直接转化为机器人可执行的短时航点与运动轨迹。该系列模型覆盖0.6B至10B参数规格,单路推理延迟最低可达0.06秒。

为什么重要

传统多模态模型在处理视频时多采用“截帧+离线分析”方式,无法满足物理世界对实时性、连续性和低算力消耗的需求。VLX系列的提出,标志着端侧大模型从“人机对话工具”向“具身智能核心”的范式转变。它不再强调更好的人机对话体验,而是聚焦于让终端设备自主完成“感知→定位→行动”闭环。这对机器人、自动驾驶、无人机等需要在动态环境中即时决策的领域意义重大;同时也意味着,端侧模型不再仅是云端模型的压缩版,而是从架构层面专门为实时视频流和资源受限设备重写。

对用户/开发者/创作者的影响

对开发者而言,VLX提供了可直接调用的端侧多模态推理能力,无需依赖云端算力即可实现实时环境理解与行动控制,降低了机器人等物理实体应用的门槛。对行业用户来说,这套方案有可能改变当前无人机巡检、工业机器人导航等场景的技术路径——过去需要云端回传分析才能执行的指令,现在设备端即可独立完成。对创作者而言,尽管VLX目前主要面向物理世界设备,但其“流式多模态”架构未来也可能衍生出更高实时性的AR/VR或互动内容制作工具。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,VLX是否已在具体硬件(如机器人终端、无人机)上完成部署测试,量产落地时间表如何;第二,该系列采用轻量化架构覆盖0.6B至10B规格,具体定价或授权模式尚未披露,是否会走开源路线以吸引开发者生态;第三,行业竞品如Google、NVIDIA或国内其他大模型厂商是否会在短时间内跟进“流式多模态”路线,从而加速这一技术标准的定义。

来源:量子位 · 每日最新

celebrityanime
celebrityanime
文章: 10706

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注