Om AI联汇发布VLX：全球首个面向物理世界的端侧流式多模态模型

一句话看懂：Om AI联汇于2026年7月1日发布了VLX系列，这是业界首个专为物理世界设计的端侧流式多模态模型，将AI的视觉处理方式从“截帧分析”升级为“连续流感知”，能实现毫秒级实时感知与行动决策闭环。

事件核心：发生了什么

Om AI联汇正式发布VLX系列，包含三款协同模型：VLX-Flow负责持续感知，通过增量编码与缓存推理机制实现“随时吸收画面、提问瞬间响应”；VLX-Seek负责精准定位，将坐标生成转化为区域检索任务，提高空间感知可靠性；VLX-Go负责行动执行，将视觉理解直接转化为机器人可执行的短时航点与运动轨迹。该系列模型覆盖0.6B至10B参数规格，单路推理延迟最低可达0.06秒。

为什么重要

传统多模态模型在处理视频时多采用“截帧+离线分析”方式，无法满足物理世界对实时性、连续性和低算力消耗的需求。VLX系列的提出，标志着端侧大模型从“人机对话工具”向“具身智能核心”的范式转变。它不再强调更好的人机对话体验，而是聚焦于让终端设备自主完成“感知→定位→行动”闭环。这对机器人、自动驾驶、无人机等需要在动态环境中即时决策的领域意义重大；同时也意味着，端侧模型不再仅是云端模型的压缩版，而是从架构层面专门为实时视频流和资源受限设备重写。

对用户/开发者/创作者的影响

对开发者而言，VLX提供了可直接调用的端侧多模态推理能力，无需依赖云端算力即可实现实时环境理解与行动控制，降低了机器人等物理实体应用的门槛。对行业用户来说，这套方案有可能改变当前无人机巡检、工业机器人导航等场景的技术路径——过去需要云端回传分析才能执行的指令，现在设备端即可独立完成。对创作者而言，尽管VLX目前主要面向物理世界设备，但其“流式多模态”架构未来也可能衍生出更高实时性的AR/VR或互动内容制作工具。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，VLX是否已在具体硬件（如机器人终端、无人机）上完成部署测试，量产落地时间表如何；第二，该系列采用轻量化架构覆盖0.6B至10B规格，具体定价或授权模式尚未披露，是否会走开源路线以吸引开发者生态；第三，行业竞品如Google、NVIDIA或国内其他大模型厂商是否会在短时间内跟进“流式多模态”路线，从而加速这一技术标准的定义。

来源：量子位 · 每日最新

Om AI联汇发布VLX：全球首个面向物理世界的端侧流式多模态模型

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

ImageEditor: High memory and CPU usage on mobile, crashes with large images

ImageEditor: What to do with it?

软银加码 AI 赛道：向 OpenAI 追加 100 亿美元投资

发表回复取消回复