
一句话看懂:南洋理工大学、商汤研究院和大连理工大学联合发布了原生多模态大模型NEO-ov,完全摒弃传统视觉编码器,让大模型直接从原始像素学习语言。在空间智能等任务上,它甚至超越了依赖编码器的竞品,证明“端到端”路线不仅可行且已具备竞争力。
事件核心:发生了什么
2026年6月24日,由南洋理工大学S-Lab、商汤研究院和大连理工大学组成的研究团队公开了论文《From Pixels to Words – Towards Native One-Vision Models at Scale》,并开源了模型NEO-ov。该模型基于Qwen3-1.7B和Qwen3-8B分别训练了2B和9B两个版本。
与传统多模态大模型(如Qwen-VL、InternVL、LLaVA系列)必须依赖CLIP、SigLIP等预训练视觉编码器不同,NEO-ov仅用两层卷积作为“像素入口”,将原始图像和文本一同送入统一的Transformer。它通过“时间+高+宽”解耦的注意力机制和原生RoPE位置编码,将单图、多图、视频和空间推理任务统一为同一种序列处理逻辑。
训练采用三阶段方案:2000万图文对的预训练、6000万样本的中期训练(分辨率最高4096²,视频最长128帧)、以及600万高质量指令的微调。在测试中,NEO-ov在MMMU、HallusionBench等推理和抗幻觉基准上刷新了原生VLM的上限;在ViewSpatial、3DSR等空间智能基准上,甚至超过了Cambrian-S、GeoThinker等专用模型。
为什么重要
这一成果直接挑战了过去顶流多模态模型的“视觉编码器+投影层+大语言模型”的模块化范式。原文观点清晰地指出,模块化范式在灵活性、效率和扩展性上存在天然瓶颈:图像编码器丢失纹理和空间细节,视频编码器难以兼顾静态多图,且跨模态对齐计算开销大。
NEO-ov的突破在于,它证明了不靠“拼装”视觉模块,多模态智能同样能从原生架构中涌现。尤其在空间智能任务上,实验结果揭示了一个关键判断:跨模态交互越早发生(在底层像素级而非压缩后的语义表征上),对空间推理越有利。这意味着未来AI对三维世界、几何关系和具身场景的理解,可能会从“感知-压缩-推理”转向“直接感知-推理”,进而影响机器人导航、自动驾驶和AR/VR的底层模型设计。
对用户/开发者/创作者的影响
对于AI应用开发者:NEO-ov开源的代码和模型(GitHub)意味着开发者可以直接获得一个“原生统一的视觉语言模型”,无需单独调用外部编码器或适配器来对齐视觉和语言。这会降低构建多模态应用的系统复杂度,尤其在需要同时处理多图、视频流和空间定位的任务(如智能客服中的图文对比、视频内容审核、3D场景问答)中,部署成本可能更低。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
对于创作者和普通用户:目前信息显示,模型对OCR和文档理解任务表现相对薄弱,不适合直接用于票据识别、PDF解析等场景。但它在空间感知上的优势——比如理解“桌子上的杯子在笔记本左边”这类精细空间关系——未来在图像编辑、视频生成控制或增强现实(AR)交互中具备应用潜力。
值得关注的后续
1. 产品落地与商业化时间表:目前NEO-ov论文已公开,但团队尚未公布API服务或商业化产品的计划。应关注商汤研究院或南洋理工大学是否会推出面向企业端的API或本地部署方案。
2. 竞品跟进与行业反应:Qwen3-VL、InternVL3.5等模块化顶尖模型在某些基准上仍领先NEO-ov。若这个原生路线持续提升训练数据质量(尤其是OCR数据)和模型规模,可能会迫使业内重新评估“去掉编码器”的技术取舍,甚至出现更多原生架构的竞品。
3. 开源生态与算力门槛:NEO-ov开源了代码,但训练成本较高(三阶段数据超8000万样本)。后续是否提供预训练权重、是否有社区量化或蒸馏版本以降低本地运行门槛,将决定这项技术能否被中小开发者和企业快速采用。
来源:Readhub · AI


