直接从像素到单词：这个原生大模型统一单图、多图、视频和空间智能

一句话看懂：南洋理工大学、商汤研究院和大连理工大学联合发布了原生多模态大模型NEO-ov，完全摒弃传统视觉编码器，让大模型直接从原始像素学习语言。在空间智能等任务上，它甚至超越了依赖编码器的竞品，证明“端到端”路线不仅可行且已具备竞争力。

事件核心：发生了什么

2026年6月24日，由南洋理工大学S-Lab、商汤研究院和大连理工大学组成的研究团队公开了论文《From Pixels to Words – Towards Native One-Vision Models at Scale》，并开源了模型NEO-ov。该模型基于Qwen3-1.7B和Qwen3-8B分别训练了2B和9B两个版本。

与传统多模态大模型（如Qwen-VL、InternVL、LLaVA系列）必须依赖CLIP、SigLIP等预训练视觉编码器不同，NEO-ov仅用两层卷积作为“像素入口”，将原始图像和文本一同送入统一的Transformer。它通过“时间+高+宽”解耦的注意力机制和原生RoPE位置编码，将单图、多图、视频和空间推理任务统一为同一种序列处理逻辑。

训练采用三阶段方案：2000万图文对的预训练、6000万样本的中期训练（分辨率最高4096²，视频最长128帧）、以及600万高质量指令的微调。在测试中，NEO-ov在MMMU、HallusionBench等推理和抗幻觉基准上刷新了原生VLM的上限；在ViewSpatial、3DSR等空间智能基准上，甚至超过了Cambrian-S、GeoThinker等专用模型。

为什么重要

这一成果直接挑战了过去顶流多模态模型的“视觉编码器+投影层+大语言模型”的模块化范式。原文观点清晰地指出，模块化范式在灵活性、效率和扩展性上存在天然瓶颈：图像编码器丢失纹理和空间细节，视频编码器难以兼顾静态多图，且跨模态对齐计算开销大。

NEO-ov的突破在于，它证明了不靠“拼装”视觉模块，多模态智能同样能从原生架构中涌现。尤其在空间智能任务上，实验结果揭示了一个关键判断：跨模态交互越早发生（在底层像素级而非压缩后的语义表征上），对空间推理越有利。这意味着未来AI对三维世界、几何关系和具身场景的理解，可能会从“感知-压缩-推理”转向“直接感知-推理”，进而影响机器人导航、自动驾驶和AR/VR的底层模型设计。

对用户/开发者/创作者的影响

对于AI应用开发者：NEO-ov开源的代码和模型（GitHub）意味着开发者可以直接获得一个“原生统一的视觉语言模型”，无需单独调用外部编码器或适配器来对齐视觉和语言。这会降低构建多模态应用的系统复杂度，尤其在需要同时处理多图、视频流和空间定位的任务（如智能客服中的图文对比、视频内容审核、3D场景问答）中，部署成本可能更低。