
英伟达推出 LocateAnything,主打 AI 高速、高精度检测对象
一句话看懂:英伟达联合香港理工大学、南京大学于 5 月 29 日发布 LocateAnything 模型,能在照片或截图中高速、高精度地标出指定对象位置,专为机器人感知和 AI 智能体等需要即时响应的场景设计。其核心在于“并行框解码”技术,将物体检测速度提升至每秒 12.7 个边界框,远超现有主流方案。
事件核心:发生了什么
英伟达在最新博文中宣布推出 LocateAnything,该模型围绕检测框预测重新设计,提出了 Parallel Box Decoding(并行框解码)架构。它将边界框或点视为固定长度的原子单元,在一步内完成坐标预测,而非传统模型的逐词生成。模型提供三种工作模式:Fast Mode 针对端侧机器人和具身智能优化吞吐;Slow Mode 面向离线标注和高精度评测;Hybrid Mode 在默认快速输出基础上,遇到格式异常或空间歧义时自动切换回自回归解码以保证质量。
训练数据方面,团队构建了 LocateAnything-Data 数据集,包含 1200 万独立图像、1.38 亿条语言查询和 7.85 亿个边界框,覆盖通用检测、GUI 元素定位、指代表达理解、OCR 文字定位、版面定位及点定位。在单张 H100 GPU 上,默认 Hybrid Mode 达到每秒 12.7 个框(BPS),对比 Qwen3-VL 的 1.1 BPS 和 Rex-Omni 的 5.0 BPS,速度优势显著。高精度场景下,LocateAnything 在 LVIS 数据集 IoU=0.95 条件下得分 31.1,远高于 Rex-Omni 的 20.7;ScreenSpot-Pro 平均 F1 达 60.3;DocLayNet 和 M6Doc 分别取得 76.8 与 70.1 的成绩。
为什么重要
当前视觉语言模型(VLM)在图像理解和生成上进步显著,但“看见”与“精准定位”之间存在延迟鸿沟。机器人和 AI 智能体(Agent)需要实时感知环境并执行操作,例如机械臂抓取物体、代码辅助工具自动点击界面元素,传统模型因逐词解码而速度不足,无法胜任这类交互任务。LocateAnything 的并行框解码方案在保持高精度的同时将速度提升一个数量级,为视觉检测在具身智能、实时 GUI 操控等场景中的落地扫清了关键障碍。英伟达与高校合作并公开数据集,也为开发者提供了从研究到部署的低门槛选择。
对用户/开发者/创作者的影响
对开发者而言,LocateAnything 提供可直接调用的模型与数据资源,尤其适合机器人感知、自动化测试工具、屏幕操作 Agent 等需要快速定位的应用开发。创作者可以利用该模型在海量图片中批量标注对象,或为视频内容生成实时追踪框。企业用户若涉及工业检测、文档自动化处理或智能助手,可考虑用 LocateAnything 替换现有慢速检测模块,以降低推理延迟并提升交互流畅度。目前公开信息显示,该模型已发布论文,但尚未公布具体 API 调用价格或开源仓库时间表。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
1. 模型是否开源以及开源协议:这是开发者社区最关心的决策,直接影响生态建设速度。2. 推理成本与商业化落地:虽然 H100 上速度出色,但端侧机器人能否承受模型体积和能耗,需观察英伟达是否推出轻量化版本。3. 竞品跟进:Qwen3-VL 和 Rex-Omni 等模型在检测速度上差距明显,可能加速行业对并行解码架构的跟进与优化。


