英伟达推出 LocateAnything，主打 AI 高速、高精度检测对象

一句话看懂：英伟达联合香港理工大学、南京大学于 5 月 29 日发布 LocateAnything 模型，能在照片或截图中高速、高精度地标出指定对象位置，专为机器人感知和 AI 智能体等需要即时响应的场景设计。其核心在于“并行框解码”技术，将物体检测速度提升至每秒 12.7 个边界框，远超现有主流方案。

事件核心：发生了什么

英伟达在最新博文中宣布推出 LocateAnything，该模型围绕检测框预测重新设计，提出了 Parallel Box Decoding（并行框解码）架构。它将边界框或点视为固定长度的原子单元，在一步内完成坐标预测，而非传统模型的逐词生成。模型提供三种工作模式：Fast Mode 针对端侧机器人和具身智能优化吞吐；Slow Mode 面向离线标注和高精度评测；Hybrid Mode 在默认快速输出基础上，遇到格式异常或空间歧义时自动切换回自回归解码以保证质量。

训练数据方面，团队构建了 LocateAnything-Data 数据集，包含 1200 万独立图像、1.38 亿条语言查询和 7.85 亿个边界框，覆盖通用检测、GUI 元素定位、指代表达理解、OCR 文字定位、版面定位及点定位。在单张 H100 GPU 上，默认 Hybrid Mode 达到每秒 12.7 个框（BPS），对比 Qwen3-VL 的 1.1 BPS 和 Rex-Omni 的 5.0 BPS，速度优势显著。高精度场景下，LocateAnything 在 LVIS 数据集 IoU=0.95 条件下得分 31.1，远高于 Rex-Omni 的 20.7；ScreenSpot-Pro 平均 F1 达 60.3；DocLayNet 和 M6Doc 分别取得 76.8 与 70.1 的成绩。

为什么重要

当前视觉语言模型（VLM）在图像理解和生成上进步显著，但“看见”与“精准定位”之间存在延迟鸿沟。机器人和 AI 智能体（Agent）需要实时感知环境并执行操作，例如机械臂抓取物体、代码辅助工具自动点击界面元素，传统模型因逐词解码而速度不足，无法胜任这类交互任务。LocateAnything 的并行框解码方案在保持高精度的同时将速度提升一个数量级，为视觉检测在具身智能、实时 GUI 操控等场景中的落地扫清了关键障碍。英伟达与高校合作并公开数据集，也为开发者提供了从研究到部署的低门槛选择。

对用户/开发者/创作者的影响

对开发者而言，LocateAnything 提供可直接调用的模型与数据资源，尤其适合机器人感知、自动化测试工具、屏幕操作 Agent 等需要快速定位的应用开发。创作者可以利用该模型在海量图片中批量标注对象，或为视频内容生成实时追踪框。企业用户若涉及工业检测、文档自动化处理或智能助手，可考虑用 LocateAnything 替换现有慢速检测模块，以降低推理延迟并提升交互流畅度。目前公开信息显示，该模型已发布论文，但尚未公布具体 API 调用价格或开源仓库时间表。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

1. 模型是否开源以及开源协议：这是开发者社区最关心的决策，直接影响生态建设速度。2. 推理成本与商业化落地：虽然 H100 上速度出色，但端侧机器人能否承受模型体积和能耗，需观察英伟达是否推出轻量化版本。3. 竞品跟进：Qwen3-VL 和 Rex-Omni 等模型在检测速度上差距明显，可能加速行业对并行解码架构的跟进与优化。

来源：IT之家 (ITHome)

英伟达推出 LocateAnything，主打 AI 高速、高精度检测对象