刚刚,百度开源拿下全球第一!作者疑似 DeepSeek 出走大神

百度开源了一款名为 Unlimited OCR 的超轻量 OCR 模型,以 500M 激活参数(总参数 3B)在端到端文档解析基准上打败了 Qwen3-VL(235B)等大模型,综合得分 93.23%。技术报告作者名单中,技术总监仅署名为“YY”,而核心贡献者之一魏浩然(DeepSeek OCR 前核心作者)…

刚刚,百度开源拿下全球第一!作者疑似 DeepSeek 出走大神

一句话看懂:百度开源了一款名为 Unlimited OCR 的超轻量 OCR 模型,以 500M 激活参数(总参数 3B)在端到端文档解析基准上打败了 Qwen3-VL(235B)等大模型,综合得分 93.23%。技术报告作者名单中,技术总监仅署名为“YY”,而核心贡献者之一魏浩然(DeepSeek OCR 前核心作者)恰好已从 DeepSeek 离职,引发业界猜测。

事件核心:发生了什么

百度在 2025 年 5 月低调开源了 Unlimited OCR 模型。该模型采用 MoE 架构,总参数 3B,但实际推理时仅激活约 500M 参数。性能方面,在 OmniDocBench v1.5 上综合得分 93.23%,v1.6 上达到 93.92%,均刷新端到端 SOTA。对比同场竞技的 Qwen3-VL(235B,89.15 分)和 Gemini-2.5 Pro(不公布参数量,88.03 分),Unlimited OCR 以不足对手千分之一的激活参数实现反超。更关键的是,它实现了“一次推理读完 40 页”的长程处理能力,这在之前的 OCR 模型中从未达成。模型与代码已同步上线 GitHub 和 Hugging Face。

为什么重要

Unlimited OCR 的核心创新在于提出“参考滑动窗口注意力”(R-SWA),将人类抄书时不记忆全文、只保留最近几行认知的“软遗忘”机制引入注意力计算。这解决了长文档 OCR 的 KV 缓存膨胀难题,使模型在 32K 上下文窗口内可一次处理数十页文档,且内存占用恒定,推理速度不随页数增加而掉速。技术路线从“外部调度器拼凑结果”的工程妥协,转向“原生长程理解”的研究范式,对文档 AI 具有方法论意义。若技术总监“YY”确认为魏浩然,则意味着百度将 DeepSeek 在端到端 OCR 和视觉压缩方面的极致研究品味,与自身 PaddleOCR 的产业落地能力做了结合,补齐了“既有工程底座、又能引领范式”的完整能力。

对用户/开发者/创作者的影响

对普通用户:这一模型能直接提升 PDF 解析、发票/合同扫描、长文档批处理工具的准确率,尤其是在多页文档的上下文连续性方面,不会再出现缺字、跳行、表头丢失等常见 bug。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

对开发者:500M 激活参数意味着可以部署在端侧设备(手机、边缘盒子、嵌入式板卡)上,无需依赖云端算力。GitHub 已提供推理代码,开发者可快速集成到现有 OCR 或文档理解流程中。

对内容创作者:学术论文、电子书、画册等图文混排的长文档,可一次上传直接得到结构化结果(包括公式、表格、阅读顺序),无需手动拆分页面。

值得关注的后续

  • 上下文窗口是否会扩展至 128K:论文展望中明确提到下一步目标,若能实现,模型将能“读懂一整本书”而非仅识别一页文字。
  • R-SWA 是否会推广到 ASR 或翻译:作者断言 R-SWA 是通用长程解析机制,如果应用在其他序列任务(如语音转录、实时翻译),将打破单次处理时长上限。
  • 百度是否会围绕 Unlimited OCR 推出商业化 API 或云服务:目前是开源模型,但若配合 PaddleOCR 的产业生态,可能催生收费升级版本或定制化部署方案。

来源:Readhub · AI

celebrityanime
celebrityanime
文章: 9606

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注