刚刚，百度开源拿下全球第一！作者疑似 DeepSeek 出走大神

一句话看懂：百度开源了一款名为 Unlimited OCR 的超轻量 OCR 模型，以 500M 激活参数（总参数 3B）在端到端文档解析基准上打败了 Qwen3-VL（235B）等大模型，综合得分 93.23%。技术报告作者名单中，技术总监仅署名为“YY”，而核心贡献者之一魏浩然（DeepSeek OCR 前核心作者）恰好已从 DeepSeek 离职，引发业界猜测。

事件核心：发生了什么

百度在 2025 年 5 月低调开源了 Unlimited OCR 模型。该模型采用 MoE 架构，总参数 3B，但实际推理时仅激活约 500M 参数。性能方面，在 OmniDocBench v1.5 上综合得分 93.23%，v1.6 上达到 93.92%，均刷新端到端 SOTA。对比同场竞技的 Qwen3-VL（235B，89.15 分）和 Gemini-2.5 Pro（不公布参数量，88.03 分），Unlimited OCR 以不足对手千分之一的激活参数实现反超。更关键的是，它实现了“一次推理读完 40 页”的长程处理能力，这在之前的 OCR 模型中从未达成。模型与代码已同步上线 GitHub 和 Hugging Face。

为什么重要

Unlimited OCR 的核心创新在于提出“参考滑动窗口注意力”（R-SWA），将人类抄书时不记忆全文、只保留最近几行认知的“软遗忘”机制引入注意力计算。这解决了长文档 OCR 的 KV 缓存膨胀难题，使模型在 32K 上下文窗口内可一次处理数十页文档，且内存占用恒定，推理速度不随页数增加而掉速。技术路线从“外部调度器拼凑结果”的工程妥协，转向“原生长程理解”的研究范式，对文档 AI 具有方法论意义。若技术总监“YY”确认为魏浩然，则意味着百度将 DeepSeek 在端到端 OCR 和视觉压缩方面的极致研究品味，与自身 PaddleOCR 的产业落地能力做了结合，补齐了“既有工程底座、又能引领范式”的完整能力。

对用户/开发者/创作者的影响

对普通用户：这一模型能直接提升 PDF 解析、发票/合同扫描、长文档批处理工具的准确率，尤其是在多页文档的上下文连续性方面，不会再出现缺字、跳行、表头丢失等常见 bug。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

对开发者：500M 激活参数意味着可以部署在端侧设备（手机、边缘盒子、嵌入式板卡）上，无需依赖云端算力。GitHub 已提供推理代码，开发者可快速集成到现有 OCR 或文档理解流程中。

对内容创作者：学术论文、电子书、画册等图文混排的长文档，可一次上传直接得到结构化结果（包括公式、表格、阅读顺序），无需手动拆分页面。

值得关注的后续

上下文窗口是否会扩展至 128K：论文展望中明确提到下一步目标，若能实现，模型将能“读懂一整本书”而非仅识别一页文字。
R-SWA 是否会推广到 ASR 或翻译：作者断言 R-SWA 是通用长程解析机制，如果应用在其他序列任务（如语音转录、实时翻译），将打破单次处理时长上限。
百度是否会围绕 Unlimited OCR 推出商业化 API 或云服务：目前是开源模型，但若配合 PaddleOCR 的产业生态，可能催生收费升级版本或定制化部署方案。

来源：Readhub · AI

刚刚，百度开源拿下全球第一！作者疑似 DeepSeek 出走大神

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

issue: reasoning_content is stripped from assistant tool call messages, breaking multi-turn tool calling with reasoning models (Kimi K2.5, e

Regression: Ollama-0.30.x hangs on “encoding image slice…”, Ollama-0.24.0 works as expected

豆包正式发布2.1专业版:接入Pro模型并推出全新办公任务模式

发表回复取消回复