
一句话看懂:百度团队提出一种名为“无限 OCR”的端到端文档解析模型,通过引入“参考滑动窗口注意力”(R-SWA)机制,将解码过程中的显存占用从随文本长度无限增长变为恒定值,从而在单次推理中完成数十页文档的转录。
事件核心:发生了什么
论文于 arXiv 发布,同时代码已开源在 GitHub。该模型的核心设计是将解码器中的传统全量注意力替换为 R-SWA,把注意力分为固定大小的“参考段”(视觉特征与提示)和“解码滑动窗口”(默认宽度 128 token)。输出 token 的 KV 缓存不再随文档长度线性膨胀,而是被有界常数锁定。Unlimited OCR 继承了 DeepSeek OCR 的高压缩率编码器 DeepEncoder,使其能在 32K 最大长度限制下一次处理数十页 PDF。在单页文档评测集 OmniDocBench v1.6 上,该模型以 93.92% 的 Overall 分数超过 Logics-Parsing-v2(93.33%)和 FireRed-OCR(93.26%)。针对长文档,其 Distinct-35 指标在 40 页以上仍达 96.90%,编辑距离保持在 0.11 以内。
为什么重要
当前以 DeepSeek OCR 为代表的端到端模型,虽然借助大语言模型提升了识别准确率,但解码时的 KV 缓存会随输出持续膨胀,导致显存消耗和推理延迟同步上升。现有方案普遍采用逐页处理、重置记忆的方式,本质上是工程补丁而非真正的长程理解。Unlimited OCR 从注意力机制层面解决了这一瓶颈:R-SWA 是一种通用的参考型注意力,理论上可迁移至 ASR、翻译等同样具有固定参考输入的长程序列生成任务。这为在有限算力条件下实现近无限序列解析提供了一条可复用的技术路径,并证明在解码器中用滑动窗口替代全量注意力对端到端 OCR 无损。
对用户/开发者/创作者的影响
对于高频处理多页文档(如学术论文、书籍、合同、试卷)的用户来说,Unlimited OCR 能显著提升转录效率,省去逐页切割与拼接的环节。对于开发者,这项技术降低了端到端 OCR 的显存门槛,使在消费级 GPU 上一次性处理几十页文档成为可能。R-SWA 的通用性意味着,开发者未来可能将其集成到自己的语音识别或翻译管道中,直接复用其恒定 KV cache 的解码方案。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
首先,该模型目前仍在 32K 上下文预训练,研究团队已计划扩展到 128K 训练,实际长程表现有待验证。其次,R-SWA 的通用性需要更多任务证明,未来是否有 ASR 或翻译领域的同类开源工作值得跟踪。最后,Unlimited OCR 对 PDF 中小字体识别局限凸显了编码器端的分辨率瓶颈,下一代版本是否会引入动态分辨率处理值得观察。
来源:Readhub · AI


