百度开源3B模型Unlimited OCR:5天Star破万,刷新长文档解析纪录

百度开源了一款名为Unlimited OCR的3B参数端到端OCR模型,在GitHub上5天内Star数破万。其通过一项新的注意力机制,实现了对长文档(如书籍、论文)的连续解析,并在权威基准测试中以93.92%的得分刷新纪录。

百度开源3B模型Unlimited OCR:5天Star破万,刷新长文档解析纪录

一句话看懂:百度开源了一款名为Unlimited OCR的3B参数端到端OCR模型,在GitHub上5天内Star数破万。其通过一项新的注意力机制,实现了对长文档(如书籍、论文)的连续解析,并在权威基准测试中以93.92%的得分刷新纪录。

事件核心:发生了什么

百度近期发布并开源了名为Unlimited OCR的3B参数OCR模型,专门针对书籍、论文等长文档解析场景。该模型在推理时仅激活约570M参数,并且首次引入了“参考滑窗注意力(R-SWA)机制”。这一机制打破了传统“逐页解析再拼接”的限制,能够一次性连续解析数十页文档,同时在解码阶段将KV缓存保持在恒定规模,使得显存占用和计算成本不再随输出长度线性增长。模型发布后迅速登顶GitHub和HuggingFace的热度榜单,开源5天内GitHub Star数突破1万。在OmniDocBench v1.6基准测试中,该模型以93.92%的分数创造了新纪录。在实测中,其推理速度比DeepSeek OCR快约12.7%,当输出长度达到6000 Tokens时,速度优势扩大到35%。

为什么重要

长文档解析一直是OCR领域的痛点。传统方法往往依赖逐页OCR后再拼接,不仅效率低,还容易丢字、错位或在跨页内容(如表格、脚注)上表现不佳。Unlimited OCR的R-SWA机制从技术路线上解决了长上下文带来的计算成本激增问题,使得处理一本数百页的电子书或长篇论文成为可能,且成本可控。这不仅提升了百度在OCR技术领域的竞争力,也为大模型在长期记忆管理、海量文档数字化等场景提供了新的工程化思路。开源策略则有助于吸引开发者社区贡献,加速技术迭代,并可能对闭源OCR产品形成压力。

对用户/开发者/创作者的影响

对于使用OCR服务的用户和开发者而言,开源意味着可以低成本部署或定制该模型。如果其在实际场景中确实能稳定处理长文档,将显著减少人工校对工作。特别是在文献管理、法律文档审查、历史档案数字化、以及需要从大量PDF中提取结构化数据的工作流中,效率和准确率的提升可能是显著的。对于AI应用开发者,该模型可被集成到内容处理管道中,作为文档解析的前端组件,降低下游LLM处理长文本时的输入成本。不过,目前公开信息显示其模型权重和具体使用指南已在开源社区发布,实际部署效果尚需自行验证。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

第一,开源能否转化为开发者生态。模型Star数高不一定代表实际使用率高,关注其GitHub上的Issue讨论、Pull Request活跃度以及第三方应用案例。第二,竞品反应。DeepSeek OCR、以及微软、谷歌等公司的文档AI服务是否会跟进类似的长上下文优化,或者说,R-SWA机制是否能成为新的实用标准。第三,成本与落地可行性。虽然速度和显存优化显著,但在实际大规模部署(如百万级文档处理)中的硬件需求、推理吞吐量以及是否支持多语种等细节,仍需要更多公开测试数据来评估。

来源:AIbase

celebrityanime
celebrityanime
文章: 10385

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注