百度开源3B模型Unlimited OCR:5天Star破万，刷新长文档解析纪录

一句话看懂：百度开源了一款名为Unlimited OCR的3B参数端到端OCR模型，在GitHub上5天内Star数破万。其通过一项新的注意力机制，实现了对长文档（如书籍、论文）的连续解析，并在权威基准测试中以93.92%的得分刷新纪录。

事件核心：发生了什么

百度近期发布并开源了名为Unlimited OCR的3B参数OCR模型，专门针对书籍、论文等长文档解析场景。该模型在推理时仅激活约570M参数，并且首次引入了“参考滑窗注意力（R-SWA）机制”。这一机制打破了传统“逐页解析再拼接”的限制，能够一次性连续解析数十页文档，同时在解码阶段将KV缓存保持在恒定规模，使得显存占用和计算成本不再随输出长度线性增长。模型发布后迅速登顶GitHub和HuggingFace的热度榜单，开源5天内GitHub Star数突破1万。在OmniDocBench v1.6基准测试中，该模型以93.92%的分数创造了新纪录。在实测中，其推理速度比DeepSeek OCR快约12.7%，当输出长度达到6000 Tokens时，速度优势扩大到35%。

为什么重要

长文档解析一直是OCR领域的痛点。传统方法往往依赖逐页OCR后再拼接，不仅效率低，还容易丢字、错位或在跨页内容（如表格、脚注）上表现不佳。Unlimited OCR的R-SWA机制从技术路线上解决了长上下文带来的计算成本激增问题，使得处理一本数百页的电子书或长篇论文成为可能，且成本可控。这不仅提升了百度在OCR技术领域的竞争力，也为大模型在长期记忆管理、海量文档数字化等场景提供了新的工程化思路。开源策略则有助于吸引开发者社区贡献，加速技术迭代，并可能对闭源OCR产品形成压力。

对用户/开发者/创作者的影响

对于使用OCR服务的用户和开发者而言，开源意味着可以低成本部署或定制该模型。如果其在实际场景中确实能稳定处理长文档，将显著减少人工校对工作。特别是在文献管理、法律文档审查、历史档案数字化、以及需要从大量PDF中提取结构化数据的工作流中，效率和准确率的提升可能是显著的。对于AI应用开发者，该模型可被集成到内容处理管道中，作为文档解析的前端组件，降低下游LLM处理长文本时的输入成本。不过，目前公开信息显示其模型权重和具体使用指南已在开源社区发布，实际部署效果尚需自行验证。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

第一，开源能否转化为开发者生态。模型Star数高不一定代表实际使用率高，关注其GitHub上的Issue讨论、Pull Request活跃度以及第三方应用案例。第二，竞品反应。DeepSeek OCR、以及微软、谷歌等公司的文档AI服务是否会跟进类似的长上下文优化，或者说，R-SWA机制是否能成为新的实用标准。第三，成本与落地可行性。虽然速度和显存优化显著，但在实际大规模部署（如百万级文档处理）中的硬件需求、推理吞吐量以及是否支持多语种等细节，仍需要更多公开测试数据来评估。

来源：AIbase

百度开源3B模型Unlimited OCR:5天Star破万，刷新长文档解析纪录

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

正如人工智能即将接管一样

人工智能已经在为数十亿人改写现实。这让女性误会了。 – unric https://t.co/4CQztyxl32 #GenerativeAI #GenAI #AI

@reddit_lies 男朋友必须和她的兄弟分手，事实上她仍在积极使用 c。在真正的关系中，人工智能只是一个危险信号。

发表回复取消回复