
百度文心发布PaddleOCR-VL-1.6:准确率破96.33%刷新文档解析SOTA
一句话看懂:百度文心于2026年6月2日发布PaddleOCR-VL-1.6模型,在OmnicDocBench v1.6评测中以96.33%的准确率超越Gemini-3-Pro、GPT-5.2等主流大模型,成为文档解析任务的最新全球最佳水平(SOTA)。该模型以0.9B的轻量参数实现这一成绩,同时保持100种以上语言支持和开源生态。
事件核心:发生了什么
百度正式推出基于文心大模型训练的PaddleOCR-VL-1.6模型。该模型在权威评测集OmnicDocBench v1.6上取得96.33%的准确率,综合排名全球第一,超越Gemini-3-Pro、GPT-5.2和GLM-OCR。在面向真实复杂场景的Real5-OmniDocBench评测中,模型同样以93.19%的总分保持领先,有效应对扫描件、弯曲书页、屏幕翻拍、光照变化和倾斜文档等工业级难题。模型参数仅为0.9B,代码和权重已开源。
为什么重要
这一进展表明,多模态大模型在复杂文档理解领域正在完成从“学术演示”到“工业落地”的跨越。PaddleOCR-VL-1.6的轻量化架构意味着企业无需部署昂贵的算力集群即可获得顶尖识别能力。同时,它延续了前代架构设计,开发者可以无缝迁移。目前公开信息显示,PaddleOCR在GitHub上已获得超过79.2K星标,超过Google的Tesseract OCR,成为全球最受欢迎的开源OCR项目。这标志着百度在文档解析这一垂直场景中,通过开源策略构建了显著的生态优势。
对用户/开发者/创作者的影响
对开发者:模型保持轻量(0.9B)和架构兼容性,现有PaddleOCR用户无需额外适配即可升级。代码和权重已开源,适合快速集成到文档数字化、票据识别、档案管理等业务流程中。支持100多种语言,覆盖170多个国家和地区,适合全球化项目。对于企业用户,可以低成本部署到边缘设备或私有服务器。对普通用户:OCR能力在表格、古籍、生僻字、印章和图表等场景的提升,将直接改善PDF扫描、拍照翻译、发票识别等日常工具的使用体验。准确率提升也让这些工具在非理想拍摄条件下更稳定。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
1. 该模型是否会在百度智能云或Baidu AI Studio上提供API服务、收费模式如何,将影响中小企业及独立开发者的使用成本。2. 竞品(如阿里、腾讯、微软)是否会迅速跟进发布同类轻量高精度OCR模型,行业价格战是否开启。3. 开源社区能否基于0.9B模型孵化出更垂直的应用,如医疗单据识别、古籍数字化等细分场景。
来源:AIbase


