Mistral AI发布OCR4 模型：支持 170 种语言，输出质量超越GPT与Gemini

一句话看懂：法国AI初创公司Mistral AI于6月23日推出专为文档识别设计的OCR 4模型，支持170种语言，在OmniDocBench测试中得分93.07，其输出质量在人类评估中优于GPT 5.5 Pro和Gemini 3.1 Pro Preview。该模型不以参数量见长，而是专注于高精度文本识别、边框定位和区域分类等下游任务。

事件核心：发生了什么

Mistral AI发布OCR 4，一款紧凑型光学字符识别模型。与通用大语言模型不同，OCR 4专攻文档内容识别，覆盖10个语系的170种语言。在基准测试OmniDocBench中，它取得93.07分，且人类评估者更偏好其输出结果，优于OpenAI的GPT 5.5 Pro和Google的Gemini 3.1 Pro Preview。OCR 4不仅输出识别文本，还能提供边框定位、区域分类和置信度评分，适合用于RAG语义分块、智能体结构化单元等场景。价格方面，基础API调用为每千页4美元，批处理享五折优惠；文档AI服务为每千页5美元。

为什么重要

OCR 4的发布标志着Mistral AI从通用大模型向垂直工具的延伸，直接切入文档智能处理这一实用领域。此前，该公司的开源与闭源模型已在全球市场获得关注，而OCR 4使其在基础工具层与OpenAI、Google正面竞争。对于行业而言，这一模型表明：在特定任务上，紧凑型专用模型可以凭借任务效率和质量优势，超越通用大模型的表现。同时，170种语言的支持使其在全球化业务场景中具有实用价值，特别是在多语言文档处理需求旺盛的企业中。

对用户/开发者/创作者的影响

对开发者而言，OCR 4提供API接口，可直接集成至RAG系统、智能体或文档工作流程中，降低多语言文档识别和结构化的门槛；定价相对透明（每千页4-5美元），适合批量处理场景。对普通用户和企业采购方来说，该模型可能带来更准确、更易用的文档数字化工具，尤其是在处理非英语或多种语言混杂的文档时。对于内容创作者，OCR 4的准确性和分类能力可以简化纸质文献、报表或手写内容的转写过程。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

首先，OCR 4的实际落地效果是否与基准测试表现一致，需观察真实用户反馈。其次，Mistral AI是否会开放模型的本地部署或轻量版，将影响开发者的采用决策。最后，OpenAI和Google等竞品是否会迅速跟进，推出针对多语言文档识别的小模型，可能在价格和质量上形成新一轮竞争。目前公开信息显示，OCR 4已通过API提供服务，但尚无开源版本发布消息。

来源：AIbase

Mistral AI发布OCR4 模型：支持 170 种语言，输出质量超越GPT与Gemini

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

字节与 Anthropic 打响 AI 制药暗战

微博 CLI 工具正式上线：专为开发者和 AI Agent 打造，超 70 API 一键调用

大学专业死亡潮来临，正准备报志愿的高考生傻眼了

发表回复取消回复