Mistral AI发布OCR4 模型:支持 170 种语言,输出质量超越GPT与Gemini

法国AI初创公司Mistral AI于6月23日推出专为文档识别设计的OCR 4模型,支持170种语言,在OmniDocBench测试中得分93.07,其输出质量在人类评估中优于GPT 5.5 Pro和Gemini 3.1 Pro Preview。该模型不以参数量见长,而是专注于高精度文本识别、边框定位和区域…

Mistral AI发布OCR4 模型:支持 170 种语言,输出质量超越GPT与Gemini

一句话看懂:法国AI初创公司Mistral AI于6月23日推出专为文档识别设计的OCR 4模型,支持170种语言,在OmniDocBench测试中得分93.07,其输出质量在人类评估中优于GPT 5.5 Pro和Gemini 3.1 Pro Preview。该模型不以参数量见长,而是专注于高精度文本识别、边框定位和区域分类等下游任务。

事件核心:发生了什么

Mistral AI发布OCR 4,一款紧凑型光学字符识别模型。与通用大语言模型不同,OCR 4专攻文档内容识别,覆盖10个语系的170种语言。在基准测试OmniDocBench中,它取得93.07分,且人类评估者更偏好其输出结果,优于OpenAI的GPT 5.5 Pro和Google的Gemini 3.1 Pro Preview。OCR 4不仅输出识别文本,还能提供边框定位、区域分类和置信度评分,适合用于RAG语义分块、智能体结构化单元等场景。价格方面,基础API调用为每千页4美元,批处理享五折优惠;文档AI服务为每千页5美元。

为什么重要

OCR 4的发布标志着Mistral AI从通用大模型向垂直工具的延伸,直接切入文档智能处理这一实用领域。此前,该公司的开源与闭源模型已在全球市场获得关注,而OCR 4使其在基础工具层与OpenAI、Google正面竞争。对于行业而言,这一模型表明:在特定任务上,紧凑型专用模型可以凭借任务效率和质量优势,超越通用大模型的表现。同时,170种语言的支持使其在全球化业务场景中具有实用价值,特别是在多语言文档处理需求旺盛的企业中。

对用户/开发者/创作者的影响

对开发者而言,OCR 4提供API接口,可直接集成至RAG系统、智能体或文档工作流程中,降低多语言文档识别和结构化的门槛;定价相对透明(每千页4-5美元),适合批量处理场景。对普通用户和企业采购方来说,该模型可能带来更准确、更易用的文档数字化工具,尤其是在处理非英语或多种语言混杂的文档时。对于内容创作者,OCR 4的准确性和分类能力可以简化纸质文献、报表或手写内容的转写过程。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

首先,OCR 4的实际落地效果是否与基准测试表现一致,需观察真实用户反馈。其次,Mistral AI是否会开放模型的本地部署或轻量版,将影响开发者的采用决策。最后,OpenAI和Google等竞品是否会迅速跟进,推出针对多语言文档识别的小模型,可能在价格和质量上形成新一轮竞争。目前公开信息显示,OCR 4已通过API提供服务,但尚无开源版本发布消息。

来源:AIbase

celebrityanime
celebrityanime
文章: 10155

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注