
一句话看懂:法国 AI 公司 Mistral AI 于 2026 年 6 月 23 日推出新一代文档识别模型 OCR 4,支持 170 种语言,在关键评测中超越 GPT 5.5 Pro 等竞品,且以千页 4 美元的低价 API 向开发者开放。
事件核心:发生了什么
Mistral AI 发布了其最新的光学字符识别(OCR)模型 OCR 4,这是一个专注于文档内容识别的轻量级模型。该模型横跨 10 个语族,支持 170 种语言,输出文本的同时还能提供边框信息、区域分类和置信度评分。在 OmniDocBench 基准测试中,OCR 4 获得了 93.07 的高分,其输出质量据称优于 GPT 5.5 Pro 和 Gemini 3.1 Pro Preview 等竞品。定价方面,基础 API 调用为每千页 4 美元,批处理的优惠价则为每千页 2 美元,另外还有面向文档 AI 的每千页 5 美元专门方案。
为什么重要
OCR 是 AI 与物理世界交互的底层能力之一,但长期被视为“基础”任务。Mistral 此次推出的模型亮点在于其“小而精”的定位——专注于文档 OCR 本身的精度和多语言覆盖,而不是追求大而全的通用视觉模型。它在基准测试中的表现直接对标并超越了头部通用大模型的 OCR 能力,这证明垂直领域的专用模型在特定任务上可以拥有显著优势。同时,Mistral 提供的不仅是文字提取,还包括 RAG 语义分块和结构化连接器等下游工具,这降低了企业将文档数据用于 RAG(检索增强生成)等场景的工程门槛。
对用户/开发者/创作者的影响
对于开发者和企业用户,Mistral OCR 4 提供了一个性价比很高的选择。千页 4 美元的基础价格,比许多通用大模型的 OCR 输出要低,且支持批量优惠。该模型特别适合处理非英语的多语言文档(如跨国公司的合同、报告、历史文献等),能减少因语言识别不准导致的信息丢失。对于 RAG 应用开发者,OCR 4 内置的语义分块和结构化功能,可以直接输出更适合向量化或下游处理的格式。普通用户通过调用其 API,能更精准地从复杂的 PDF、扫描件中提取文本、表格和图表信息。
AI 工具推荐
想把多个 AI 模型放在一个入口?
GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。
推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。
值得关注的后续
虽然基准测试成绩亮眼,但关键点在于其实际部署效果能否匹敌从 GPT 5.5 Pro 等模型获得的满足感。目前公开信息显示,该模型已开放 API 接口,但需关注其响应延迟、对复杂手写体或极端排版文档的处理能力。另一个观察点是竞品是否会因此调整 OCR 路线,例如百度近期开源的 Unlimited OCR 模型,是否会降价或加码功能。最后,Mistral 作为侧重开源与高效能模型的欧洲公司,其产品对欧洲企业数据合规的价值,将是它在该地区市场拓展的关键牌。


