Mistral AI 推出 OCR 4 模型：支持 170 种语言，输出更受人类青睐

一句话看懂：法国 AI 公司 Mistral AI 于 2026 年 6 月 23 日推出新一代文档识别模型 OCR 4，支持 170 种语言，在关键评测中超越 GPT 5.5 Pro 等竞品，且以千页 4 美元的低价 API 向开发者开放。

事件核心：发生了什么

Mistral AI 发布了其最新的光学字符识别（OCR）模型 OCR 4，这是一个专注于文档内容识别的轻量级模型。该模型横跨 10 个语族，支持 170 种语言，输出文本的同时还能提供边框信息、区域分类和置信度评分。在 OmniDocBench 基准测试中，OCR 4 获得了 93.07 的高分，其输出质量据称优于 GPT 5.5 Pro 和 Gemini 3.1 Pro Preview 等竞品。定价方面，基础 API 调用为每千页 4 美元，批处理的优惠价则为每千页 2 美元，另外还有面向文档 AI 的每千页 5 美元专门方案。

为什么重要

OCR 是 AI 与物理世界交互的底层能力之一，但长期被视为“基础”任务。Mistral 此次推出的模型亮点在于其“小而精”的定位——专注于文档 OCR 本身的精度和多语言覆盖，而不是追求大而全的通用视觉模型。它在基准测试中的表现直接对标并超越了头部通用大模型的 OCR 能力，这证明垂直领域的专用模型在特定任务上可以拥有显著优势。同时，Mistral 提供的不仅是文字提取，还包括 RAG 语义分块和结构化连接器等下游工具，这降低了企业将文档数据用于 RAG（检索增强生成）等场景的工程门槛。

对用户/开发者/创作者的影响

对于开发者和企业用户，Mistral OCR 4 提供了一个性价比很高的选择。千页 4 美元的基础价格，比许多通用大模型的 OCR 输出要低，且支持批量优惠。该模型特别适合处理非英语的多语言文档（如跨国公司的合同、报告、历史文献等），能减少因语言识别不准导致的信息丢失。对于 RAG 应用开发者，OCR 4 内置的语义分块和结构化功能，可以直接输出更适合向量化或下游处理的格式。普通用户通过调用其 API，能更精准地从复杂的 PDF、扫描件中提取文本、表格和图表信息。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

虽然基准测试成绩亮眼，但关键点在于其实际部署效果能否匹敌从 GPT 5.5 Pro 等模型获得的满足感。目前公开信息显示，该模型已开放 API 接口，但需关注其响应延迟、对复杂手写体或极端排版文档的处理能力。另一个观察点是竞品是否会因此调整 OCR 路线，例如百度近期开源的 Unlimited OCR 模型，是否会降价或加码功能。最后，Mistral 作为侧重开源与高效能模型的欧洲公司，其产品对欧洲企业数据合规的价值，将是它在该地区市场拓展的关键牌。

来源：IT之家 (ITHome)

Mistral AI 推出 OCR 4 模型：支持 170 种语言，输出更受人类青睐

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

发表回复取消回复

事件核心：发生了什么

为什么重要

对用户/开发者/创作者的影响

想把多个 AI 模型放在一个入口？

值得关注的后续

celebrityanime

相关文章

Claude Fable 5分批重新上线！GPT-5.6秒跟

AI编程的商业模式已经在互联网大厂跑通了

黄仁勋：Prompt正在过时，Loop才是新范式

发表回复取消回复