视觉大模型遭遇滑铁卢：首个中国古文字OCR评测基准开源

一句话看懂：腾讯混元大模型、SSV数字文化实验室与多家机构联合开源了“Chronicles-OCR”，这是首个覆盖“汉字七体”演变全过程的古文字OCR评测基准。测试结果显示，包括GPT-5、Gemini 3.1 Pro、Claude Opus 4.7在内的28款主流视觉大模型，在甲骨文、金文等古文字识别上准确率最高仅27.1%，完整暴露了当前视觉模型在微观笔触认知和细粒度文字感知上的短板。

事件核心：发生了什么

“Chronicles-OCR”由腾讯混元大模型、SSV数字文化实验室联合多所高校及故宫博物院共同发布。该基准涵盖甲骨文、金文、篆书、隶书、楷书、行书、草书七种字体形态，是首个完整覆盖汉字演变轨迹的行业标准测试集。数据集包含2800张高质量图像，由领域专家进行多层次交叉标注：对于甲骨文、金文、篆书等古文字，采用细粒度的字符级标注；对于隶书、楷书、行书、草书等成熟度较高的字体，则保留原始阅读顺序的序列级转录。

项目团队设计了四个递进式的核心任务，严格区分大模型的“视觉感知”与“语义推理”能力。在端到端检测任务中，所有主流视觉大模型几乎完全失效；即便在细粒度识别任务中，最高准确率也仅为27.1%。实验还发现，开启大模型的推理模式反而加剧了感知不确定性，导致识别性能进一步下降。

为什么重要

这一结果表明，当前顶级AI视觉模型尚未真正“理解”中国古文字的结构性特征。评估中发现，大模型在字体分类时倾向于识别载体纹理，而非区分微观笔触风格——这本质上是用“猜材质”来代替“读字形”。对于整个OCR和视觉大模型行业，“Chronicles-OCR”提供了一个清晰的优化方向：从“认字”到“读史”，视觉模型需要在非标准排版、稀缺字符、低对比度纹理等极端条件下，建立真正的文字感知能力，而非依赖纹理匹配或语言先验。

从竞争格局看，这一基准直接暴露了现有视觉大模型在垂直文化领域的短板。对于以通用能力见长的GPT-5、Gemini 3.1 Pro、Claude Opus 4.7等模型而言，这一结果也从侧面说明：当前多模态模型在特定领域的“视觉泛化”能力仍有较大盲区，尤其是在缺乏现代排版先验知识的古老文字场景下。

对用户/开发者/创作者的影响

对于从事古籍数字化、文物保护、历史研究的相关开发者和团队，“Chronicles-OCR”的开源意味着有了一个可复现、可比较的标准化测试环境。但必须明确：目前没有现成的古文字OCR产品或API可用，开发者只能将其作为评测基准而非生产工具。对于普通用户和内容创作者，短期内无法直接受益，但这一评测结果提醒AI应用开发者：在尝试将大模型用于古文字识别、拓片解读或书法风格分析时，需要密切警惕模型的误判，尤其不要将通用模型在高准确度测试（如现代印刷体OCR）中的表现直接迁移到古代文本场景。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

目前公开信息显示，“Chronicles-OCR”主要是一个评测基准而非可落地的识别产品。未来值得关注的观察点包括：一是是否有模型开发者基于这一基准发布专项微调或专用的古文字OCR模型；二是腾讯混元大模型及其他中国大模型厂商是否会在自有模型中针对性优化古文字感知能力；三是故宫博物院等文化机构是否会将这一基准转化为实际的古籍数字化生产工具，而非仅停留在学术评测层面。

来源：AIbase

视觉大模型遭遇滑铁卢：首个中国古文字OCR评测基准开源