上海人工智能实验室青年科学家何聪辉确认出席AICon上海站，分享面向 Agent 时代的文档解析基础设施演进与实践

一句话看懂：上海人工智能实验室青年科学家何聪辉将在AICon上海站分享其开源文档解析工具MinerU的演进历程，重点是如何通过数据驱动方法突破公式、表格等复杂文档解析瓶颈，同时公开AgenticOCR及扩散并行解码等前沿探索。

事件核心：发生了什么

6月26日至27日，AICon全球人工智能开发与应用大会将在上海举办。上海人工智能实验室青年科学家、数据平台中心负责人何聪辉确认出席，并在“人工智能前沿技术探索”专题发表题为《MinerU：面向 Agent 时代的文档解析基础设施演进与实践》的演讲。何聪辉是清华大学计算机科学博士，曾获ACM戈登·贝尔奖，其团队研发的MinerU发布一年获GitHub 6万星标，调用量超10亿次，被Google、华为、阿里等百家企业采用；所建立评测基准被Google Gemini 3和OpenAI GPT-5官方采纳，是其中唯一来自中国团队的成果。本次演讲将首次公开MinerU v2.5-Pro版本的“数据炼金术”，包括多样性感知采样（DDAS）与跨模型一致性验证（CMCV）组成的三维协同数据引擎，并展示AgenticOCR与扩散并行解码等前沿方向。演讲提纲涵盖从传统OCR到智能文档理解的跨越，以及LLM预训练与RAG系统对高质量文档数据的刚性需求。

为什么重要

在LLM预训练与RAG规模化应用的当下，高质量文档数据获取已上升为限制AI能力的关键瓶颈。传统OCR方案在公式、复杂布局、表格等场景下可靠性低，严重制约着企业级Agent应用的落地。MinerU的演进路径——从基于OCR与布局检测的v1 Pipeline，到引入解耦式多模态大模型的v2.5架构，再到纯数据驱动的v2.5-Pro——提供了一个清晰的行业参照，表明文档解析正从“拼凑工具库”走向“垂直多模态大模型+数据为王”的模式。特别是v2.5-Pro在相同参数规模下将性能从Overall 92.98提升至95.69，几乎完全依靠数据质量优化而非模型架构创新，这一发现对当前技术选型有直接参考价值。此外，MinerU被Google Gemini 3和OpenAI GPT-5官方采纳为评测基准，意味着这一来自中国团队的成果正在影响全球大模型的评测标准。

对用户/开发者/创作者的影响

对于RAG应用开发者而言，MinerU提供了一套可直接落地的数据清洗管线参考，尤其在处理公式、表格、阅读顺序等复杂元素时，可大幅减少手动标注和规则编写的工作量。对于企业AI基础设施团队，MinerU v2.5-Pro的“数据炼金术”方法论——包含DDAS采样、CMCV验证及Judge-and-Refine自动校正——提供了一种可复用的高质量数据集构建模板，有助于降低文档解析环节的出错率。对于在技术选型中的技术决策者，MinerU的演进路线清晰地展示了从“拼凑工具库”到“垂直多模态大模型”再到“数据为王”的发展趋势，助力判断未来1-2年内文档解析能力的提升空间。对于开源项目参与者，MinerU背后的CVPR 2025/2026论文级理论创新展示了国产开源项目登顶GitHub Trending的深层次逻辑：工程实现与学术理论创新的双轮驱动。

AI 工具推荐

想把多个 AI 模型放在一个入口？

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型，适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接：通过此链接购买，我可能获得佣金，不影响你的价格。

值得关注的后续

一是AgenticOCR与MinerU-Diffusion是否会在AICon之后直接开源或通过API提供，这将直接影响开发者是否能将“智能点读”功能集成到自身应用；二是MinerU的评测基准被谷歌和OpenAI采纳后，是否会推动更多中国团队的文档解析工具进入全球大模型评测体系；三是v2.5-Pro数据引擎的方法论是否会被其他文档解析项目（如ppocr、PaddleOCR）快速吸收，引发新一轮性能竞争。

来源：InfoQ CN

上海人工智能实验室青年科学家何聪辉确认出席AICon上海站，分享面向 Agent 时代的文档解析基础设施演进与实践