上海人工智能实验室青年科学家何聪辉确认出席AICon上海站,分享面向 Agent 时代的文档解析基础设施演进与实践

上海人工智能实验室青年科学家何聪辉确认出席AICon上海站,分享面向 Agent 时代的文档解析基础设施演进与实践

上海人工智能实验室青年科学家何聪辉确认出席AICon上海站,分享面向 Agent 时代的文档解析基础设施演进与实践

一句话看懂:上海人工智能实验室青年科学家何聪辉将在AICon上海站分享其开源文档解析工具MinerU的演进历程,重点是如何通过数据驱动方法突破公式、表格等复杂文档解析瓶颈,同时公开AgenticOCR及扩散并行解码等前沿探索。

事件核心:发生了什么

6月26日至27日,AICon全球人工智能开发与应用大会将在上海举办。上海人工智能实验室青年科学家、数据平台中心负责人何聪辉确认出席,并在“人工智能前沿技术探索”专题发表题为《MinerU:面向 Agent 时代的文档解析基础设施演进与实践》的演讲。何聪辉是清华大学计算机科学博士,曾获ACM戈登·贝尔奖,其团队研发的MinerU发布一年获GitHub 6万星标,调用量超10亿次,被Google、华为、阿里等百家企业采用;所建立评测基准被Google Gemini 3和OpenAI GPT-5官方采纳,是其中唯一来自中国团队的成果。本次演讲将首次公开MinerU v2.5-Pro版本的“数据炼金术”,包括多样性感知采样(DDAS)与跨模型一致性验证(CMCV)组成的三维协同数据引擎,并展示AgenticOCR与扩散并行解码等前沿方向。演讲提纲涵盖从传统OCR到智能文档理解的跨越,以及LLM预训练与RAG系统对高质量文档数据的刚性需求。

为什么重要

在LLM预训练与RAG规模化应用的当下,高质量文档数据获取已上升为限制AI能力的关键瓶颈。传统OCR方案在公式、复杂布局、表格等场景下可靠性低,严重制约着企业级Agent应用的落地。MinerU的演进路径——从基于OCR与布局检测的v1 Pipeline,到引入解耦式多模态大模型的v2.5架构,再到纯数据驱动的v2.5-Pro——提供了一个清晰的行业参照,表明文档解析正从“拼凑工具库”走向“垂直多模态大模型+数据为王”的模式。特别是v2.5-Pro在相同参数规模下将性能从Overall 92.98提升至95.69,几乎完全依靠数据质量优化而非模型架构创新,这一发现对当前技术选型有直接参考价值。此外,MinerU被Google Gemini 3和OpenAI GPT-5官方采纳为评测基准,意味着这一来自中国团队的成果正在影响全球大模型的评测标准。

对用户/开发者/创作者的影响

对于RAG应用开发者而言,MinerU提供了一套可直接落地的数据清洗管线参考,尤其在处理公式、表格、阅读顺序等复杂元素时,可大幅减少手动标注和规则编写的工作量。对于企业AI基础设施团队,MinerU v2.5-Pro的“数据炼金术”方法论——包含DDAS采样、CMCV验证及Judge-and-Refine自动校正——提供了一种可复用的高质量数据集构建模板,有助于降低文档解析环节的出错率。对于在技术选型中的技术决策者,MinerU的演进路线清晰地展示了从“拼凑工具库”到“垂直多模态大模型”再到“数据为王”的发展趋势,助力判断未来1-2年内文档解析能力的提升空间。对于开源项目参与者,MinerU背后的CVPR 2025/2026论文级理论创新展示了国产开源项目登顶GitHub Trending的深层次逻辑:工程实现与学术理论创新的双轮驱动。

GamsGo AI

AI 工具推荐

想把多个 AI 模型放在一个入口?

GamsGo AI 集成 ChatGPT、DeepSeek、Gemini、Claude、Midjourney、Veo 等常用模型,适合写作、绘图、视频和日常 AI 工作流。

了解 GamsGo AI

推广链接:通过此链接购买,我可能获得佣金,不影响你的价格。

值得关注的后续

一是AgenticOCR与MinerU-Diffusion是否会在AICon之后直接开源或通过API提供,这将直接影响开发者是否能将“智能点读”功能集成到自身应用;二是MinerU的评测基准被谷歌和OpenAI采纳后,是否会推动更多中国团队的文档解析工具进入全球大模型评测体系;三是v2.5-Pro数据引擎的方法论是否会被其他文档解析项目(如ppocr、PaddleOCR)快速吸收,引发新一轮性能竞争。

来源:InfoQ CN

celebrityanime
celebrityanime
文章: 5093

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注