![[Bug]: presentation parsing bug](https://www.chat-gpts.plus/wp-content/uploads/2026/07/13060-7fd73526.jpg)
[Bug]: presentation parsing bug
快速结论:在 RAGFlow 解析 PPTX 文件时,图片丢失是已知的设计限制,PPTX 解析器仅提取文本(含表格文字)。优先排查是否使用了 PPTX 解析而非 PDF 解析,或考虑改用通用(General)分块方法。
问题场景
用户在使用 RAGFlow 的 ragflow:nightly 镜像(commit ID: 26d,image version: v0.23.1-312-g38289084a)解析 PPTX 演示文稿时,发现输出的解析结果中缺少所有幻灯片中的图片。
报错原文
presentation parsing bug: when use presentation parsing pptx, lost images
(注:Issue 正文未给出完整报错堆栈,此为用户描述的行为现象。)
原因分析
这是 RAGFlow 的已知设计限制:PPTX 解析器(deepdoc/parser/ppt_parser.py)只从幻灯片中提取文本(包括以文本形式提取的表格),不提取也不输出任何图像。此行为本非 Bug,已被维护者标记为“not planned”(不计划解决)。相关讨论和确认见 #10190、#10167。
环境排查
- 确认使用的 RAGFlow 镜像版本:v0.23.1-312-g38289084a 或 nightly 版本。
- 确认解析方法是否为“Presentation parsing(PPTX)”。
- 确认 PPTX 文件中是否包含图片,以及是否期望被提取。
- 若使用其他解析方法(如 PDF 解析),确认是否已转换格式。
解决步骤
- (可优先尝试)手动提取图片:从原始 PPTX 文件中手动导出图片,然后通过 RAGFlow 的图像处理管线(如图片 OCR 或描述生成)单独处理。参考 #10190 评论。
- (可优先尝试)转换格式并切换解析方法:将 PPTX 文件转换为 PDF 格式,然后使用 RAGFlow 的“General(通用)”分块方法。该方法支持从 PDF 中提取图片。参考 #9562 评论。
- 检查 RAGFlow 版本更新:虽然当前“not planned”,但建议定期查看 ppt_parser.py 和 Release Notes,确认未来是否有功能变动。
验证方法
对于上述方案 1:检查手动提取的图片是否能成功通过 RAGFlow 图像管线处理。对于方案 2:确认转换后的 PDF 经过 General 解析后,输出结果中是否包含图片内容。如果图片成功呈现,则问题解决。



