
The ‘Document Extractor’ node failed to recognize the PDF file.
快速结论:此报错在 Dify v1.13.0 版本中常见,可能由 PDF 文件损坏/格式异常、工作流中变量传递失败,或空文件列表传入节点触发。优先排查传入 Document Extractor 节点的文件变量是否已正确填充。
问题场景
用户在使用 Dify Cloud 版(版本 1.13.0)构建工作流时,Document Extractor 节点无法识别上传的 PDF 文件,但同一工作流中 Word 文件可以正常提取。该问题可能为间歇性出现,或仅对特定 PDF 文件发生。
报错原文
The 'Document Extractor' node failed to recognize the PDF file.
原因分析
可能原因来自以下三个方面:
- 文件变量传递错误:在 v1.13.0 中,Document Extractor 的输出变量在某些工作流节点类型中不可访问(相关 Issue #33765),导致用户误以为提取失败,实际上是变量未正确传播。
- 文件输入验证:近期修复(PR #33031, #35209)表明,当向 Document Extractor 传入
None或空文件列表时,节点会崩溃而非优雅地处理失败。请确保传入节点的文件变量已正确填充。 - PDF 文件完整性:Dify 底层使用
pypdfium2解析 PDF,损坏或非标准的 PDF 文件会导致解析失败。可尝试使用其他 PDF 文件以排除此原因。
环境排查
- Dify 版本:v1.13.0
- 部署方式:Cloud
- 依赖库:
pypdfium2(PDF 解析核心库) - 确认传入 Document Extractor 节点的文件变量是否为空或
None - 确认其他格式文件(如 Word)是否能正常提取
解决步骤
- 验证文件变量:在工作流中检查传入 Document Extractor 节点的文件变量是否已正确填充,避免传入空值或未定义变量。可优先尝试此步骤。
- 更换 PDF 文件:使用一个确保格式标准、非损坏的 PDF 文件再次测试,以排除文件本身问题。
- 检查输出变量引用:如果在工作流其它节点中引用 Document Extractor 输出变量时出现异常,请检查节点连接是否正确。若问题与变量传播相关,可参考 Issue #33765 的进展。
- 升级版本:由于 v1.13.0 存在已知的相关 Bug,建议关注 Dify 后续版本是否有补丁修复。Issue 关闭时未明确指定需升级至哪一版本,建议查阅最新 Release Notes。
验证方法
使用一个标准、未损坏的 PDF 文件,在工作流中重新运行 Document Extractor 节点,观察是否能成功提取文本且无报错。同时确认工作流后续节点可正确访问提取结果。
参考来源
langgenius/dify #37488
langgenius/dify #33765 – Document Extractor 输出变量不可访问
langgenius/dify #33031 – 修复空文件列表导致的崩溃
langgenius/dify #35209 – 修复 None 文件输入问题



