Gemini API 文件搜索现在是多模式的

一句话看懂：Google DeepMind 在 Gemini API 中为 File Search 工具增加了多模态支持、自定义元数据和页级引用。这意味着开发者可以构建能直接理解图像与文本混合内容的 RAG（检索增强生成）系统，同时检索结果的可验证性得到显著提升。

事件核心：发生了什么

2026 年 5 月 5 日，Google 宣布 Gemini API 的 File Search 工具迎来三项重大更新。首先，工具由 Gemini Embedding 2 模型驱动，原生支持图像与文本的联合处理，不再需要依赖关键词或文件名来匹配视觉素材。其次，新增自定义元数据功能，允许开发者为文件附加“部门:法务”或“状态:终稿”等键值标签，在查询时通过元数据过滤缩小搜索范围。第三，引入页级引用（page citations），系统可以标记检索结果来自 PDF 中的具体页码，帮助用户直接定位原始出处。这些更新旨在将非结构化数据（图片、PDF）转化为可组织、可验证的结构化检索资源。

为什么重要

目前主流的 RAG 流程对视觉内容的处理能力偏弱，通常需要先通过 OCR 或单独的图像描述模型转写为文本才能纳入检索。Gemini API File Search 的多模态能力直接跳过了这一步骤，让图像成为一等检索单元，这对广告创意、品牌资产管理、法律文档审查等包含大量视觉元素的行业场景尤其关键。自定义元数据则解决了规模化 RAG 的“数据噪声”问题——当文件库增长到数万份时，仅靠语义搜索可能淹没在无关结果中；元数据过滤相当于在检索前先划出数据子集，既提升速度，也降低大模型引用错误文档的风险。而页级引用直接回应了企业用户对 AI 落地时“可信度”的担忧，让答案不再是黑箱输出。

对用户/开发者/创作者的影响

对于基于 Gemini API 构建应用的中小开发者和企业团队，这次更新降低了实现“多模态检索”的工程复杂度。例如，一个创意机构可以构建应用，让用户用自然语言描述“一张色调偏冷、带有怀旧感的城市夜景照片”，系统直接在所有素材库中命中目标图像，无须为每张图预先打标签。文档密集型行业（如法律、合规、学术）的开发者可以利用元数据 + 页级引用来构建具有透明度的工作流：当模型回答“根据公司 2025 年财务报告第 12 页的表述……”，系统可以展示原文 PDF 的对应页面截图，便于法务或审计人员快速核查。对于个人创作者，File Search 的简化上传与搜索接口也意味着可以快速为自己的笔记库、项目参考资料搭建一个私有的可检索知识库。

值得关注的后续

第一，定价与配额：多模态检索消耗的计算资源通常高于纯文本检索，目前公开信息未明确新功能是否涉及额外计费或 API 调用限额变化，开发者需留意 Gemini API 的价格页更新。第二，竞品跟进：OpenAI、Anthropic 和 Cohere 等竞争对手的 RAG 产品仍在加强多模态能力，Google 这次借助 Gemini Embedding 2 的视觉理解优势抢跑一步，后续竞品是否能快速补齐功能值得观察。第三，落地场景验证：页级引用对 PDF 的格式依赖较高（如扫描件缺乏文本层级），在真实企业文档（含大量扫描件、图表 PDF）中的准确率需要社区样本反馈，这将直接影响工具在法律与金融场景的采用速度。

来源：Hacker News · 24h最热

Gemini API 文件搜索现在是多模式的