Gemini API 文件搜索现在是多模式的

一句话看懂：Google 宣布 Gemini API 的文件搜索功能升级为多模式，意味着开发者现在可以让 AI 在 PDF、图片、视频等混合文件中进行检索和分析，而不仅限于文本。这项更新直接提升了 API 在企业数据处理和复杂创作场景中的实用价值。

事件核心：发生了什么

根据 Hacker News 上的信息，Google 在博客文章中宣布，Gemini API 中的文件搜索（File Search）功能现在支持多模态输入。此前，该功能主要针对文本文件进行检索；更新后，开发者可以通过 API 上传包含图像、图表、视频或音频的文件，并让基于大模型（Gemini 模型）的搜索系统理解并抽取其中的非文本信息。例如，一个包含产品手册 PDF（含图片和表格）或一段教学视频的文件集，现在可以被 Gemini 索引并直接回答有关其内容的问题。

这一变化是 Google 对其 AI 产品线（包括 AI Studio 和 Vertex AI）中搜索能力的重要补强。尽管目前 API 的具体调用方式、价格和可用区域尚未在 HN 讨论中被详细披露，但从官方博客标题和发布背景来看，该功能已开放给开发者。

为什么重要

多模态文件搜索的意义在于，它突破了传统 RAG（检索增强生成）仅能处理文本的局限。在很多企业级应用中（如法律文档审核、医疗影像注释、营销素材管理），信息的载体往往是混合型的——一份 PDF 可能同时包含文字描述和示意图，一个培训视频可能包含语音和动态画面。Gemini API 的这次更新，使得开发者不需要先将非文本内容转写为纯文本再建立索引，而是能够直接利用 Gemini 大模型的视觉和听觉能力进行“端到端”的多模态检索。这降低了开发门槛，也减少了信息丢失的风险。

从行业竞争看，这标志着主流云 AI 平台之间的能力竞赛正从“文本对话”转向“多模态知识库”。OpenAI 的 GPT-4o 和 Anthropic 的 Claude 3.5 Sonnet 都已支持视觉理解，但在“文件搜索”这一特定 API 功能上直接集成多模态检索，Google 走在了前面。

对用户/开发者/创作者的影响

对开发者和企业应用构建者来说，最直接的影响是：
– 效率提升：在处理包含大量图表、扫描件或视频的文档库时，不需要再额外使用 OCR（光学字符识别）或ASR（自动语音识别）工具进行预处理，Gemini 可直接理解原始文件。
– API 开发复杂度降低：开发者只需调用同一个 File Search API，而无需编排多个模型或服务来分别处理图片、视频和文本。
– 可能增加调用成本：多模态处理通常消耗更多算力，预计 Gemini API 的调用费用会相应调整，具体需留意 Google 的定价页更新。

对于普通用户，这一更新可能通过第三方应用（如企业知识库、教育工具、内部数据中台）间接体验到更精确的智能搜索。而对于创作者（如视频编辑、设计师），未来的自动化工作流可以更方便地将参考视频或素材图像纳入 AI 助理的上下文。

值得关注的后续

1. 定价与配额明细：目前 Google 尚未在公开链接中明确多模态文件搜索的具体计费方式，开发者需关注是否按 token 计费、是否有免费试用额度或速率限制。
2. 实际效果与竞品对比：多模态搜索的召回率、准确度以及支持的文件格式（如大体积视频是否支持、音频搜索是否精准）是实测关键。未来几周内，预计会有独立开发者或评测机构发布对比测试。
3. AI Studio 基础体验是否会同步改善：正如 HN 评论中用户指出的，Google AI Studio 本身的搜索功能目前比较基础，仅支持搜索标题而非对话内容。高级 API 功能与前端产品体验的脱节，可能会影响开发者的信赖度。

来源：hackernews

Gemini API 文件搜索现在是多模式的