Google 将 Gemini API 的 File Search 扩展为多模态检索,支持同时索引图像与文本、附加自定义元数据过滤并返回页级引用,以构建更高效且可核验的 RAG 系统。新特性通过 Gemini Embedding 2 提供图像理解、元数据筛选减少噪声、页码引用提升可追溯性,适用于原型和生产级应用。
概览
– 产品:Gemini API 的 File Search 工具
– 三项主要更新:多模态支持、自定义元数据过滤、页级引用(page citations)
多模态支持
– 现在可同时处理文本和图像,基于 Gemini Embedding 2 模型理解原生图像数据。
– 用例示例:按视觉风格或情绪在素材库中检索匹配的图片,而不仅靠关键词或文件名。
自定义元数据过滤
– 允许为非结构化文件附加键值元数据(如 department: Legal、status: Final)。
– 查询时应用元数据过滤可缩小数据切片,减少无关文档干扰,提高检索速度与准确性,利于大规模数据集的 RAG 流程。
页级引用(可核验性)
– 检索结果可返回原始来源的页码,便于直接定位答案出处。
– 提高透明性与可核验性,方便事实核查与信任构建。
适用场景与上手
– 适合从快速原型到面向千级用户的生产应用。
– Google 提供开发者指南与 Gemini API 文档,File Search 负责基础设施细节,开发者可专注产品开发。
影响小结
– 这些更新增强了 RAG 系统对视觉内容的感知能力、查询过滤能力与结果可追溯性,有助于在多模态数据上构建更可靠的检索-生成应用。
把图像理解、元数据过滤和页级引用结合到检索层,是向可核验、多模态 RAG 实战化迈出的重要一步。