谷歌通过将Gemini多模态模型与Lens的视觉检索结合,在Search的AI Mode中实现了对单张图像内多个目标的并行识别与检索。系统先进行多目标推理,然后用“fan-out”并发触发多次检索,整合结果后以一条连贯响应呈现给用户。
背景
– 以往视觉搜索常只针对图像中的单一目标检索。
– 新更新的 Circle to Search 与 Lens 能一次性识别并搜索图像中多个对象(如整套穿搭或房间内的多件家具)。
技术流程(概览)
– 多模态模型(Gemini)作为“脑”:同时解析图像与用户查询,进行多目标推理,决定需要调用哪些检索工具。
– 视觉检索后端作为“资料库”:包含海量网页/图像结果供检索使用。
– Fan-out 技术:模型并行发起多次视觉搜索(相当于同时做多次查询),随后读取并汇总每次检索的结果。
– 汇总与呈现:将各个子结果融合为一条易读、带链接的响应,用户可直接查看每个组件的具体来源或详情。
应用场景
– 时尚:对社交媒体上的整套穿搭同时识别帽子、鞋子、外套等并给出购买或相似款信息。
– 家居/设计:对一张房间照分解出桌椅、灯具、地毯等,帮助重建风格或购买相似单品。
– 广泛用途:解释图片中复杂元素(从植物到数学公式)并检索相关信息或步骤。
要点与限制
– 依赖Gemini的多模态能力与Lens多年累积的视觉专长。
– Fan-out 提高了并行性与响应速度,但仍受限于检索质量和后端数据覆盖。
– Google提示AI生成内容为实验性,检索结果仍需用户判断与验证。
这是将大模型推理与传统检索并联的实用做法,但检索质量与事实性仍是未来需要重点提升的点。