【GOOGLE】Google 视觉搜索如何实现多目标识别

谷歌通过将Gemini多模态模型与Lens的视觉检索结合，在Search的AI Mode中实现了对单张图像内多个目标的并行识别与检索。系统先进行多目标推理，然后用“fan-out”并发触发多次检索，整合结果后以一条连贯响应呈现给用户。

背景
– 以往视觉搜索常只针对图像中的单一目标检索。
– 新更新的 Circle to Search 与 Lens 能一次性识别并搜索图像中多个对象（如整套穿搭或房间内的多件家具）。

技术流程（概览）
– 多模态模型（Gemini）作为“脑”：同时解析图像与用户查询，进行多目标推理，决定需要调用哪些检索工具。
– 视觉检索后端作为“资料库”：包含海量网页/图像结果供检索使用。
– Fan-out 技术：模型并行发起多次视觉搜索（相当于同时做多次查询），随后读取并汇总每次检索的结果。
– 汇总与呈现：将各个子结果融合为一条易读、带链接的响应，用户可直接查看每个组件的具体来源或详情。

应用场景
– 时尚：对社交媒体上的整套穿搭同时识别帽子、鞋子、外套等并给出购买或相似款信息。
– 家居/设计：对一张房间照分解出桌椅、灯具、地毯等，帮助重建风格或购买相似单品。
– 广泛用途：解释图片中复杂元素（从植物到数学公式）并检索相关信息或步骤。

要点与限制
– 依赖Gemini的多模态能力与Lens多年累积的视觉专长。
– Fan-out 提高了并行性与响应速度，但仍受限于检索质量和后端数据覆盖。
– Google提示AI生成内容为实验性，检索结果仍需用户判断与验证。

这是将大模型推理与传统检索并联的实用做法，但检索质量与事实性仍是未来需要重点提升的点。

原文链接

Leave a Comment Cancel reply