Google 发布 Running Guide agent,一种面向盲人及视力低下跑者的实时辅助系统,结合胸前 Pixel 10 Pro 的离线分割与 Gemma 4 的多模态理解,实现低延迟的危险提醒与路线引导。该系统采用多智能体架构并正在向智能眼镜原型与社区共创测试推进,目标是实现无辅助独立跑步。
概览
- 目标:为盲人/低视力(BLV)跑者提供无需牵引或人工引导的实时导航与安全提醒,推动“无辅助独立跑步”。
- 平台:胸前 Pixel 10 Pro(离线运行)+ Gemma 4 E4B 的本地多模态推理,正在试验智能眼镜原型。
关键技术与架构
- 混合双路径架构:
- 设备端分割(On-device segmentation):在 Pixel 10 的定制芯片上离线运行,保证超低延迟,用于立即发出“STOP”与方向节拍提示,确保在无网络下的安全性。
-
Gemma 4 推理路径:利用 Gemma 4 E4B 进行高阶场景理解(图片+文本),通过“Smarter Frame Selection”只处理高信息量帧(例如突变地形或新障碍),以控制延迟同时提供丰富语义判断。
-
多智能体框架:
- Planner agent:调用 Gemma 4 的函数能力,整合天气与地图信息,与跑者确认目标并校准起点。
- Coach agent:运行中提供简洁口头警示,按优先级分为 DANGER(需立刻避让)、WARNING(附近障碍/跑者)和 NOTICE(前方弯道)。
- Break agent:管理休息与恢复,支持随时暂停/继续训练。
硬件迭代与伙伴合作
- 智能眼镜原型:相比胸部摄像头,眼镜可提供更宽、更稳定的视野,改善多模态输入质量并直接向 Pixel 设备流媒体传输。
- 社区合作:与新加坡 SG Enable 合作,邀请 BLV 跑者参与真实场景测试与迭代设计,强调与目标用户共同开发。
进展与目标
- 该项目展示了将零延迟边缘计算与深度场景理解结合到运动安全辅助中的可行路径。
- 长期目标是实现每位跑者在无外部辅助下的独立、安全跑步体验。
更多信息
- 源自 Google DeepMind / Google Research 团队公开说明,系统仍在完善和测试中,强调安全与社区反馈驱动的迭代。
这是将边缘分割与大型多模态模型结合到可穿戴无障碍应用的有力示范,但关键在于大量真实场景的长期验证。