Google 在 I/O 2026 推出 Gemini Omni 与 Gemini 3.5(含 3.5 Flash),前者主打多模态创作与对话式视频编辑,后者增强代理化执行与长时任务能力并面向编码与多步工作流。文章通过 9 个演示展示了 Omni 的视频重塑、连续编辑与保持场景一致性,以及 3.5 Flash 在大规模代理、协同子代理(Antigravity)、网页 UI 生成与作为 Gemini 应用/搜索 AI 模型中的默认模型方面的应用。
概览
– 产品:Gemini Omni、Gemini 3.5(包含 3.5 Flash)。
– 发布场合:Google I/O 2026。
Gemini Omni(多模态创作与对话式视频编辑)
– 输入支持:图像、音频、视频与文本的任意组合。
– 能力亮点:
– 用自然语言对视频进行多轮编辑,指令可叠加,场景记忆保持角色与物理一致性。
– 可以重构动作、加入/替换角色或物体,改变光线、镜头角度、风格等。
– 适合把拍摄视频作为起点生成原本无法拍摄的场景(示例:泡泡雕塑、递归球体内场景、乐手场景的连续编辑)。
Gemini 3.5 Flash(代理化执行与长时任务)
– 定位:在速度与性能间取得平衡,适合复杂、长时、多步骤的代理任务与编码工作。
– Antigravity 整合:与更新后的 Antigravity 框架配合,可部署协同子代理处理大规模、受监控的多步骤工作流与代码任务。
– 应用示例:自动重命名与分类非结构化资产、在 AI Studio 中 60 秒内生成不同的结账流 UX 方案。
– 部署:3.5 Flash 已成为 Gemini 应用和搜索 AI 模式(AI Mode)的默认模型,用于个人 AI 代理与智能体验。
开发者与实践者要点
– 如果目标是创造与编辑高质量视频并通过对话迭代,优先评估 Omni 的多模态接入与保持上下文能力。
– 若需构建长期、多步骤代理或自动化编码/资产管理流程,重点评估 3.5 Flash 与 Antigravity 的协同能力与监控机制。
– 在产品化时注意监督、审查生成内容与保持一致性的落地工程挑战(版本控制、可解释性与安全约束)。
这次发布把生成式创作和代理化执行两条路线并行推进,适合把创作型交互与大规模自动化结合的产品化尝试。