【GOOGLE】Gemini Omni 与 3.5 Flash 演示要点

Google 在 I/O 2026 推出 Gemini Omni 与 Gemini 3.5（含 3.5 Flash），前者主打多模态创作与对话式视频编辑，后者增强代理化执行与长时任务能力并面向编码与多步工作流。文章通过 9 个演示展示了 Omni 的视频重塑、连续编辑与保持场景一致性，以及 3.5 Flash 在大规模代理、协同子代理（Antigravity）、网页 UI 生成与作为 Gemini 应用/搜索 AI 模型中的默认模型方面的应用。

概览
– 产品：Gemini Omni、Gemini 3.5（包含 3.5 Flash）。
– 发布场合：Google I/O 2026。

Gemini Omni（多模态创作与对话式视频编辑）
– 输入支持：图像、音频、视频与文本的任意组合。
– 能力亮点：
– 用自然语言对视频进行多轮编辑，指令可叠加，场景记忆保持角色与物理一致性。
– 可以重构动作、加入/替换角色或物体，改变光线、镜头角度、风格等。
– 适合把拍摄视频作为起点生成原本无法拍摄的场景（示例：泡泡雕塑、递归球体内场景、乐手场景的连续编辑）。

Gemini 3.5 Flash（代理化执行与长时任务）
– 定位：在速度与性能间取得平衡，适合复杂、长时、多步骤的代理任务与编码工作。
– Antigravity 整合：与更新后的 Antigravity 框架配合，可部署协同子代理处理大规模、受监控的多步骤工作流与代码任务。
– 应用示例：自动重命名与分类非结构化资产、在 AI Studio 中 60 秒内生成不同的结账流 UX 方案。
– 部署：3.5 Flash 已成为 Gemini 应用和搜索 AI 模式（AI Mode）的默认模型，用于个人 AI 代理与智能体验。

开发者与实践者要点
– 如果目标是创造与编辑高质量视频并通过对话迭代，优先评估 Omni 的多模态接入与保持上下文能力。
– 若需构建长期、多步骤代理或自动化编码/资产管理流程，重点评估 3.5 Flash 与 Antigravity 的协同能力与监控机制。
– 在产品化时注意监督、审查生成内容与保持一致性的落地工程挑战（版本控制、可解释性与安全约束）。

这次发布把生成式创作和代理化执行两条路线并行推进，适合把创作型交互与大规模自动化结合的产品化尝试。

原文链接

Leave a Comment Cancel reply