【NVIDIA】开源外科机器人物理AI基础集

Hugging Face 与学术和产业社区发布 Open-H-Embodiment——首个大规模开源医疗机器人数据集,并基于该数据集发布两款物理AI基础模型:用于外科任务的视觉-语言-动作策略模型 GR00T-H 和用于动作条件外科仿真的 Cosmos-H。数据与模型旨在缩小 sim-to-real 差距,推动可执行、闭环的手术机器人自主能力发展。

概览
– 项目:Open-H-Embodiment,由学术界(如 Johns Hopkins、TUM)与产业(含 NVIDIA、CMR Surgical 等)35 个组织协作。
– 数据量:778 小时 CC-BY-4.0 医疗机器人训练数据,涵盖仿真、台式练习与真实临床,包含外科、超声与内窥镜自治任务。

数据集特点
– 多机体:商业机器人(CMR Surgical、Rob Surgical、Tuodao)与研究平台(dVRK、Franka、Kuka)。
– 同步模态:视觉、力觉、运动学等,有助于训练闭环控制与触觉交互模型。
– 用途:用于训练策略模型、仿真器微调与生成合成视频-动作对以扩充不足样本。

关键模型
– GR00T-H(Vision-Language-Action 策略)
– 训练量:约 600 小时 Open-H 数据。
– 架构要点:每台机器的可学习 MLP 投影到共享动作空间;推理时对本体态态量使用 100% 丢弃以形成偏置项;使用相对末端执行器动作;将在任务提示中注入工具与控制映射元数据。
– 能力:已在 SutureBot 基准上演示端到端缝合策略。

  • Cosmos-H-Surgical-Simulator(动作条件世界模型)
  • 基础:从 Cosmos Predict 微调,能从运动学动作生成物理上合理的外科视频,隐式学习组织变形与工具交互。
  • 效率:600 个 rollout 在仿真中仅用时约 40 分钟,相较真实台式方法大幅加速。
  • 数据与资源:微调用 ~64x A100、约 10,000 GPU 小时,采用统一 44 维动作空间。

下一步与社区参与
– 目标:将数据集扩展为支持推理的“手术机器人 ChatGPT”,包含带意图、结果与故障标注的任务轨迹,以实现可解释、可规划的长期手术自治。
– 参与方式:代码与数据在 Hugging Face 与 GitHub 开源,附带 Cosmos 使用手册与模型权重链接。

可用资源(原文提供链接)
– Open-H-Embodiment 数据集与 GitHub 仓库
– Isaac GR00T-H 与 Cosmos-H 模型与示例笔记本
– Cosmos Cookbook:构建自有 WFM 的工作流程

这是医疗机器人从感知向可执行物理AI跨越的重要开源基石,但要达到安全可靠的临床自治仍需大量注释化推理数据与长期验证。

原文链接

Leave a Comment