【NVIDIA】开源外科机器人物理AI基础集

Hugging Face 与学术和产业社区发布 Open-H-Embodiment——首个大规模开源医疗机器人数据集，并基于该数据集发布两款物理AI基础模型：用于外科任务的视觉-语言-动作策略模型 GR00T-H 和用于动作条件外科仿真的 Cosmos-H。数据与模型旨在缩小 sim-to-real 差距，推动可执行、闭环的手术机器人自主能力发展。

概览
– 项目：Open-H-Embodiment，由学术界（如 Johns Hopkins、TUM）与产业（含 NVIDIA、CMR Surgical 等）35 个组织协作。
– 数据量：778 小时 CC-BY-4.0 医疗机器人训练数据，涵盖仿真、台式练习与真实临床，包含外科、超声与内窥镜自治任务。

数据集特点
– 多机体：商业机器人（CMR Surgical、Rob Surgical、Tuodao）与研究平台（dVRK、Franka、Kuka）。
– 同步模态：视觉、力觉、运动学等，有助于训练闭环控制与触觉交互模型。
– 用途：用于训练策略模型、仿真器微调与生成合成视频-动作对以扩充不足样本。

关键模型
– GR00T-H（Vision-Language-Action 策略）
– 训练量：约 600 小时 Open-H 数据。
– 架构要点：每台机器的可学习 MLP 投影到共享动作空间；推理时对本体态态量使用 100% 丢弃以形成偏置项；使用相对末端执行器动作；将在任务提示中注入工具与控制映射元数据。
– 能力：已在 SutureBot 基准上演示端到端缝合策略。

Cosmos-H-Surgical-Simulator（动作条件世界模型）
基础：从 Cosmos Predict 微调，能从运动学动作生成物理上合理的外科视频，隐式学习组织变形与工具交互。
效率：600 个 rollout 在仿真中仅用时约 40 分钟，相较真实台式方法大幅加速。
数据与资源：微调用 ~64x A100、约 10,000 GPU 小时，采用统一 44 维动作空间。

下一步与社区参与
– 目标：将数据集扩展为支持推理的“手术机器人 ChatGPT”，包含带意图、结果与故障标注的任务轨迹，以实现可解释、可规划的长期手术自治。
– 参与方式：代码与数据在 Hugging Face 与 GitHub 开源，附带 Cosmos 使用手册与模型权重链接。

可用资源（原文提供链接）
– Open-H-Embodiment 数据集与 GitHub 仓库
– Isaac GR00T-H 与 Cosmos-H 模型与示例笔记本
– Cosmos Cookbook：构建自有 WFM 的工作流程

这是医疗机器人从感知向可执行物理AI跨越的重要开源基石，但要达到安全可靠的临床自治仍需大量注释化推理数据与长期验证。

原文链接

Leave a Comment Cancel reply