【NVIDIA】面向高吞吐的Holotron-12B代理模型

Holotron-12B 是 H Company 基于 NVIDIA Nemotron-Nano-2 VL 通过专有数据混合后训练的多模态“电脑使用”代理模型，优化了长上下文、多图像和高并发场景的推理吞吐与实用性。该模型采用混合 SSM-注意力架构，在单张 H100 上配合 vLLM 优化实现了比 Holo2-8B 超过 2 倍的吞吐，并在 WebVoyager 与多项定位基准上显著提升了代理性能力。

简介
– Holotron-12B 由 H Company 基于 NVIDIA Nemotron-Nano-12B-v2-VL-BF16 进行两阶段后训练，目标是作为能感知、决策与交互的“电脑使用”策略模型。

架构与性能亮点
– 混合 SSM + 注意力：用 SSM 替代全局 KV 缓存，内存占用与序列长度无关，利于长上下文、多图像场景。
– 高吞吐：在单张 H100 GPU 上、使用 vLLM（含 SSM 优化），Holotron-12B 在 WebVoyager 实测中对比 Holo2-8B 达到超过 2x 吞吐优势；并在并发 100 时稳定扩展至 8.9k tokens/s。
– VRAM 利用率高：更小内存占用允许更大有效批量，利于数据生成、标注和在线 RL 等吞吐受限任务。

训练与数据
– 基础模型：Nemotron-Nano-12B-v2-VL-BF16（NVIDIA 开源）；
– 后训练：在 H Company 专有的定位、导航、屏幕理解与 UI 交互数据混合上做监督微调，最终检查点约在 140 亿 tokens 训练量级。

基准表现
– WebVoyager：从 Nemotron 基线的 35.1% 提升至 80.5%，优于 Holo2-8B。
– 定位/接地：在 OS-World-G、GroundUI、WebClick 等基准上也有显著改进。

可用性与许可
– 模型与检查点已在 Hugging Face 发布，采用 NVIDIA Open Model License。

后续方向
– 团队计划借助 Nemotron 3 Omni 的混合 SSM-注意力与 MoE 架构，进一步提升推理性能、推理精度与高分辨率视觉能力，面向大规模商业化“自动电脑使用”部署。

这是把 SSM 架构落地到多模态代理推理的有力示例，尤其适合高并发、长上下文场景。

原文链接

Leave a Comment Cancel reply