Holotron-12B 是 H Company 基于 NVIDIA Nemotron-Nano-2 VL 通过专有数据混合后训练的多模态“电脑使用”代理模型,优化了长上下文、多图像和高并发场景的推理吞吐与实用性。该模型采用混合 SSM-注意力架构,在单张 H100 上配合 vLLM 优化实现了比 Holo2-8B 超过 2 倍的吞吐,并在 WebVoyager 与多项定位基准上显著提升了代理性能力。
简介
– Holotron-12B 由 H Company 基于 NVIDIA Nemotron-Nano-12B-v2-VL-BF16 进行两阶段后训练,目标是作为能感知、决策与交互的“电脑使用”策略模型。
架构与性能亮点
– 混合 SSM + 注意力:用 SSM 替代全局 KV 缓存,内存占用与序列长度无关,利于长上下文、多图像场景。
– 高吞吐:在单张 H100 GPU 上、使用 vLLM(含 SSM 优化),Holotron-12B 在 WebVoyager 实测中对比 Holo2-8B 达到超过 2x 吞吐优势;并在并发 100 时稳定扩展至 8.9k tokens/s。
– VRAM 利用率高:更小内存占用允许更大有效批量,利于数据生成、标注和在线 RL 等吞吐受限任务。
训练与数据
– 基础模型:Nemotron-Nano-12B-v2-VL-BF16(NVIDIA 开源);
– 后训练:在 H Company 专有的定位、导航、屏幕理解与 UI 交互数据混合上做监督微调,最终检查点约在 140 亿 tokens 训练量级。
基准表现
– WebVoyager:从 Nemotron 基线的 35.1% 提升至 80.5%,优于 Holo2-8B。
– 定位/接地:在 OS-World-G、GroundUI、WebClick 等基准上也有显著改进。
可用性与许可
– 模型与检查点已在 Hugging Face 发布,采用 NVIDIA Open Model License。
后续方向
– 团队计划借助 Nemotron 3 Omni 的混合 SSM-注意力与 MoE 架构,进一步提升推理性能、推理精度与高分辨率视觉能力,面向大规模商业化“自动电脑使用”部署。
这是把 SSM 架构落地到多模态代理推理的有力示例,尤其适合高并发、长上下文场景。