NVIDIA 发布的 AI-Q deep researcher 在 DeepResearch Bench I 和 II 同时夺冠,展示了开放、可配置的多代理研究流水线能在信息检索、合成与可引用报告质量上达到顶级表现;核心在于基于 NeMo Agent Toolkit 的多代理架构、经大量轨迹微调的 Nemotron-3-Super 模型以及定制中间件与可选的集成与报告精炼层的组合。该工作强调可复现、企业可控的端到端研究代理栈,适用于长链检索与高质量报告生成。
概述
– 成果:AI-Q deep researcher 在 DeepResearch Bench I(55.95)和 II(54.50)均排名第一。
– 意义:同时领先两套互补基准说明模型既能产出结构化、高质量的综合报告,也能在细粒度事实检索与分析上保持严谨。
架构要点
– 三层多代理流水线:Orchestrator(协调)、Planner(规划)和 Researcher(并行专项检索与合成)。
– 可选层:并行 ensemble(多个研究者并行输出合并)和 report refiner(后期润色与证据复核)。
– 设计原则:每个子代理在独立上下文内工作,避免长噪声检索结果污染总体上下文,利于长时程任务。
核心技术栈
– NVIDIA NeMo Agent Toolkit:工作流编排、函数注册、评估与可配置的代理图。
– LangChain DeepAgents:实现 planner–researcher–orchestrator 流程与子代理中间件。
– NVIDIA Nemotron-3-Super 模型:作为主要 LLM,经定制微调以增强研究推理与工具调用能力。
– 检索工具:网络搜索(Tavily)与学术检索(Serper),并坚持引用支持的报告输出。
微调与数据
– 数据来源:整合 OpenScholar(~17k 问题)、ResearchQA(~21k)与 Fathom-DeepResearch-SFT(~2.5k)等开源问题集。
– 轨迹生成:用 GPT-OSS-120B 生成约 80k 条覆盖 planner/researcher/orchestrator 行为的搜索与合成轨迹,包含真实 API 返回的检索结果。
– 过滤与评分:使用 nvidia/Qwen3-Nemotron-32B-GenRM-Principle 判模型按全面性、可读性、准确性等维度筛选,最终保留约 67k 条轨迹用于 SFT。
– 训练规模:Nemotron-3-Super-120B-A12B,1 轮、5615 步,约 25 小时(16×8 H100)。
关键改进点
– 多代理与基于证据的规划:明确分工,促进并行化与专门化检索。
– 长程可靠性中间件:扩展 NeMo 与 LangChain 中间件以提升长期任务稳定性。
– 集成与精炼:通过集成多路研究输出并由专门 LLM 精炼报告提高最终质量。
可复现性与企业适配
– 开放与可配置:AI-Q 提供可审计、可定制的蓝图,便于企业拥有与调整模型与流水线。
– 部署选项:模型可通过 NVIDIA Build 或 NVIDIA NIM 提供推理服务。
结论
– 该工作表明:结合可微调的大规模模型、多代理架构与工程化中间件,开放栈亦能在严格研究型基准上实现领先,适合企业级研究代理部署。
这是一次用工程化多代理与实证微调把开放模型推向研究级别的有力示范。