OpenAI 在 API 中推出三款实时音频模型——GPT‑Realtime‑2、GPT‑Realtime‑Translate 和 GPT‑Realtime‑Whisper,旨在让语音交互更智能、自然并支持实时翻译与转录。新模型增强了推理能力、工具调用、上下文记忆与可控语气,适合构建可执行任务、多语言会话和低延迟转写的生产级语音应用。
概述
– 三款新模型:GPT‑Realtime‑2(强推理与会话管理)、GPT‑Realtime‑Translate(70+源语到13目标语的实时翻译)、GPT‑Realtime‑Whisper(流式实时转录)。
– 目标:把语音从简单问答升级为能听、推理、翻译、转录并在对话中执行操作的智能代理。
GPT‑Realtime‑2 关键能力
– 实时推理与行为:可在说话时保持对话、处理更复杂请求并调用工具。
– 多工具并行与可听化反馈:可同时调用多个工具并用短语告知用户当前动作(如“正在查日程”)。
– 更强恢复能力:遇到问题时给出友好提示而不是中断对话。
– 可调的推理强度:支持 minimal/low/medium/high/xhigh,平衡延迟与推理深度(默认 low)。
– 扩展上下文窗口:从 32K 增至 128K,以支持更长的会话与复杂工作流。
– 语域理解与语气控制:更好保留专业术语、专有名词,并能调整表达风格与情绪。
– 评测提升:在 Big Bench Audio 与 Audio MultiChallenge 上显著优于前代模型。
实时翻译与转录
– GPT‑Realtime‑Translate:支持 70+ 输入语言、13 种输出语言的低延迟实时翻译,适合跨语种会话场景。
– GPT‑Realtime‑Whisper:流式语音转文本,实时转录发言者内容,适用于字幕与记录。
应用场景与示例
– Voice-to-action:例如房地产助手可理解预算偏好、避开繁忙街道并安排看房。
– Systems-to-voice:应用可将上下文转化为动态语音指南(如航班变动更新与路线指引)。
– Voice-to-voice:实时跨语言通话翻译与支持(例如电信客服或出境旅游场景)。
– 早期客户包括 Zillow、Priceline、Deutsche Telekom、Intercom 等,已在客服、旅行与健康等领域试用。
安全、定价与可用性
– 文章提到安全性与可用性考虑,但未给出详细定价或完整发布计划。
如何开始
– 开发者可通过 OpenAI API 启动会话并在实时语音中与模型交互,示例演示了多种用户用例与提示样式。
这些模型把语音从简单问答推向可执行任务的智能代理,但生产化仍需关注隐私、合规与延迟成本。