【OPENAI】实时语音模型推动智能语音应用

OpenAI 在 API 中推出三款实时音频模型——GPT‑Realtime‑2、GPT‑Realtime‑Translate 和 GPT‑Realtime‑Whisper，旨在让语音交互更智能、自然并支持实时翻译与转录。新模型增强了推理能力、工具调用、上下文记忆与可控语气，适合构建可执行任务、多语言会话和低延迟转写的生产级语音应用。

概述
– 三款新模型：GPT‑Realtime‑2（强推理与会话管理）、GPT‑Realtime‑Translate（70+源语到13目标语的实时翻译）、GPT‑Realtime‑Whisper（流式实时转录）。
– 目标：把语音从简单问答升级为能听、推理、翻译、转录并在对话中执行操作的智能代理。

GPT‑Realtime‑2 关键能力
– 实时推理与行为：可在说话时保持对话、处理更复杂请求并调用工具。
– 多工具并行与可听化反馈：可同时调用多个工具并用短语告知用户当前动作（如“正在查日程”）。
– 更强恢复能力：遇到问题时给出友好提示而不是中断对话。
– 可调的推理强度：支持 minimal/low/medium/high/xhigh，平衡延迟与推理深度（默认 low）。
– 扩展上下文窗口：从 32K 增至 128K，以支持更长的会话与复杂工作流。
– 语域理解与语气控制：更好保留专业术语、专有名词，并能调整表达风格与情绪。
– 评测提升：在 Big Bench Audio 与 Audio MultiChallenge 上显著优于前代模型。

实时翻译与转录
– GPT‑Realtime‑Translate：支持 70+ 输入语言、13 种输出语言的低延迟实时翻译，适合跨语种会话场景。
– GPT‑Realtime‑Whisper：流式语音转文本，实时转录发言者内容，适用于字幕与记录。

应用场景与示例
– Voice-to-action：例如房地产助手可理解预算偏好、避开繁忙街道并安排看房。
– Systems-to-voice：应用可将上下文转化为动态语音指南（如航班变动更新与路线指引）。
– Voice-to-voice：实时跨语言通话翻译与支持（例如电信客服或出境旅游场景）。
– 早期客户包括 Zillow、Priceline、Deutsche Telekom、Intercom 等，已在客服、旅行与健康等领域试用。

安全、定价与可用性
– 文章提到安全性与可用性考虑，但未给出详细定价或完整发布计划。

如何开始
– 开发者可通过 OpenAI API 启动会话并在实时语音中与模型交互，示例演示了多种用户用例与提示样式。

这些模型把语音从简单问答推向可执行任务的智能代理，但生产化仍需关注隐私、合规与延迟成本。

原文链接

【OPENAI】实时语音模型推动智能语音应用

不错过任何一条 AI 大事

相关阅读

苹果起诉 OpenAI 与前员工，称 AI 硬件扩张建立在机密信息之上

Meta 三天内下架 Muse Image：公开 Instagram 内容默认引用引发隐私风波