OpenAI推出可在说话时进行推理、翻译和转录的语音模型_科技动态

创始人

2026-05-11 07:05:33

0次

OpenAI刚刚发布了三款新的实时语音模型，称这些模型将“为开发者解锁新一类语音应用”。每款新的语音智能模型都有其针对不同用途的独特专长。

开发者可利用OpenAI的三款新语音模型构建全新应用体验

这三款OpenAI语音模型分别用于推理、和转录。

以下是公司今天宣布的

OpenAI进一步解释了具备GPT‑5级推理能力的GPT‑Realtime‑2语音模型的新特性

GPT‑Realtime‑2专为实时语音交互而构建，模型在推理请求、调用工具、处理纠正或中断的同时，使对话保持流畅，并以符合当下情境的方式作出响应。

与此同时，公司表示，新语音模型支持“70种输入语言和13种输出语言”。

最后，是实时转录模型

GPT‑Realtime‑Whisper是一款为低延迟语音转文字而设计的流式转录模型。它在用户说话时实时转录音频，使实时产品感觉更快、更具响应性、更自然——从即时出现的字幕到能够跟上对话进度的会议记录。

公司称，这三款新语音模型均已纳入OpenAI的Realtime API，定价如下

您可以在Playground中测试这些新的实时语音模型。如果已安装Codex，点击下方提示的提交按钮即可将GPT‑Realtime‑2添加到现有应用或创建新应用。

您可以在此处进一步了解OpenAI最新语音模型以及已有公司如何使用这项新技术。

#GPT# #OpenAI# #开发者#