OpenAI刚刚发布了三款新的实时语音模型,称这些模型将“为开发者解锁新一类语音应用”。每款新的语音智能模型都有其针对不同用途的独特专长。
开发者可利用OpenAI的三款新语音模型构建全新应用体验
这三款OpenAI语音模型分别用于推理、和转录。
以下是公司今天宣布的
OpenAI进一步解释了具备GPT‑5级推理能力的GPT‑Realtime‑2语音模型的新特性
GPT‑Realtime‑2专为实时语音交互而构建,模型在推理请求、调用工具、处理纠正或中断的同时,使对话保持流畅,并以符合当下情境的方式作出响应。
与此同时,公司表示,新语音模型支持“70种输入语言和13种输出语言”。
最后,是实时转录模型
GPT‑Realtime‑Whisper是一款为低延迟语音转文字而设计的流式转录模型。它在用户说话时实时转录音频,使实时产品感觉更快、更具响应性、更自然——从即时出现的字幕到能够跟上对话进度的会议记录。
公司称,这三款新语音模型均已纳入OpenAI的Realtime API,定价如下
您可以在Playground中测试这些新的实时语音模型。如果已安装Codex,点击下方提示的提交按钮即可将GPT‑Realtime‑2添加到现有应用或创建新应用。
您可以在此处进一步了解OpenAI最新语音模型以及已有公司如何使用这项新技术。
#GPT# #OpenAI# #开发者#
下一篇:在海外如何观看腾讯视频?实用指南