OpenAI推出可在说话时进行推理、翻译和转录的语音模型
创始人
2026-05-11 07:05:33
0

OpenAI刚刚发布了三款新的实时语音模型,称这些模型将“为开发者解锁新一类语音应用”。每款新的语音智能模型都有其针对不同用途的独特专长。

开发者可利用OpenAI的三款新语音模型构建全新应用体验

这三款OpenAI语音模型分别用于推理、和转录。

以下是公司今天宣布的

  • GPT‑Realtime‑2,我们的首款具备GPT‑5级推理能力的语音模型,能够处理更复杂的请求并自然地推动对话向前。
  • GPT‑Realtime‑Translate,一款全新的实时模型,可将70多种输入语言的语音成13种输出语言,并与说话者保持同步。
  • GPT‑Realtime‑Whisper,一款全新的流式语音转文字模型,能够在说话者发声时实时转录。

OpenAI进一步解释了具备GPT‑5级推理能力的GPT‑Realtime‑2语音模型的新特性

GPT‑Realtime‑2专为实时语音交互而构建,模型在推理请求、调用工具、处理纠正或中断的同时,使对话保持流畅,并以符合当下情境的方式作出响应。

与此同时,公司表示,新语音模型支持“70种输入语言和13种输出语言”。

最后,是实时转录模型

GPT‑Realtime‑Whisper是一款为低延迟语音转文字而设计的流式转录模型。它在用户说话时实时转录音频,使实时产品感觉更快、更具响应性、更自然——从即时出现的字幕到能够跟上对话进度的会议记录。

公司称,这三款新语音模型均已纳入OpenAI的Realtime API,定价如下

  • GPT‑Realtime‑2的定价为每1M音频输入代币 $32(缓存输入代币 $0.40),以及每1M音频输出代币 $64。
  • GPT‑Realtime‑Translate的定价为每分钟 $0.034。
  • GPT‑Realtime‑Whisper的定价为每分钟 $0.017。
您可以在Playground中测试这些新的实时语音模型。如果已安装Codex,点击下方提示的提交按钮即可将GPT‑Realtime‑2添加到现有应用或创建新应用。

您可以在此处进一步了解OpenAI最新语音模型以及已有公司如何使用这项新技术。

#GPT# #OpenAI# #开发者#

相关内容

热门资讯

我国天舟十号货运飞船整装待发,... IT之家 5 月 11 日消息,据中国载人航天工程办公室官方平台消息,目前,长征七号遥十一运载火箭已...
中部智算枢纽:输送“数字水电煤... 本报记者 贾丽 算力,是数字经济时代的“水电煤”,也是人工智能产业的发动机。当下,算力正向智算、科学...
津南这家“小巨人”又有新突破 天津北方网讯:“五一”假期刚过,位于天津市津南区的华海清科股份有限公司(简称“华海清科”)传来新消息...
工信部批复6G技术试验频率!这... 来源:e公司 6G发展正处于从技术探索迈向未来产业的关键阶段。 工信部批复6G技术试验频率 为进一步...
在海外如何观看腾讯视频?实用指... 作为一名在海外工作的华人,我太懂打开腾讯视频时的无奈:要么提示“该内容仅中国大陆可用”,要么视频加载...
OpenAI推出可在说话时进行... OpenAI刚刚发布了三款新的实时语音模型,称这些模型将“为开发者解锁新一类语音应用”。每款新的语音...
太火了!深圳人最近为何扎堆消费... “五一”假期 深圳华强北的荣耀门店内 市民王先生正拿着最新发布的 折叠屏手机Majic V6反复体验...
【深度融合】四部门发文促进人工... 8日,由国家发展改革委、国家能源局、工业和信息化部、国家数据局联合编制的《关于促进人工智能与能源双向...
产业观察:卫星物联网商用“破冰... 来源:星沙时报 来源:人民网 5月6日,北京国电高科科技有限公司(以下简称国电高科)正式获批开展卫星...
胡金秋两双引领5人上双 广厦客... 【搜狐体育战报】北京时间5月10日CBA季后赛,客场作战的浙江浙商证券以86-81击败山西汾酒,将总...