连发三款音频模型OpenAI踢开语音智能体开发大门

发布时间：2025-03-21

点击次数：

　　3月21日消息，昨晚，OpenAI一口气发布了三款音频模型，并对 AgentSDK进行了重要升级，旨在帮助开发者构建更强大的「语音智能体」。

连发三款音频模型OpenAI踢开语音智能体开发大门(图1)

　　据 OpenAI 称，这两款语音转文本模型在各种语言的转录准确率上全面超越之前的 Whisper 模型。

　　为了方便开发者将文本智能体升级为语音智能体，OpenAI 还对 Agent SDK 进行了深度优化。升级后的 SDK 支持双向流式传输，语音输入和输出更加实时。此外，Agent SDK 还与 OpKaiyun网站enAI 的调试 UI 无缝集成，开发者可以直观追踪语音交互的全过程，快速定位并修复问题。

　　据介绍，新音频模型基于 GPT‑4o 和 GPT‑4o-mini 架构，在专门的音频数据集上进行了广泛预训练。OpenAI 采用增强蒸馏技术，使小型模型在性能上接近大型模型，同时通过强化学习（RL）方法大幅提高语音转录的准确度，减少识别错误。

　　OpenAI 平台负责人 Olivier Godement Kaiyun网站在直播中表示，语音是人类最自然的交互方式，打造可靠、精准、灵活的语音智能体，将极大地拓展 AI 的应用场景。（袁宁）

　　李开复：中国大模型未来大概率只剩下DeepSeek、阿里和字节跳动三家

　　贾平凹：人老了，躺在病床上才明白，废掉身体最快速的方式，不是抽烟、喝酒、打麻将，而是这2件事

　　复旦大学研究生退学摆摊卖土豆泥当事人：请大家鼓起勇气，问清自己想要什么

　　《编码物候》展览开幕北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律

　　全球首款RGB-Mini LED电视来了！海信发布旗舰新品：27999-99999元

　　英睿达P310 SSD 2TB评测：满速PCIe 4.0还自带散热片 PS5扩容好选择

　　99999 元，海信 116 英寸 UX RGB-Mini LED 电视发布

Kaiyun·官方网站-（中国大陆）登录入口

连发三款音频模型OpenAI踢开语音智能体开发大门