首页 > 深度解读 > 音讯称OpenAI研发新语音模子BiDi

音讯称OpenAI研发新语音模子BiDi

2026-03-06 19:46:02

AIPress.com.cn报道

3月6日消息，据报道，OpenAI正在秘密研发一款代号为“BiDi”（Bidirectional，双向）的全新音频模型。目标是让用户和ChatGPT的语音对话听起来不那么像机器人。核心改进点在于：当用户中途插话、打断时，AI能像真人聊天一样及时调整话术，而不是突然停住或重新来一遍。

目前ChatGPT的高级语音模式更像轮流发言的机制：用户必须把话说完，系统才会处理音频并生成回答。如果用户在AI说话时插入一些很自然的反馈，比如“好的”“嗯”“对”，模型往往会直接停止输出，难以做到人类对话那种边听边说、随时纠偏的节奏。

OpenAI正在做的下一代音频模型它的思路是持续处理说话者的声音流，一旦检测到用户插话，就能立刻改变自己的回应方向，实现更自然的对话流。相比现有音频模型一旦开口就很难修改、容易“照稿念完”，BiDi希望做到边说边调整，甚至在对话中途平滑转话题。

不过，这项技术距离上线还有一段距离。知情人士称，BiDi的原型在对话进行几分钟后，容易出现故障，或者发出听起来不太正常的声音。OpenAI研究团队原本希望在今年一季度推出，但目前看时间可能推迟到二季度甚至更晚。

OpenAI的判断是，如果语音模型的表现能更接近文本模型的速度和稳定性，AI的普及面会进一步扩大，因为对大多数人来说，开口说话比打字更自然。

落地场景方面，OpenAI预计BiDi在客服类应用会更有价值。比如用户打电话给零售商的AI客服，本来要退货，聊到一半临时改成换货，如果系统能实时理解并调整话术，就能顺畅接着聊，而不是卡顿、停顿或把流程重来一遍。知情人士还表示，BiDi在调用外部工具和第三方应用时也更擅长。

这也呼应了OpenAI更长期的硬件设想。此前OpenAI提过要改进音频模型，用于未来以语音交互为主的AI设备，并在考虑开发类似智能音箱的产品，让用户通过语音完成查邮件、订餐厅等任务。实时、可被打断的对话能力，被认为是这类“语音优先”设备的关键底层能力。

音讯称OpenAI研发新语音模子BiDi

声明：文章不代表轻松科技观点及立场，不构成本平台任何投资建议。投资决策需建立在独立思考之上，本文内容仅供参考，风险自担！