音讯称OpenAI研发新语音模子BiDi
2026-03-06 19:46:02
AIPress.com.cn报道
3月6日消息,据报道,OpenAI正在秘密研发一款代号为“BiDi”(Bidirectional,双向)的全新音频模型。目标是让用户和ChatGPT的语音对话听起来不那么像机器人。核心改进点在于:当用户中途插话、打断时,AI能像真人聊天一样及时调整话术,而不是突然停住或重新来一遍。
目前ChatGPT的高级语音模式更像轮流发言的机制:用户必须把话说完,系统才会处理音频并生成回答。如果用户在AI说话时插入一些很自然的反馈,比如“好的”“嗯”“对”,模型往往会直接停止输出,难以做到人类对话那种边听边说、随时纠偏的节奏。
OpenAI正在做的下一代音频模型它的思路是持续处理说话者的声音流,一旦检测到用户插话,就能立刻改变自己的回应方向,实现更自然的对话流。相比现有音频模型一旦开口就很难修改、容易“照稿念完”,BiDi希望做到边说边调整,甚至在对话中途平滑转话题。
不过,这项技术距离上线还有一段距离。知情人士称,BiDi的原型在对话进行几分钟后,容易出现故障,或者发出听起来不太正常的声音。OpenAI研究团队原本希望在今年一季度推出,但目前看时间可能推迟到二季度甚至更晚。
OpenAI的判断是,如果语音模型的表现能更接近文本模型的速度和稳定性,AI的普及面会进一步扩大,因为对大多数人来说,开口说话比打字更自然。
落地场景方面,OpenAI预计BiDi在客服类应用会更有价值。比如用户打电话给零售商的AI客服,本来要退货,聊到一半临时改成换货,如果系统能实时理解并调整话术,就能顺畅接着聊,而不是卡顿、停顿或把流程重来一遍。知情人士还表示,BiDi在调用外部工具和第三方应用时也更擅长。
这也呼应了OpenAI更长期的硬件设想。此前OpenAI提过要改进音频模型,用于未来以语音交互为主的AI设备,并在考虑开发类似智能音箱的产品,让用户通过语音完成查邮件、订餐厅等任务。实时、可被打断的对话能力,被认为是这类“语音优先”设备的关键底层能力。
相关阅读
-
不会写代码也能用,OpenClaw若何帮通俗人脱节反复任务,提拔效率?深度解读 2026-03-09 14:22:05
-
比特币价格预测:2025 年底 15 万美元还是跌至 8.5 万?关键支撑位分析科技前沿 2026-03-09 14:11:28
-
小米2026届春季校园雇用启动:触及芯片、算法等20职类,需多轮测试科技前沿 2026-03-09 14:08:45
-
AI设计新神器来袭:无需专业技能,一句话解锁巨匠级海报创作资讯百科 2026-03-09 14:05:50
-
又一爆款预定,吉祥银河M7将于3月13日表态:1730km超长续航科技前沿 2026-03-09 14:03:26
-
2026百度Apollo Park参访:解锁智能驾驶手艺落地密码,赋能企业转型资讯百科 2026-03-09 14:00:39
-
国内油价本日将迎年内最大涨幅,网友实拍多地加油站排长队科技前沿 2026-03-09 13:57:03
-
智能办公本怎样选?科大讯飞X5等四款抢手产物功能特点大比拼,帮你找到心头好资讯百科 2026-03-09 13:55:27
-
谁动了稳定币的锚?复盘历年重大脱锚事件,一文汇总科技前沿 2026-03-09 13:54:08
-
交通运输部:本年启动效劳区机制晋级举动 增添马桶位、完美充电设备科技前沿 2026-03-09 13:51:19