音讯称OpenAI正开辟双向语音模子:被打断也不会影响对话持续
2026-03-06 17:55:19
3 月 5 日消息,今天晚间,据报道,OpenAI 正在开发一种新的语音模型,希望让用户与 ChatGPT 的对话更加自然。当用户在 AI 说话过程中打断系统时,AI 可以实时调整回应,而不是像现在一样突然停止。
目前 ChatGPT 的高级语音模式采用回合式对话机制。用户必须先说完话,AI 才会处理语音并生成回答。如果用户在 AI 发言时插入“okay”或“mm-hm”等回应,系统通常会直接停止,而不会继续像正常对话那样进行。
OpenAI 正在开发的新模型名为 BiDi(注:双向语音模型)。该模型能够持续处理说话者的语音输入,因此在被打断时可以立即调整回应。相比之下,现有语音模型一旦开始生成回答,输出内容就基本固定,无法再根据新的输入进行变化。
这项技术仍处于开发阶段。一名了解项目情况的人士表示,原型模型在持续对话几分钟后容易出现故障,有时甚至会发出不自然的声音。OpenAI 研究人员原本希望今年第一季度发布 BiDi,而目前最新的发布时间可能推迟到第二季度或更晚。
OpenAI 认为,如果语音模型能够在性能上接近文本模型,AI 的使用范围将进一步扩大,因为大多数人更习惯与 AI 进行语音交流,而不是输入文字。
BiDi 模型在客服场景中可能尤其有价值。例如,当顾客与零售商的 AI 客服通话时,如果顾客在对话过程中临时决定选择换货而非退货,BiDi 模型理论上可以让 AI 客服顺畅调整对话,而不会突然停止或出现混乱。
这名知情人士还表示,BiDi 模型在调用外部工具和应用方面也更灵活。据了解,OpenAI 此前表示,公司计划为未来一款主要通过语音交互的 AI 设备改进语音模型,并考虑开发一款智能音箱,通过语音指令即可查看邮件或预订服务。
相关阅读
-
不会写代码也能用,OpenClaw若何帮通俗人脱节反复任务,提拔效率?深度解读 2026-03-09 14:22:05
-
比特币价格预测:2025 年底 15 万美元还是跌至 8.5 万?关键支撑位分析科技前沿 2026-03-09 14:11:28
-
小米2026届春季校园雇用启动:触及芯片、算法等20职类,需多轮测试科技前沿 2026-03-09 14:08:45
-
AI设计新神器来袭:无需专业技能,一句话解锁巨匠级海报创作资讯百科 2026-03-09 14:05:50
-
又一爆款预定,吉祥银河M7将于3月13日表态:1730km超长续航科技前沿 2026-03-09 14:03:26
-
2026百度Apollo Park参访:解锁智能驾驶手艺落地密码,赋能企业转型资讯百科 2026-03-09 14:00:39
-
国内油价本日将迎年内最大涨幅,网友实拍多地加油站排长队科技前沿 2026-03-09 13:57:03
-
智能办公本怎样选?科大讯飞X5等四款抢手产物功能特点大比拼,帮你找到心头好资讯百科 2026-03-09 13:55:27
-
谁动了稳定币的锚?复盘历年重大脱锚事件,一文汇总科技前沿 2026-03-09 13:54:08
-
交通运输部:本年启动效劳区机制晋级举动 增添马桶位、完美充电设备科技前沿 2026-03-09 13:51:19