GPT-4o语音模式部分开放,秋季覆盖所有付费用户

seekdeep9个月前AI资讯426

继此前 OpenAI 方面在今年 5 月发布多模态大模型 GPT-4o,原计划今年 6 月开放语音模式的测试,随后以 " 需要改进模型检测和拒绝某些内容的能力 " 为由推迟后。当地时间 7 月 30 日官方已向部分 ChatGPT Plus 订阅用户开放基于 GPT-4o 的高级语音模式(Advanced Voice Mode)测试,并宣布将在今年秋季逐步扩展至所有 ChatGPT Plus 用户。



据悉,ChatGPT 此前的语音模式是基于转录、大语言模型和文生语音 3 个独立模型来实现的语音功能。公开信息显示,GPT-3.5 的平均延迟为 2.8 秒、GPT-4 为 5.4 秒,而 GPT-4o 则能够以平均 320 毫秒的速度回应音频输入,与人类在典型对话中的反应时间相似。


对此 OpenAI 首席技术官 Muri Murati 表示," 在 GPT-4o 中,我们训练了跨文本、视觉和音频的端到端全新统一模型,这意味着所有输入和输出都由同一个神经网络处理 "。


据 OpenAI 方面透露,高级语音模式除了可以提供更自然的实时对话、允许用户随时打断之外,还能够感知或响应用户的情绪语调,包括悲伤、兴奋等。但需要注意的是,该模式目前设置了 Juniper、Breeze、Cove、Ember4 种预设语音,对此 OpenAI 发言人 Lindsay McCallum 曾表示,"ChatGPT 不能冒用他人的声音,包括个人和公众人物的声音,并且会阻止与这些预设声音之一不同的输出 "。


日前 OpenAI 方面还解释了高级语音模式仅向部分用户开放的原因,因此通过逐步推出,其可以密切监控用户的使用情况,并根据反馈不断改进模型的能力和安全性。需要注意的是,这部分用户将在 ChatGPT 应用程序中收到提醒,并收到一封有关如何使用高级语音模式的说明邮件。


相关文章

为律师提供写作质效双保障,Alpha系统写作GPT 再升级!

随着行业的进一步发展,法律AI进入法律人的视野,不断刺激着律师工作方式的改变。法律AI的技术应用已成为大势所趋,学习如何用好AI工具,将成为每个法律人都要参与的新一轮竞争。AlphaGPT即是一款应时...

Meta等让LLM分饰三角自评自进化:4轮暴训,Llama 7B击败GPT-4!

Meta、UC伯克利、NYU共同提出元奖励语言模型,给「超级对齐」指条明路:让AI自己当裁判,自我改进对齐,效果秒杀自我奖励模型。LLM对数据的大量消耗,不仅体现在预训练语料上,还体现在RLHF、DP...

被曝本周即将发布ChatGPT搜索引擎!OpenAI正面对决谷歌?

随着越来越多的竞争对手推出聊天机器人,人工智能霸主OpenAI开始试图推出更多功能,入局搜索市场,以提升其自身竞争力。据知情人士透露,正在计划推出一款基于其ChatGPT聊天机器人的搜索引擎产品,发布...

是数据不够,还是能力太强?ChatGPT-5为何按下“暂停键”。

是数据不够,还是能力太强?ChatGPT-5为何按下“暂停键”。

关于ChatGPT-5的发布延迟,行业内外的猜测可谓五花八门。人们不仅期待新一代模型的问世,也在揣测它背后的迟滞原因。是数据量不足的技术困局,当前数据量的增长遇到了瓶颈?还是AGI(通用人工智能)的控...

GPT-4级大模型上线即挤爆,成本仅2200万美元,微软钦点OpenAI备胎!

成立仅9个月,法国Mistral AI拿出仅次于GPT-4的大模型。在所有已能通过API访问的大模型中排第二,全班唯二在MMLU考试中拿80分以上的。一举获得微软青睐,签署了多年合作协议。也就是说,微...

​听听来自不同领域学者的看法,如何看待ChatGPT?

在ChatGPT横空出世一年后,《自然》杂志首次破格将ChatGPT这位“非人类”列为全球重大科学事件中的十位人物之一。对于社会而言,ChatGPT最大的贡献也许在于它不仅使人望见生成式AI巨大的发展...