GPT-4o语音模式部分开放,秋季覆盖所有付费用户

seekdeep2年前AI资讯905

继此前 OpenAI 方面在今年 5 月发布多模态大模型 GPT-4o,原计划今年 6 月开放语音模式的测试,随后以 " 需要改进模型检测和拒绝某些内容的能力 " 为由推迟后。当地时间 7 月 30 日官方已向部分 ChatGPT Plus 订阅用户开放基于 GPT-4o 的高级语音模式(Advanced Voice Mode)测试,并宣布将在今年秋季逐步扩展至所有 ChatGPT Plus 用户。



据悉,ChatGPT 此前的语音模式是基于转录、大语言模型和文生语音 3 个独立模型来实现的语音功能。公开信息显示,GPT-3.5 的平均延迟为 2.8 秒、GPT-4 为 5.4 秒,而 GPT-4o 则能够以平均 320 毫秒的速度回应音频输入,与人类在典型对话中的反应时间相似。


对此 OpenAI 首席技术官 Muri Murati 表示," 在 GPT-4o 中,我们训练了跨文本、视觉和音频的端到端全新统一模型,这意味着所有输入和输出都由同一个神经网络处理 "。


据 OpenAI 方面透露,高级语音模式除了可以提供更自然的实时对话、允许用户随时打断之外,还能够感知或响应用户的情绪语调,包括悲伤、兴奋等。但需要注意的是,该模式目前设置了 Juniper、Breeze、Cove、Ember4 种预设语音,对此 OpenAI 发言人 Lindsay McCallum 曾表示,"ChatGPT 不能冒用他人的声音,包括个人和公众人物的声音,并且会阻止与这些预设声音之一不同的输出 "。


日前 OpenAI 方面还解释了高级语音模式仅向部分用户开放的原因,因此通过逐步推出,其可以密切监控用户的使用情况,并根据反馈不断改进模型的能力和安全性。需要注意的是,这部分用户将在 ChatGPT 应用程序中收到提醒,并收到一封有关如何使用高级语音模式的说明邮件。


相关文章

推出全新GPT+产品易智汇,易点云与微软AI产品展开全面合作!

  近日,易点云在AI领域迈出了坚实的步伐,携手全球技术巨擘和信诺时代,发布了针对中小企业设计的GPT+产品——“易智汇”。  这款产品不仅将AI技术的强大能力带给了中小企业,还以极具吸引力的价格和服...

为律师提供写作质效双保障,Alpha系统写作GPT 再升级!

随着行业的进一步发展,法律AI进入法律人的视野,不断刺激着律师工作方式的改变。法律AI的技术应用已成为大势所趋,学习如何用好AI工具,将成为每个法律人都要参与的新一轮竞争。AlphaGPT即是一款应时...

北大&字节提出VAR范式,GPT超越扩散、视觉生成Scaling Law时刻!

新一代视觉生成范式「VAR: Visual Auto Regressive」视觉自回归来了!使 GPT 风格的自回归模型在图像生成首次超越扩散模型,并观察到与大语言模型相似的 Scaling Laws...

AI时代下普通人如何抓住机遇? 蚂蚁集团布局人形机器人!

蚂蚁集团近日在上海浦东成立蚂蚁灵波科技有限公司,专注于人形机器人和具身智能技术的研发与应用。这一消息引发了外界对AI技术未来发展的广泛关注。具身智能作为人工智能与机器人学的前沿交叉领域,强调智能体通过...

蚂蚁首次公布AI应用矩阵;OpenAI已启动开发“GPT-5”;百度智能云推出“千帆行业增强版”

今日AI daily早新闻主要内容有:OpenAI宣布已启动下一代前沿模型训练,传言已久的“GPT-5”已经开始了;蚂蚁首次公布AI应用矩阵;百度智能云推出“千帆行业增强版”,加速行业大模型应用落地。...

开源类ChatGPT产品Grok,马斯克将在本周宣布执行!

马斯克在社交平台宣布,将在本周开源生成式AI产品——Grok。Grok是马斯克旗下公司xAI在去年11月发布的,一款类ChatGPT产品,可以提供生成文本、代码、邮件、信息检索等功能。其测试性能超过G...