GPT-4o语音模式部分开放,秋季覆盖所有付费用户

seekdeep2年前AI资讯837

继此前 OpenAI 方面在今年 5 月发布多模态大模型 GPT-4o,原计划今年 6 月开放语音模式的测试,随后以 " 需要改进模型检测和拒绝某些内容的能力 " 为由推迟后。当地时间 7 月 30 日官方已向部分 ChatGPT Plus 订阅用户开放基于 GPT-4o 的高级语音模式(Advanced Voice Mode)测试,并宣布将在今年秋季逐步扩展至所有 ChatGPT Plus 用户。



据悉,ChatGPT 此前的语音模式是基于转录、大语言模型和文生语音 3 个独立模型来实现的语音功能。公开信息显示,GPT-3.5 的平均延迟为 2.8 秒、GPT-4 为 5.4 秒,而 GPT-4o 则能够以平均 320 毫秒的速度回应音频输入,与人类在典型对话中的反应时间相似。


对此 OpenAI 首席技术官 Muri Murati 表示," 在 GPT-4o 中,我们训练了跨文本、视觉和音频的端到端全新统一模型,这意味着所有输入和输出都由同一个神经网络处理 "。


据 OpenAI 方面透露,高级语音模式除了可以提供更自然的实时对话、允许用户随时打断之外,还能够感知或响应用户的情绪语调,包括悲伤、兴奋等。但需要注意的是,该模式目前设置了 Juniper、Breeze、Cove、Ember4 种预设语音,对此 OpenAI 发言人 Lindsay McCallum 曾表示,"ChatGPT 不能冒用他人的声音,包括个人和公众人物的声音,并且会阻止与这些预设声音之一不同的输出 "。


日前 OpenAI 方面还解释了高级语音模式仅向部分用户开放的原因,因此通过逐步推出,其可以密切监控用户的使用情况,并根据反馈不断改进模型的能力和安全性。需要注意的是,这部分用户将在 ChatGPT 应用程序中收到提醒,并收到一封有关如何使用高级语音模式的说明邮件。


相关文章

GPT-4o新模型会代替Siri?联手OpenAI,苹果一夜市值大增近3600亿元。

美东时间周一,美股三大指数收盘涨跌不一,截至收盘,道指跌0.21%,纳指涨0.29%,标普500指数跌0.02%。大型科技股涨跌不一,其中,苹果涨1.76%。消息面上,今日凌晨1点,抢在谷歌年度开发者...

时间延迟且成本高昂,数据短缺,OpenAI的GPT-5训练遇阻!

OpenAI的新一代人工智能项目GPT-5(代号Orion)正面临重重困难。该项目已开发超过18个月,成本花费巨大,却仍未取得预期成果。有知情人士透露称,OpenAI的最大“金主”微软原本预计能在20...

将用《人物》其内容训练ChatGPT,OpenAI与《人物》出版商签署合作协议 !

OpenAI宣布与数字媒体公司Dotdash Meredith签署了一项内容许可协议,该协议允许OpenAI将这家出版商的内容引入ChatGPT,并帮助训练其最先进的人工智能(AI)模型。根据当天宣布...

设计行业变革,如何让GPT变身设计界黑马?

最近不少修图软件都开始推出生成式AI功能了,比如这两周大火的Remini、Lensa可以根据照片内容生成其他风格的图片,老牌的Canva也接入了AI实现图像生成功能。不过想要不受限制的使用这些工具,用...

性能直逼GPT-4,微软宣布合作投资,欧洲最火AI独角兽发布旗舰大模型!

欧洲生成式AI独角兽Mistral AI发布最新旗舰大语言模型Mistral Large。据报道,与Mistral AI之前的模型不同,Mistral Large不会开源。该模型上下文窗口为32K t...

面临不少麻烦的ChatGPT搜索引擎要来了!

新晋人工智能霸主OpenAI开始挑战搜索市场格局。OpenAI很可能推出基于ChatGPT技术的新搜索引擎。5月6日,界面新闻注意到,名为“GPT Search”的网页已经上线,但目前只有会员才能访问...