GPT-4o语音模式部分开放,秋季覆盖所有付费用户

seekdeep1年前AI资讯599

继此前 OpenAI 方面在今年 5 月发布多模态大模型 GPT-4o,原计划今年 6 月开放语音模式的测试,随后以 " 需要改进模型检测和拒绝某些内容的能力 " 为由推迟后。当地时间 7 月 30 日官方已向部分 ChatGPT Plus 订阅用户开放基于 GPT-4o 的高级语音模式(Advanced Voice Mode)测试,并宣布将在今年秋季逐步扩展至所有 ChatGPT Plus 用户。



据悉,ChatGPT 此前的语音模式是基于转录、大语言模型和文生语音 3 个独立模型来实现的语音功能。公开信息显示,GPT-3.5 的平均延迟为 2.8 秒、GPT-4 为 5.4 秒,而 GPT-4o 则能够以平均 320 毫秒的速度回应音频输入,与人类在典型对话中的反应时间相似。


对此 OpenAI 首席技术官 Muri Murati 表示," 在 GPT-4o 中,我们训练了跨文本、视觉和音频的端到端全新统一模型,这意味着所有输入和输出都由同一个神经网络处理 "。


据 OpenAI 方面透露,高级语音模式除了可以提供更自然的实时对话、允许用户随时打断之外,还能够感知或响应用户的情绪语调,包括悲伤、兴奋等。但需要注意的是,该模式目前设置了 Juniper、Breeze、Cove、Ember4 种预设语音,对此 OpenAI 发言人 Lindsay McCallum 曾表示,"ChatGPT 不能冒用他人的声音,包括个人和公众人物的声音,并且会阻止与这些预设声音之一不同的输出 "。


日前 OpenAI 方面还解释了高级语音模式仅向部分用户开放的原因,因此通过逐步推出,其可以密切监控用户的使用情况,并根据反馈不断改进模型的能力和安全性。需要注意的是,这部分用户将在 ChatGPT 应用程序中收到提醒,并收到一封有关如何使用高级语音模式的说明邮件。


相关文章

医院难以验证GPT-AI完成的临床摘要

尽管很多医院热衷于投入人力物力开发GPT-AI"医生助手"或医用聊天机器人,但在真实环境中验证GPT-AI“助手”过程中,医院管理者和医生感觉"有点混乱",并没...

GPT-4o新模型会代替Siri?联手OpenAI,苹果一夜市值大增近3600亿元。

美东时间周一,美股三大指数收盘涨跌不一,截至收盘,道指跌0.21%,纳指涨0.29%,标普500指数跌0.02%。大型科技股涨跌不一,其中,苹果涨1.76%。消息面上,今日凌晨1点,抢在谷歌年度开发者...

AI时代下普通人如何抓住机遇? 蚂蚁集团布局人形机器人!

蚂蚁集团近日在上海浦东成立蚂蚁灵波科技有限公司,专注于人形机器人和具身智能技术的研发与应用。这一消息引发了外界对AI技术未来发展的广泛关注。具身智能作为人工智能与机器人学的前沿交叉领域,强调智能体通过...

除了编程能力大幅提升,还有更宽松的开源协议:DeepSeek 发布 V3 模型更新!

除了编程能力大幅提升,还有更宽松的开源协议:DeepSeek 发布 V3 模型更新!

和上周不少朋友期待的一样,新一周第一天的北京时间 3 月 24 日晚,DeepSeek 果然「突然」发布了模型更新。但暂时还不是 DeepSeek V4 或 R2,而是 DeepSeek V3 模型的...

OpenAI把它放到了机器人上,在GPT-4诞生1年后!

ChatGPT拥有了身体,机器人也有了灵魂。从OpenAI在去年3月14日拿出GPT-4后,已经过了整整一年。显然,在GPT-4诞生之后的这一年,一切都迭代得太快了,从GPT-4展现多模态能力,到千行...

华尔街将迎投资新时代?小摩AI投顾IndexGPT正式上线 !

据媒体报道,摩根大通已经推出了一款名为IndexGPT的产品,该服务将依赖颠覆性的人工智能(AI)为客户提供投资建议。一年之前,摩根大通为IndexGPT申请了产品商标。根据文件,IndexGPT将利...