GPT-4o语音模式部分开放,秋季覆盖所有付费用户

seekdeep2年前AI资讯748

继此前 OpenAI 方面在今年 5 月发布多模态大模型 GPT-4o,原计划今年 6 月开放语音模式的测试,随后以 " 需要改进模型检测和拒绝某些内容的能力 " 为由推迟后。当地时间 7 月 30 日官方已向部分 ChatGPT Plus 订阅用户开放基于 GPT-4o 的高级语音模式(Advanced Voice Mode)测试,并宣布将在今年秋季逐步扩展至所有 ChatGPT Plus 用户。



据悉,ChatGPT 此前的语音模式是基于转录、大语言模型和文生语音 3 个独立模型来实现的语音功能。公开信息显示,GPT-3.5 的平均延迟为 2.8 秒、GPT-4 为 5.4 秒,而 GPT-4o 则能够以平均 320 毫秒的速度回应音频输入,与人类在典型对话中的反应时间相似。


对此 OpenAI 首席技术官 Muri Murati 表示," 在 GPT-4o 中,我们训练了跨文本、视觉和音频的端到端全新统一模型,这意味着所有输入和输出都由同一个神经网络处理 "。


据 OpenAI 方面透露,高级语音模式除了可以提供更自然的实时对话、允许用户随时打断之外,还能够感知或响应用户的情绪语调,包括悲伤、兴奋等。但需要注意的是,该模式目前设置了 Juniper、Breeze、Cove、Ember4 种预设语音,对此 OpenAI 发言人 Lindsay McCallum 曾表示,"ChatGPT 不能冒用他人的声音,包括个人和公众人物的声音,并且会阻止与这些预设声音之一不同的输出 "。


日前 OpenAI 方面还解释了高级语音模式仅向部分用户开放的原因,因此通过逐步推出,其可以密切监控用户的使用情况,并根据反馈不断改进模型的能力和安全性。需要注意的是,这部分用户将在 ChatGPT 应用程序中收到提醒,并收到一封有关如何使用高级语音模式的说明邮件。


相关文章

将用《人物》其内容训练ChatGPT,OpenAI与《人物》出版商签署合作协议 !

OpenAI宣布与数字媒体公司Dotdash Meredith签署了一项内容许可协议,该协议允许OpenAI将这家出版商的内容引入ChatGPT,并帮助训练其最先进的人工智能(AI)模型。根据当天宣布...

伯克利团队最新论文:用训练GPT的方法训练人形机器人

一台人形机器人在人行道、混凝土、沥青、广场和沙路上“散步”,这不是科幻电影的场景,而是已经发生在旧金山街头的真实事件。这一人形机器人项目也引起了Sora团队的注意。“不可思议的成果!”Sora负责人之...

移除 Copilot Pro 的 GPT Builder 功能,微软将于 7 月进行!

日前微软方面宣布,自 2024 年 7 月 10 日起将移除 Copilot Pro 服务中的 GPT Builder 功能,即不再支持用户使用文档、外部或内部资源以及自定义指令创建自己的专属 Cop...

马斯克为何要全力炮轰:苹果系统接入ChatGPT

苹果在全球开发者大会(WWDC 24)推出Apple Intelligence(苹果智能),并表示将与OpenAI合作,ChatGPT将整合到包括新一代iOS、iPadOS以及macOS中。对隐私的高...

医院难以验证GPT-AI完成的临床摘要

尽管很多医院热衷于投入人力物力开发GPT-AI"医生助手"或医用聊天机器人,但在真实环境中验证GPT-AI“助手”过程中,医院管理者和医生感觉"有点混乱",并没...

GPT-4正接管人类数据专家:先验知识让LLM大胆预测,准确率堪比传统方式

终有一天,LLM可以成为人类数据专家,针对不同领域进行数据分析,大大解放AI研究员。在数据科学中,AI研究员经常面临处理不完整数据集的挑战。然而,许多已有的算法根本无法处理「不完整」的数据序列。传统上...