GPT-4o语音模式部分开放，秋季覆盖所有付费用户

seekdeep2年前 (2024-08-02)AI资讯906

继此前 OpenAI 方面在今年 5 月发布多模态大模型 GPT-4o，原计划今年 6 月开放语音模式的测试，随后以 " 需要改进模型检测和拒绝某些内容的能力 " 为由推迟后。当地时间 7 月 30 日官方已向部分 ChatGPT Plus 订阅用户开放基于 GPT-4o 的高级语音模式（Advanced Voice Mode）测试，并宣布将在今年秋季逐步扩展至所有 ChatGPT Plus 用户。

据悉，ChatGPT 此前的语音模式是基于转录、大语言模型和文生语音 3 个独立模型来实现的语音功能。公开信息显示，GPT-3.5 的平均延迟为 2.8 秒、GPT-4 为 5.4 秒，而 GPT-4o 则能够以平均 320 毫秒的速度回应音频输入，与人类在典型对话中的反应时间相似。

对此 OpenAI 首席技术官 Muri Murati 表示，" 在 GPT-4o 中，我们训练了跨文本、视觉和音频的端到端全新统一模型，这意味着所有输入和输出都由同一个神经网络处理 "。

据 OpenAI 方面透露，高级语音模式除了可以提供更自然的实时对话、允许用户随时打断之外，还能够感知或响应用户的情绪语调，包括悲伤、兴奋等。但需要注意的是，该模式目前设置了 Juniper、Breeze、Cove、Ember4 种预设语音，对此 OpenAI 发言人 Lindsay McCallum 曾表示，"ChatGPT 不能冒用他人的声音，包括个人和公众人物的声音，并且会阻止与这些预设声音之一不同的输出 "。

日前 OpenAI 方面还解释了高级语音模式仅向部分用户开放的原因，因此通过逐步推出，其可以密切监控用户的使用情况，并根据反馈不断改进模型的能力和安全性。需要注意的是，这部分用户将在 ChatGPT 应用程序中收到提醒，并收到一封有关如何使用高级语音模式的说明邮件。

返回列表

上一篇：84%收入来自近1000万名ChatGPT付费用户，机构预计一年创收34亿美元！OpenAI营收拆解！

下一篇：单次输出 64K tokens, OpenAI 测试长输出版 GPT-4o

求索深度

GPT-4o语音模式部分开放，秋季覆盖所有付费用户

相关文章

解锁大模型时代的无限可能，从GPT-3到Sora

ChatGPT 出现答非所问、胡言乱语,OpenAI 已紧急修复!

揭示二叠纪大灭绝秘密， AI助力科研！

2B参数越级跑赢GPT-3.5-Turbom，谷歌开源最强端侧小模型！

设计行业变革，如何让GPT变身设计界黑马？

将用《人物》其内容训练ChatGPT,OpenAI与《人物》出版商签署合作协议 !

Copyright 求索深度网 ICP备:赣ICP备2023003176号-5

求索深度

GPT-4o语音模式部分开放，秋季覆盖所有付费用户

相关文章

解锁大模型时代的无限可能，从GPT-3到Sora

ChatGPT 出现答非所问、胡言乱语,OpenAI 已紧急修复!

揭示二叠纪大灭绝秘密 ， AI助力科研！

2B参数越级跑赢GPT-3.5-Turbom，谷歌开源最强端侧小模型！

设计行业变革，如何让GPT变身设计界黑马？

将用《人物》其内容训练ChatGPT,OpenAI与《人物》出版商签署合作协议 !

Copyright 求索深度网 ICP备:赣ICP备2023003176号-5

揭示二叠纪大灭绝秘密， AI助力科研！