OpenAI向部分付费用户发布ChatGPT的超真实声音

OpenAI从周二开始推出ChatGPT的高级声音模式,让用户首次可以接触到GPT-4o的超真实音频回复。这个alpha版本将首先开放给一小部分ChatGPT Plus用户,OpenAI表示这一功能将逐步在2024年秋季对所有Plus用户开放。

OpenAI首次在5月展示GPT-4o的声音时,这一功能用迅速的回复和与真人声音相似的特点让观众大为震撼 - 其中一个特点是这个声音,Sky,与电影“她”中人工助手背后的演员斯嘉丽·约翰逊相似。 OpenAI的演示后不久,约翰逊表示CEO山姆·奥尔特曼多次邀请她使用她的声音,但在看到GPT-4o的演示后,她聘请了法律顾问来捍卫她的形象。OpenAI否认使用约翰逊的声音,但后来移除了演示中展示的声音。6月,OpenAI表示延迟发布高级语音模式以改进其安全措施。

一个月后,等待结束了(部分地)。 OpenAI表示在其春季更新中展示的视频和屏幕共享功能将不包括在这个alpha版本中,将在“以后的日期”推出。目前,让所有人惊艳的GPT-4o演示仍然只是一个演示,但一些付费用户现在将能够使用ChatGPT演示的声音功能。

ChatGPT现在可以说话和倾听

您可能已经尝试过ChatGPT当前提供的语音模式,但OpenAI表示高级语音模式是不同的。 ChatGPT对音频的旧解决方案使用了三个单独的模型:一个用于将您的声音转换为文本,GPT-4用于处理您的提示,然后第三个用于将ChatGPT的文本转换为声音。但GPT-4o是多模态的,能够在不借助辅助模型的情况下执行这些任务,创建延迟较低的对话。 OpenAI还声称GPT-4o能够感知您声音中的情感语调,包括悲伤、兴奋或歌唱。

在这个试点中,ChatGPT Plus用户将直观地看到OpenAI的高级语音模式到底有多超真实。TechCrunch在发布本文之前无法测试该功能,但我们将在获得访问权限后进行评估。

OpenAI表示,将逐步释放ChatGPT的新声音以密切监视其使用情况。alpha组的人将在ChatGPT应用中收到警报,然后会通过电子邮件收到如何使用的说明。

自OpenAI的演示以来的几个月里,公司表示已经与讲控45种不同语言的100多名外部红队成员测试了GPT-4o的语音功能。 OpenAI表示其关于这些安全工作的报告将于8月初发布。

该公司表示,高级语音模式将仅限于ChatGPT的四种预设声音 - Juniper、Breeze、Cove和Ember - 与付费配音演员合作制作。OpenAI发言人林赛·麦卡勒姆表示,“ChatGPT不会模仿其他人的声音,包括个人和公众人物,并将阻止与这四种预设声音不同的输出。”

OpenAI正在努力避免深度伪造的争议。今年1月,AI初创公司ElevenLabs的语音克隆技术被用来模仿拜登总统,欺骗了新罕布什尔州的初选选民。

OpenAI还表示,已经引入新的过滤器来阻止某些请求生成音乐或其他受版权保护的音频。在过去的一年里,AI公司因侵犯版权而陷入法律问题,像GPT-4o这样的音频模型给提交投诉的公司带来了全新的范畴。特别是那些以诉讼为特点的唱片公司,他们已经起诉了AI歌曲生成器Suno和Udio。