ChatGPT推出语音和图像功能

'ChatGPT launches voice and image features.

大家喜爱的聊天机器人现在能够看、听和说话了。OpenAI在星期一宣布了ChatGPT的新的多模态功能。用户现在可以与ChatGPT进行实时的语音对话或共享图片。

音频和多模态功能已经成为激烈生成式人工智能竞争的下一个阶段。Meta最近推出了用于生成音乐的AudioCraft,并且Google Bard和Microsoft Bing都为他们的聊天体验部署了多模态功能。就在上周,亚马逊预览了一款由自家的大型语言模型(LLM)提供动力的改进版Alexa,甚至苹果也在尝试使用AI生成的声音,名为Personal Voice。

语音功能将在iOS和Android上提供。像Alexa或Siri一样,您可以点击与ChatGPT进行语音交流,并且它会用五种首选语音选项回答您。与当前市场上的语音助手不同,ChatGPT由更先进的LLMs提供动力,因此您听到的是与OpenAI的GPT-4和GPT-3.5所能生成的文本相同类型的对话和创造性回应。OpenAI在公告中分享的一个例子是从语音提示生成睡前故事。因此,在一天结束时,精疲力尽的父母可以将他们的创造力外包给ChatGPT。

推文可能已被删除

多模态识别是一直被预测的技术,现在以用户友好的方式在ChatGPT中推出。当GPT-4于去年3月发布时,OpenAI展示了其理解和解释图像和手写文字的能力。现在它将成为日常ChatGPT使用的一部分。用户可以上传某个物体的图片并询问ChatGPT相关问题,比如识别云朵,或者根据冰箱内物品的照片制定餐计划。多模态功能将在所有平台上提供。

与任何生成式人工智能进展一样,需要考虑严肃的伦理和隐私问题。为了减轻音频深度伪造的风险,OpenAI表示它只将其音频识别技术用于特定的“语音聊天”用例。此外,该技术是与他们“直接合作的声音演员”共同开发的。尽管如此,公告中并未提及在选择语音聊天时用户的声音是否可以用于训练模型。对于ChatGPT的多模态功能,OpenAI表示它已经“采取了技术措施,显著限制了ChatGPT分析和直接对人进行陈述的能力,因为ChatGPT并不总是准确的,而且这些系统应该尊重个人的隐私”。但是对于恶意使用的真正测试将在其发布后才能知晓。

语音聊天和图片功能将在接下来的两周内向ChatGPT Plus和企业用户推出,并在“不久之后”向所有用户推出。