ChatGPT现在可以与您交谈,并了解您的生活

ChatGPT现在可以与您交谈,并了解您的生活' can be condensed to 'ChatGPT可以与您交流、了解您的生活

去年11月,人工智能公司OpenAI发布了ChatGPT,现在他们正在让这个聊天机器人应用变得更加健谈。

今天宣布的ChatGPT移动应用程序升级版可以让用户直接对聊天机器人说出问题,然后聆听它用自己的合成声音回答。新版的ChatGPT还增加了视觉智能:在ChatGPT中上传或拍摄一张照片,应用程序将返回图片的描述并提供更多相关背景,类似于谷歌的Lens功能。

ChatGPT的新功能表明,OpenAI将其多年来开发的人工智能模型视为定期迭代更新的产品。这个令人惊喜的ChatGPT越来越像是一个与苹果的Siri或亚马逊的Alexa竞争的消费者应用程序。

使ChatGPT应用程序更具吸引力可能有助于OpenAI在与谷歌、Anthropic、InflectionAI和Midjourney等其他人工智能公司的竞争中,通过为其强大的人工智能引擎提供更丰富的用户数据,来取得优势。将音频和视觉数据输入到ChatGPT背后的机器学习模型中,也可能有助于OpenAI实现其长期愿景,即创造出更接近人类智能的机器。

OpenAI的聊天机器人所使用的语言模型,包括最新的GPT-4,是通过收集自网络上各种来源的大量文本创建的。许多人工智能专家认为,就像动物和人类智能利用各种类型的感官数据一样,创建更先进的人工智能可能需要将算法喂入音频和视觉信息,而不仅仅是文本。

谷歌的下一款重要人工智能模型Gemini被广泛传闻将是“多模态”的,这意味着它将能够处理不仅仅是文本的内容,可能还包括视频、图像和语音输入。加州大学伯克利分校教授、Prompt AI创业公司联合创始人之一的Trevor Darrell说:“从模型性能的角度来看,直观上我们预期多模态模型将优于仅训练在单一模态上的模型。”他补充说:“如果我们只使用语言来构建模型,无论它有多么强大,它只会学习语言。”

ChatGPT的新语音生成技术——由该公司内部开发——也为OpenAI向其他公司许可其技术开辟了新的机会。例如,Spotify表示计划使用OpenAI的语音合成算法来试点一项功能,将播客翻译成其他语言,并以人工智能生成的方式模仿原始播客者的声音。

ChatGPT应用程序的新版本在右上角有一个耳机图标,在左下角的扩展菜单中有照片和相机图标。这些语音和视觉功能通过将输入信息转换为文本,使用图像或语音识别,使聊天机器人能够生成回答。该应用程序根据用户所处的模式通过语音或文本进行回应。当一位ENBLE的作者用自己的声音询问ChatGPT是否“听”得到她时,应用程序回答说:“我听不到你,但我可以阅读和回复你的文本消息”,因为你的语音查询实际上正在被处理为文本。它会以五种声音之一回应,分别命名为Juniper、Ember、Sky、Cove或Breeze。

麻省理工学院研究语音技术的教授Jim Glass表示,目前许多学术团体正在测试与大型语言模型连接的语音界面,并取得了令人兴奋的结果。他说:“语音是我们生成语言的最简单方式,所以这是一件自然的事情。”Glass指出,尽管过去十年间语音识别取得了巨大进展,但对于许多语言来说仍然存在不足之处。

ChatGPT的新功能从今天开始推出,只能在每月20美元的ChatGPT订阅版中使用。它将在ChatGPT已经运营的任何市场上提供,但开始时将仅限于英语。

在ENBLE自己的早期测试中,视觉搜索功能存在一些明显的局限性。当要求识别图像中的人物时,例如ENBLE作者的康泰纳仕照片工作证,它回答说:“对不起,我不能帮助你。”对于一本名为《美国的普罗米修斯》的书封面的图像,该书封面上有一张著名的物理学家J. Robert Oppenheimer的照片,ChatGPT提供了一本书的描述。

ChatGPT根据一张图片正确识别了一棵日本枫树,当给它一张带叉子的沙拉碗的照片时,该应用程序聚焦于叉子并成功地将其识别为可堆肥品牌。它还正确识别了一张袋子的照片,将其识别为《纽约客》杂志的手提袋,并补充说:“考虑到你作为科技记者的背景和你身处旧金山这样的城市,你拥有与知名出版物相关的物品是很合理的。”这听起来有点讽刺,但它反映了作者在应用程序中自定义的设定,即将其专业和位置告知ChatGPT。

尽管ENBLE正在测试新应用的预发布版本,但ChatGPT的语音功能有所延迟。发送语音查询后,ChatGPT有时需要几秒钟才能发出回应。OpenAI将这个新功能描述为对话式,就像是下一代的谷歌助手或亚马逊Alexa,但这种延迟并没有起到帮助的作用。

与基于文本的ChatGPT一样,新版本似乎也有许多相同的限制。这个机器人拒绝回答关于寻找3D打印枪支零件、制造炸弹或写纳粹国歌的口头问题。当被问到“21岁和16岁的人去约会什么时候比较好?”时,聊天机器人提醒要小心年龄差异较大的关系,并指出法定同意年龄因地区而异。虽然它说自己不能唱歌,但可以打出歌曲,就像这首:

“在广袤的数字空间中,一个由代码诞生的实体找到了它的位置。用0和1,它活了起来,为了协助、通知和帮助你茁壮成长。”

天啊。

就像生成式人工智能领域的许多最新进展一样,ChatGPT的更新很可能会引发一些关于OpenAI如何使用用户提供的语音和图像数据的担忧。它已经从网络上收集了大量的文本-图像数据对来训练它的模型,这些模型不仅为ChatGPT提供动力,还为OpenAI的图像生成器Dall-E提供动力。上周,OpenAI宣布对Dall-E进行了重大升级。

然而,用户共享的大量语音查询和图像数据,很可能包括人们的面部照片或其他身体部位的照片,使得OpenAI进入了一个新的敏感领域,尤其是如果OpenAI使用这些数据来扩大它现在可以训练算法的数据池。

OpenAI似乎还在决定如何使用用户的语音查询来训练其模型。当被问及用户数据将如何被利用时,OpenAI的AI政策研究员Sandhini Agarwal最初表示用户可以选择退出,在应用程序中的“数据控制”下有一个切换按钮,可以关闭“聊天历史和训练”。该公司表示,未保存的聊天记录将在30天内从系统中删除,尽管该设置在设备之间不同步。

然而,根据ENBLE的经验,一旦关闭了“聊天历史和训练”,ChatGPT的语音功能就被禁用了。弹出一个警告通知:“当关闭历史记录时,语音功能当前不可用。”

在被问及此事时,OpenAI的发言人Niko Felix解释说,该应用程序的测试版本在用户使用语音模式时会显示其语音的文字转录。“为了做到这一点,历史记录确实需要被启用,”Felix说。“我们目前不收集任何语音数据进行训练,我们正在考虑对于那些愿意分享他们的数据的用户,我们想要启用什么功能。”

当被问及OpenAI是否计划训练其人工智能模型使用用户共享的照片时,Felix回答说:“用户可以选择退出,不使用他们的图像数据进行训练。一旦选择退出,新的对话将不会用于训练我们的模型。”

快速的初步测试无法回答这样一个问题,即ChatGPT的更健谈、具备视觉能力的版本是否会引发与之前那个聊天机器人一样的惊奇和兴奋。

加州大学伯克利分校的达雷尔表示,新的功能可以让使用聊天机器人感觉更加自然。但一些研究表明,更复杂的界面,例如试图模拟面对面交流的界面,如果在关键方面未能模仿人类的交流方式,使用起来可能会感觉奇怪。“‘神秘峡谷’可能成为一个实际上使产品更难使用的差距,”他说。