Google Search对ChatGPT的实际应用体验

Google Search应用ChatGPT实际体验

上周末,我求助于谷歌搜索,想知道我需要贴多少邮票在一封8盎司的邮件上(当然,我是在寄WIRED最新一期的副本!)。这正是我希望谷歌搜索的新的生成式人工智能功能能够比我自己浏览更快地解决的问题。

谷歌笨拙地命名的搜索生成式体验(SGE)在搜索框中注入了类似ChatGPT的对话功能。您可以在谷歌的搜索实验室注册。该公司表示,它希望用户与其搜索聊天机器人进行对话,该聊天机器人于五月份向测试人员推出,以更深入地探讨话题并提出比他们在普通的查询框中输入的更具挑战性和直观的问题。人工智能生成的答案旨在比传统的搜索结果页面更清晰地组织信息,例如整合来自多个网站的信息。全球大部分的网络搜索都通过谷歌进行,而且谷歌在人工智能技术的发展方面比大多数公司都更久远,因此我们可以期望得到一种一流的体验。

这是理论。实际上,这个新功能在实践中更像是一个麻烦而不是帮助。它速度慢、效果不佳、啰嗦、混乱,更像是人工干扰而不是智能。

我注意到关于谷歌对搜索未来愿景的设想的第一件事就是它的迟缓。

纯文本

一旦你获得了谷歌的测试权限,搜索框看起来没有改变。但是当回答类似“8盎司信件需要贴多少邮票”这样的查询时,一个新的区域占据了屏幕的一大部分,将传统的链接列表向下推。在这个区域内,谷歌的大型语言模型生成了几段类似于ChatGPT或微软的必应聊天的段落。底部的按钮可以进入聊天机器人界面,您可以提出跟进问题。

我注意到谷歌对搜索未来愿景的设想的第一件事就是它的迟缓。在我用一只手控制秒表应用程序,另一只手提交查询的测试中,谷歌的文本生成器有时需要近六秒才能给出答案。通常情况下,需要超过三秒,而谷歌传统结果的显示时间不会超过一秒。情况可能更糟:我在谷歌上个月推出一个声称提升了搜索机器人速度的更新后进行了测试。然而,通常情况下我已经深入阅读常规结果,而生成式人工智能还在继续生成答案,所以我最终忽略了它提交的迟到的论文。谷歌搜索副总裁Cathy Edwards告诉我,该工具的AI软件的速度优化工作仍在进行中。

如果结果有价值,人们可以原谅这种新形式的搜索的速度慢。但准确性并不稳定。谷歌对我的邮票问题的五句生成式AI回答包含明显的乘法和减法错误,邮票价格已经过时两年,并且建议的后续问题忽略了关于运费的关键变量,例如形状、尺寸和目的地。谷歌在每个AI生成的答案顶部显示的免责声明表明:“生成式AI是实验性的,信息质量可能有所不同。”

在同一回答中,谷歌的新搜索功能建议我需要2.47美元或4美元的邮票。访问美国邮政服务的在线计算器提供了官方答案:我需要3.03美元,或者每张66美分的邮票5张,加上27美分的超额支付。谷歌的Edwards说,我的简单查询推动了这项技术的当前界限。“这绝对是在前沿,”她说。

不幸的是,简化并没有产生好结果。当询问邮票的价格时,谷歌回答一个过时的数字。只有明确指出我想要这个月的价格,系统才能正确反映本月3美分的涨价。公平地说,ChatGPT也会在这个查询中失败,因为它的训练数据截止到2021年,但它不是作为搜索引擎的替代品。

谷歌的新搜索体验感觉不可靠,我最好还是点击标准结果进行自己的研究。关于由游戏制作公司Electronic Arts开发的《星球大战》视频游戏的查询生成了一个准确的列表,只是包含了一个来自EA竞争对手Ubisoft的标题。具有讽刺意味的是,结果中关于游戏的生成式人工智能描述提到它是由Ubisoft制作的,展示了大型语言模型如何自相矛盾。

谷歌的AI回应中提到,当被问及圣地亚哥教士队可能与其他棒球队进行交换以获取球员时,谷歌的AI回应从目前在教士队的两名球员开始,混淆了交易筹码和交易目标。

谷歌已经采取了一些保护措施。新的搜索体验不会显示一些健康或金融查询的结果,对于这些查询,谷歌对准确性设置了更高的要求。并且该体验几乎总是突出显示与网络上相关资源的链接,以帮助用户证实AI的输出。像“写一首诗”这样的查询结果会有免责声明“您可能会看到不准确的创意内容。”而且AI系统通常不会尝试变得太可爱或采用某种人设。“我们认为人们实际上并不想与谷歌交谈,”爱德华兹说道,与众所周知会进行第一人称发言或使用表情符号的必应聊天相对比。

有时候,谷歌对搜索的新愿景可能更像是一步后退,而不是迈向未来的一大步。生成的答案可能会重复结果页面上的其他功能,比如从网站中提取明确且易于理解的特色摘要,或者从维基百科提供一个段落长度的主题概述的知识框。当它在这些结果上晚了一步时,生成的AI版本往往是最啰嗦且最难理解的。

在我们30分钟的讨论中,爱德华兹至少提到了八次关于我对新功能的体验,她表示该功能仍处于早期阶段,还有很多问题需要解决。“我不认为你会听到我说我们已经完美解决了这个问题,”她说道。“我们处于一个为期10年的转型过程的起点。”她还表示,迄今为止的反馈“非常积极”,但可能最重要的是,她说谷歌最终向所有用户推出的产品“可能与我们今天的样子完全不同。”

一种速度更快、内容更少、能够帮助向读者发送《连线》杂志而不会因为邮资不足而被退回的体验将是很好的。

谷歌追求用简洁的回答来回应用户的问题始于多年前。早在2016年,时任《连线》作家Cade Metz写过一篇文章,讲述了谷歌如何组建了大约100名擅长约二十多种语言的语言学博士,以缩减写作并注释句子,帮助训练AI系统了解人类语言的运作方式。谷歌预计这个团队和技术将会继续成长多年。

这些“句子压缩算法”刚刚在桌面版搜索引擎上上线。它们处理的任务对于人类来说相当简单,但对于机器来说一直相当困难。它们展示了深度学习在自然语言理解艺术上的进展,即理解和回应自然人类语言的能力。谷歌的研究产品经理大卫·奥尔表示:“你需要使用神经网络,或者至少这是我们找到的唯一方法。”

谷歌使用由一支被称为Pygmalion的大规模博士语言学家团队精心制作的数据来训练这些神经网络。实际上,谷歌的机器通过观察人类一遍又一遍地从长串的文本中提取相关答案来学习如何做到这一点。这些辛苦的努力展示了深度学习的力量和局限性。要训练这样的人工智能系统,你需要大量经过人工智能筛选的数据。这样的数据不容易获取,也不便宜。而且对它的需求在短期内不会消失。

但仅仅一年后,谷歌的研究人员开发出一种新的训练AI的方法,使大部分准备工作都变得不再必要,并为ChatGPT和新的谷歌搜索等服务奠定了基础。回顾过去,我不介意几年前谷歌搜索的简洁回答片段。

詹妮弗·菲尼克斯通过Facebook问为什么AI图像生成器在描绘手和手指时一直会出错。“我读到说这是因为复杂性,”她说,“但我认为解决办法是对这些特征进行更多的训练。”

詹妮弗,我和你一样。在阅读到你的问题后,我尝试在AI工具Stable Diffusion的演示版本中生成“带有夕阳纹身戒指的手”的图像。我得到的四个结果中,手指和手部不协调,有缺失的手指,不自然细长的腕部或巨大的指节。相比之下,查询“带有夕阳纹身的脸”确实产生了一些奇特的图片,但至少脸部看起来是逼真的。

由AI生成的图像。

通过Paresh Dave的稳定扩散

Pranav Dixit今年早些时候为BuzzFeed News(RIP)进行了一次深入调查,了解手在艺术中的历史,并写道,人们的手经常忙于其他事情,例如拿着杯子,这可以解释为什么AI系统很难逼真地重现它们。《纽约客》的Kyle Chayka也关注了这个问题,指出向AI图像生成器发出更精确的命令,告诉它们手应该做什么,可以有所帮助。

正如你所说,Jennifer,向AI系统提供更好或更多样化的数据通常会产生更准确的结果。一些用户在今年早些时候的Midjourney的AI生成器的“v5”版本中注意到了手部输出的适度改进。但Midjourney的首席执行官David Holz在电子邮件中告诉我,公司“在v5中没有针对手部做任何特别的事情。我们的东西只是在v5中效果更好。”

另一方面,稳定扩散的开发者Stability AI在开发其最新版本时确实针对手部问题进行了工作,该版本于本周发布。Stability的应用机器学习负责人Joe Penna表示,用户最多的抱怨是生成的手部质量不佳。当我使用我的手纹查询尝试新模型时,有两张图片效果很好,而其他两张则缺少一些指节。

由AI生成的图像。

通过Paresh Dave的稳定扩散

新模型的学习视觉模式的能力是其前身的八倍,这实质上意味着它可以记住更多关于手应该如何看起来的信息,Penna说。该公司还对人物和艺术品的图像进行了额外的训练,以反映用户最感兴趣的内容。现在,Penna说,“它记住了更多关于手的东西。”

将数百万张额外的手部图像插入训练数据实际上会使生成的手部图像变巨大,Penna说,但他表示公司正在测试不同的策略来进一步改进。

在与Penna交谈之前,我假设AI开发者可能希望避免达到完美,因为不完美的手部是发现深度伪造的常见方法。Penna说事实并非如此,但Stability采取了其他措施,以确保使用其技术生成的图像明显可见。“我们不会回到制造更糟糕的手,所以让我们开始对在互联网上看到的图像非常小心,”他说。

骨骼结构问题开始得到解决之后,也许接下来的公司可以解决一个问题,即我从测试提示中生成的12张图片都描绘了白皙的手?我将把解释留给未来的Plaintext中的Steven。

您可以将问题提交至[email protected]。在主题行中写上ASK LEVY

你觉得Mountain Dew Flamin’ Hot苏打水再糟糕不过了吗?试试芥末味的Skittles糖果,这是美国国家芥末日的噱头。

未来传说回归了!但是第一集只让我笑了一次(当一个机器人喜剧演员称一个满屋子的朋友们太PC时)。这个节目完全是关于批评我们的现代科技中心世界。不幸的是,它似乎只挑选了容易攻击的目标。

欧盟正在准备一个庞大的数据库,其中包含社交媒体公司的所有内容审核决定以及背后的理由。

科技界最热门的新数据源是来自乌克兰的战斗数据,用于训练军事AI软件。

私刑正义:一个视力受损的人被骗走了一台笔记本电脑,并与朋友合作对付欺诈者。现在,证据已交给警方。