Google和OpenAI如何促使GPT-4提供更及时的答案

谷歌和OpenAI如何推动GPT-4实现更快速的解答

exclamation-gettyimages-171158764

流行的生成式人工智能程序(如ChatGPT)的一个显著特点是它们在吸收的事实方面有一个时间截止点。例如,OpenAI最近更新了其GPT-4程序,使其能够访问直到2023年4月发生的事件的数据;在此更新之前,该工具仅基于最近的2021年数据进行训练。

然而,AI科学家正在努力找到让生成式AI程序可靠地获取关于及时和紧迫问题的不断变化的数据的方法,比如,“King Gizzard最新的录音室专辑是什么?”(答案:The Silver Cord)

此外:ChatGPT对最近的事件不再那么无知

基于这个精神,谷歌和OpenAI本月发布了一个名为FreshLLM的合作项目,使GPT-4能够使用从谷歌搜索中检索到的信息。FreshLLM的核心是一种称为“FreshPrompt”的提示语言模型的新方法,其中包含来自搜索引擎的结果。

通过将来自谷歌的搜索结果包含在GPT-4的输入提示中,然后基于这些搜索结果显示一个有效的查询答案,可以促使GPT-4使用从Web搜索中获取的证据来制作其输出。结果明显改善了该程序对涉及及时信息的问题的回答。

“FreshPrompt在与其他搜索引擎增强方法相比的性能方面有显著提升,”谷歌的首席作者Tu Vu和同事在研究论文《FreshLLMs: Refreshing large language models with search engine augmentation》中写道,该论文已发布在arXiv预印服务器上。

然而,FreshPrompt技术只是整个故事的一部分。为了测试GPT-4和竞争程序在使用Web数据时的表现,Vu和同事们不得不提出一系列问题,这些问题将对真实世界的最新事实构成挑战。

此外:学者们警告说,尽管有防范措施,生成式人工智能仍可能变得恶意

为此,该团队 – 在同事和在线自由职业者的帮助下 – 撰写了一些关于“世界发展”的问题,这些问题旨在包含他们所称的“新知识” – 指“最近变化或新事件的知识”,并且也是“真实人士在搜索引擎中输入的合理问题”。

谷歌和OpenAI学者们所创造的600个问题的实例,用于测试生成式AI对快速变化事实的了解。

他们提出了600个问题,称为FreshAQ,其中包括从永不改变的问题 – “在美国,Virginia Woolf关于Ramsay家族的小说是否进入了公共领域?” – 至快速变化的问题 – 如“Brad Pitt作为演员的最新电影是什么?”大部分但不是全部的答案都来自维基百科。

该项目的GitHub代码链接到了一个谷歌文档的电子表格,其中包含了完整的FreshQA问题数据库。阅读这600个问题的列表会让你立刻涉足琐事的世界。“根据出版者周刊,哪位作者在去年在美国拥有最畅销的小说?”(答案:Colleen Hoover)“在Instagram上有多少帐号的关注者超过了1亿?”(答案:38)。

另外:AWS为企业推出了一款AI聊天机器人-以下是免费试用的方法

作者们还编写了一些错误前提问题,因为你必须了解到问题本身所断言的并不是实际情况,比如,“第一位人类登陆火星是在哪一年?”

可预见的是,GPT-4以及其他经过测试的大型语言模型,比如Google的路径语言模型(PaLM),在FreshQA问题上表现不佳,并在得到FreshPrompt的帮助时取得更好的结果。研究人员Vu和团队指出,这主要是因为它们无法获得最新的信息,因此会产生“过时”的答案。许多程序会拒绝提供答案。

他们表示,通过添加FreshPrompt,“显著提高了GPT-4在FreshQA中的准确性”。这种技术“大大减少了过时和虚构答案的存在”,他们补充道。在2022年之后的问题中,GPT-4的准确性从令人沮丧的8%提高到了70.2%。涉及所有FreshQA问题,包括年代久远的事实,准确性从28.6%提高到了75.6%。

对于错误前提问题来说,差异就明显了。语言模型必须断言问题是错误的,才能获得正确答案。使用FreshPrompt后,GPT-4错误前提问题的准确率从33.9%提高到了71%。不过,这也意味着GPT-4仍然有可能在近三分之一的时间内接受错误前提问题。

另外:AI在向我们撒谎吗?这些研究人员构建了一种LLM谎言检测器来揭开真相

作者们发现,FreshPrompt能够超越其他使用搜索引擎查询来“增强”语言模型的研究。这包括Perplexity.ai,它是GPT-3.5和Bing搜索的组合。在所有FreshQA问题中,Perplexity的平均准确率只有52.2%,略好于随机机会。而使用FreshPrompt后,GPT-4的准确率能达到75.6%。

他们指出一个重要的区别是从Web搜索中获取的FreshPrompt中包含多少信息。一般来说,越多越好。他们说:“我们的结果表明,对于达到最高准确率,每个问题所检索的证据数量至关重要。”

作者们指出,未来还存在一些实际挑战。首先,更新FreshPrompt耗时,需要检查答案是否仍然相关。团队希望开源社区能够提供帮助,或者通过生成式人工智能来自动更新。目前,Vu和团队致力于保持FreshQA的新鲜。


声明:Tiernan Ray对他所写的任何内容都没有持股,并且The Technology Letter的出版商Tiernan Ray LLC与任何被报道的公司之间不存在商业关系。