Google和OpenAI如何促使GPT-4提供更及时的答案

谷歌和OpenAI如何推动GPT-4实现更快速的解答

流行的生成式人工智能程序（如ChatGPT）的一个显著特点是它们在吸收的事实方面有一个时间截止点。例如，OpenAI最近更新了其GPT-4程序，使其能够访问直到2023年4月发生的事件的数据；在此更新之前，该工具仅基于最近的2021年数据进行训练。

然而，AI科学家正在努力找到让生成式AI程序可靠地获取关于及时和紧迫问题的不断变化的数据的方法，比如，“King Gizzard最新的录音室专辑是什么？”（答案：The Silver Cord）

此外：ChatGPT对最近的事件不再那么无知

基于这个精神，谷歌和OpenAI本月发布了一个名为FreshLLM的合作项目，使GPT-4能够使用从谷歌搜索中检索到的信息。FreshLLM的核心是一种称为“FreshPrompt”的提示语言模型的新方法，其中包含来自搜索引擎的结果。

通过将来自谷歌的搜索结果包含在GPT-4的输入提示中，然后基于这些搜索结果显示一个有效的查询答案，可以促使GPT-4使用从Web搜索中获取的证据来制作其输出。结果明显改善了该程序对涉及及时信息的问题的回答。

“FreshPrompt在与其他搜索引擎增强方法相比的性能方面有显著提升，”谷歌的首席作者Tu Vu和同事在研究论文《FreshLLMs: Refreshing large language models with search engine augmentation》中写道，该论文已发布在arXiv预印服务器上。

然而，FreshPrompt技术只是整个故事的一部分。为了测试GPT-4和竞争程序在使用Web数据时的表现，Vu和同事们不得不提出一系列问题，这些问题将对真实世界的最新事实构成挑战。

此外：学者们警告说，尽管有防范措施，生成式人工智能仍可能变得恶意

为此，该团队 – 在同事和在线自由职业者的帮助下 – 撰写了一些关于“世界发展”的问题，这些问题旨在包含他们所称的“新知识” – 指“最近变化或新事件的知识”，并且也是“真实人士在搜索引擎中输入的合理问题”。

谷歌和OpenAI学者们所创造的600个问题的实例，用于测试生成式AI对快速变化事实的了解。

他们提出了600个问题，称为FreshAQ，其中包括从永不改变的问题 – “在美国，Virginia Woolf关于Ramsay家族的小说是否进入了公共领域？” – 至快速变化的问题 – 如“Brad Pitt作为演员的最新电影是什么？”大部分但不是全部的答案都来自维基百科。

该项目的GitHub代码链接到了一个谷歌文档的电子表格，其中包含了完整的FreshQA问题数据库。阅读这600个问题的列表会让你立刻涉足琐事的世界。“根据出版者周刊，哪位作者在去年在美国拥有最畅销的小说？”（答案：Colleen Hoover）“在Instagram上有多少帐号的关注者超过了1亿？”（答案：38）。

另外：AWS为企业推出了一款AI聊天机器人-以下是免费试用的方法

作者们还编写了一些错误前提问题，因为你必须了解到问题本身所断言的并不是实际情况，比如，“第一位人类登陆火星是在哪一年？”

可预见的是，GPT-4以及其他经过测试的大型语言模型，比如Google的路径语言模型（PaLM），在FreshQA问题上表现不佳，并在得到FreshPrompt的帮助时取得更好的结果。研究人员Vu和团队指出，这主要是因为它们无法获得最新的信息，因此会产生“过时”的答案。许多程序会拒绝提供答案。

他们表示，通过添加FreshPrompt，“显著提高了GPT-4在FreshQA中的准确性”。这种技术“大大减少了过时和虚构答案的存在”，他们补充道。在2022年之后的问题中，GPT-4的准确性从令人沮丧的8%提高到了70.2%。涉及所有FreshQA问题，包括年代久远的事实，准确性从28.6%提高到了75.6%。

对于错误前提问题来说，差异就明显了。语言模型必须断言问题是错误的，才能获得正确答案。使用FreshPrompt后，GPT-4错误前提问题的准确率从33.9%提高到了71%。不过，这也意味着GPT-4仍然有可能在近三分之一的时间内接受错误前提问题。

另外：AI在向我们撒谎吗？这些研究人员构建了一种LLM谎言检测器来揭开真相

作者们发现，FreshPrompt能够超越其他使用搜索引擎查询来“增强”语言模型的研究。这包括Perplexity.ai，它是GPT-3.5和Bing搜索的组合。在所有FreshQA问题中，Perplexity的平均准确率只有52.2%，略好于随机机会。而使用FreshPrompt后，GPT-4的准确率能达到75.6%。

他们指出一个重要的区别是从Web搜索中获取的FreshPrompt中包含多少信息。一般来说，越多越好。他们说：“我们的结果表明，对于达到最高准确率，每个问题所检索的证据数量至关重要。”

作者们指出，未来还存在一些实际挑战。首先，更新FreshPrompt耗时，需要检查答案是否仍然相关。团队希望开源社区能够提供帮助，或者通过生成式人工智能来自动更新。目前，Vu和团队致力于保持FreshQA的新鲜。

声明：Tiernan Ray对他所写的任何内容都没有持股，并且The Technology Letter的出版商Tiernan Ray LLC与任何被报道的公司之间不存在商业关系。

Google和OpenAI如何促使GPT-4提供更及时的答案

谷歌和OpenAI如何推动GPT-4实现更快速的解答

据报道，苹果公司将停止自家研发定制5G调制解...

学者表示，虽然有防护措施，生成式人工智能仍...

Adobe-Figma合并面临审查：英国当局提出竞争担忧

亚马逊的新AI转录和无服务器扩展 (Yàmǎxùn de ...

素食肋排配食用骨头：这可能是烧烤的未来

《2023年必备的电子邮件营销策略》

News