事实核查AI:它们可靠吗?🤖🔎

人非圣贤,也有AI犯错

我用Bard、Claude和Copilot对ChatGPT进行了测试,这个人工智能错误到一笑而过,但自信满满!

墙上有彩色灯光的抽象人工智能房间

生成式人工智能(AI)因其生成内容的能力而受到欢迎,但众所周知,它往往容易出现事实错误。那么,当您需要对大量由AI生成的陈述进行事实核查时会发生什么呢?作为一名计算机技术和编程专家,我开始了一项探索之旅。

在本文中,我将介绍一个引人入胜的项目,我在其中利用多个AI对ChatGPT生成的150个陈述进行了事实核查。我将分享此次事实核查对决的方法论,来自不同AI的反馈,并为那些考虑涉足这个AI迷宫的人提供一些最终的想法和注意事项。

🚀 项目:利用AI进行事实核查

上周,我发布了一项引人入胜的项目,其中ChatGPT生成了50张代表每个美国州的精美图片,以及每个州的三个有趣的事实。这些输出很古怪,但引发了对事实准确性的好奇心。

虽然我个人发现这些事实大多数是准确的,但我决定对AIs进行测试,确定所有150个陈述的准确性。毕竟,比起人工智能自身,还有哪个更适合对AI进行事实核查的呢?

📋 方法论:比较不同的AIs

我不想仅仅依靠ChatGPT对自己的陈述进行事实核查。这就好像让学生们在没有参考资料的情况下写历史论文,然后自行更正自己的作品。所以,我转向了其他不同AI框架中的语言模型——Anthropic的Claude,微软的Copilot和谷歌的Bard。这些AI都有自己独特的深度学习模型和方法。

我将事实陈述输入到每个AI中并观察它们的回应。我旨在评估它们的事实核查能力并确定它们评估中的任何差异。

📚 分析:AIs的事实核查能力

Anthropic Claude 🕵️‍♂️

Claude,由Claude 2语言模型驱动,提供了大部分准确的结果,同时也引发了对ChatGPT事实描述缺乏细微差别的担忧。尽管Claude的回应令人鼓舞,但它突出了为ChatGPT的事实生成设置的字符限制所带来的限制。

微软的Copilot ❌🛫

Copilot,之前被称为必应Chat AI,表现不如预期。由于字符限制的约束,它无法处理完整的事实集合。Copilot只是简单地复制我要求它核查的事实数据,无法提供任何有意义的事实核查回应。

谷歌的Bard 🎭

Bard利用谷歌的PaLM 2模型,成为了整个项目的明星。它提供了全面的反馈,成功地对ChatGPT生成的陈述进行了事实核查。然而,Bard在完成任务时有时会夸张,忽略了某些上下文的细微差别。尽管有这些小小的错误,Bard的事实核查能力超过了其他AIs。

ChatGPT来核查Bard的事实核查结果 ✅❌

我很好奇ChatGPT能否发现Bard反馈的不准确之处,所以我把Bard核查过的陈述再次输入到ChatGPT中。ChatGPT注意到了与阿拉斯加和俄亥俄州相关的答案不符之处,有效地对Bard的事实核查进行了核对。最终,ChatGPT的更正与广泛接受的描述相一致,并得到了历史证据的支持。

🧐 结论和注意事项

虽然这些AIs之间的事实核查互动令人着迷,但结果远非定论。要指出的是,仅仅依靠AIs来获得事实准确性是不可靠的。在关乎准确性的重要文件和项目中,人类事实核查仍然是不可或缺的。

虽然巴德展示了令人印象深刻的事实核查能力,但它在上下文细微差别方面还不够出色,就像其他人工智能一样。随着谷歌等搜索引擎越来越多地将人工智能生成的答案纳入搜索结果中,就变得至关重要要谨慎行事并验证信息的准确性。

那么,我的人工智能爱好者朋友们,你们有什么想法吗?你们是否遇到过你最喜欢的人工智能出现过离谱的错误?你是否只依赖它们的事实核查能力,还是会采取额外的事实核查过程?在下面的评论中分享你的意见和经验吧!

🎉保持联系和分享

不要错过这篇文章中讨论的有趣项目。在社交媒体上关注我,订阅我每周的更新信息,加入我在Twitter、Facebook、Instagram和YouTube上的行列,获取每日的项目更新和更多令人兴奋的技术讨论。让我们一起探索迷人的科技世界吧!


参考资料:

  1. 纽约时报希望OpenAI和微软出钱付训练数据费用
  2. OpenAI发布ChatGPT数据泄漏修补程序:问题完全解决
  3. 2023年的人工智能:一年的突破让任何人都离不开了
  4. 要求DALL-E 3创作每个美国州的肖像,结果异常奇特
  5. 最有可能被人工智能接管的工作
  6. 两个突破使2023年成为十年来最具创新性的科技年
  7. 双子座:关于谷歌新的人工智能模型你应该知道的一切
  8. 确保你的数据已经做好生成式人工智能的准备的7种方法