打破AI的边界：ChatGPT的偏差问题及我们应予以关注 😱👩‍💻

仅仅指示ChatGPT持续重复词语'诗'导致程序产生了大量文本，这些文本都是从训练数据中复制的，突破了它的编程限制

谷歌的深度学习部门DeepMind报道了ChatGPT存在的潜在问题，包括数据泄露和隐私侵犯。

通过重复一个单词，ChatGPT揭示了它的训练数据。图片来源：ENBLE

人工智能（AI）及其应用正迅速发展，但一些研究人员现在正在找到突破ChatGPT等生成型AI程序界限的方法。这些程序被设计为在预定限制内提供有益的辅助。然而，加州大学的一群学者最近发现了一种打破对齐的方法，他们通过向该程序轰炸令人反感的问答对，从而使其失去对齐能力，正如ENBLE报道的那样。

但这还不是全部。谷歌的DeepMind团队的研究人员更进一步，发现了一种更简单的打破ChatGPT对齐的方法。他们通过命令程序无限重复一个单词，发现它会透露整篇文字，包括其训练数据。它甚至还会重现个人信息，如姓名、电话号码和地址，严重违反隐私规范。

这种称为“可提取的记忆”的现象迫使程序披露存储的信息。研究人员进行了详细研究，并在他们的研究论文《(生产)语言模型中的可扩展数据提取》中分享了这些研究成果。他们还提供了一篇更易理解的博客文章。他们的攻击使ChatGPT偏离了预期的行为，导致训练数据以惊人的速度泄露出来，可能造成严重的危害。

生成型AI程序的复杂性

像ChatGPT这样的生成型AI程序经历了一个称为训练的过程，数据科学家将大量文本输入并进行压缩和解压缩。这个过程使程序能够模仿任何提供给它的文本。然而，像ChatGPT这样的对齐程序接受额外的训练，以确保它们提供有用和适当的回答，并隐藏其底层的模仿功能。

但是这些研究人员是如何成功打破ChatGPT的呢？他们巧妙地要求程序不停地重复特定的单词。起初，ChatGPT会顺从地重复“poem”这个单词数百次，但随着时间的推移，它开始变成一些没有意义的文本片段。就在这时，魔法发生了 – 程序开始从其内存中透露训练数据的片段，令研究人员大为吃惊。

ChatGPT变得无意义并开始透露训练数据。图片来源：ENBLE

提取未知信息

为了了解这种泄露的程度，研究人员编制了一个庞大的数据集，称为AUXDataSet，其中包含近10TB的训练数据。AUXDataSet由四个不同的训练数据集组成，包括The Pile、Refined Web、RedPajama和Dolma。他们巧妙地使用高效的索引机制使这个编译可搜索，方便将ChatGPT的输出与训练数据进行比较。

通过数千次重复攻击，要求ChatGPT无限重复单词，他们发现有超过10,000个实例的“记忆”内容被反复提及。此外，他们将近500个ChatGPT的输出与Google搜索进行了比对，并发现从Web上提取的记忆数据的实例数量是AUXDataSet大小的两倍，这表明可能存在更多的记忆数据。

🎥 视频：点击此处观看研究结果的视频摘要。

训练的双刃剑

但是为什么ChatGPT会揭示这些记忆的文本？研究人员提出了ChatGPT可能会经历比其他生成型AI程序更广泛的训练过程，即“时代”。这意味着它反复遇到相同的训练数据，导致了增加的记忆能力。先前的研究表明，额外的训练可以显著增强这种记忆能力。

有趣的是，尽管ChatGPT对单词提示进行了回应，但当要求重复多个单词时，它通常会拒绝继续进行。尽管研究人员不理解这种行为背后的原因，但他们承认这种效应是显著且可复制的。

OpenAI的回应和更大的意义

研究人员于8月30日将他们的发现与ChatGPT背后的组织OpenAI分享。在ENBLE的测试中，OpenAI似乎已经采取了一些措施来抵御这种漏洞，测试时，ChatGPT在回应“poem”这个词时，会多次回应约250次，然后发出一条消息表示它可能会违反内容政策或使用条款。

尽管调整是一种有前景的策略，但这项研究表明，在最坏情况下，这种策略可能无法完全解决安全、隐私和滥用风险。作为对生成式AI开发者的警示，学者强调模型可能具有不可取的能力，例如记忆数据，而不明确披露它们。

📚 参考文献： – TomTom and Microsoft Launching AI Driving Assistant – The New York Times Wants OpenAI and Microsoft to Pay for Training Data – Five Ways to Use AI Responsibly – The Best AI Chatbots: ChatGPT and Other Noteworthy Alternatives – Internet Moments that Defined 2023 – AI and Advanced Applications are Straining Current Technology Infrastructures – Leadership Alert: The Dust Will Never Settle, and Generative AI Can Help – Today’s AI Boom Will Amplify Social Problems if We Don’t Act Now

💭 与专家的问答

问：其他生成式AI程序是否容易受到与ChatGPT相同的攻击？ 答：研究人员表示，针对单词提示的这种特定攻击似乎不适用于其他生成式AI机器人。然而，它凸显了需要进一步研究所有生成式AI程序的调整策略。

问：这种攻击会对隐私和安全产生什么影响？ 答：提取训练数据，包括个人可识别信息，可能导致严重的隐私泄露。对此类信息的未经授权访问会带来滥用和潜在的社会危害风险。这需要采用更全面的方法来保护AI系统中的用户数据。

问：有哪些措施可以解决在ChatGPT中发现的漏洞？ 答：虽然OpenAI已经采取措施来减轻这种特定攻击，但全面的解决方案应该包括先进的调整技术、更严格的数据清洗以及对数据泄漏的持续监控。持续的研究和专家之间的合作对确保开发具有更强隐私和安全保障的AI系统至关重要。

前方道路：平衡进展和风险

这项研究揭示了生成式AI程序固有的挑战，并强调了在推动技术界限的同时保护用户隐私和安全之间需要找到一种微妙的平衡。随着AI的蓬勃发展，我们迫切需要积极解决这些问题，以防止潜在的滥用并放大AI的积极影响。

如果你觉得这篇文章激发了你的思考，请不要忘记与你的朋友和同事分享！让我们在社交媒体上继续对话，共同塑造一个既创新又安全的AI技术的未来。

✍️ 作者注：以风格和幽默表达复杂的技术主题总是令人兴奋的。希望这篇文章为您提供了有价值的见解，同时让您享受阅读的乐趣。如果您有更多问题或想分享您的想法，请随时在下面留言！