在人工智能领域,谷歌的DeepMind表示,越简单越好

In the field of artificial intelligence, DeepMind from Google believes that simpler is better.

科学家们发现,通过去除神经网络的四分之三,可以实现更多的成果。

在人工智能(AI)科学中的一个主要追求是程序的规模和使用的数据之间的平衡。毕竟,购买用于运行AI的Nvidia GPU芯片以及收集数十亿字节的数据来训练神经网络需要实际的金钱,成本高达数千万美元,而你需要多少数据则具有非常实际的影响。

去年,Google的DeepMind部门将计算能力和训练数据之间的确切平衡规律提炼为AI的一种法则。这个经验法则被称为“Chinchilla法则”,它指出,如果你将程序的大小缩小到其初始大小的四分之一,并且还将所用的训练数据增加到其初始大小的四倍,那么你可以达到一个最佳的准确性结果。

此外:生成式人工智能能解决计算机科学中最重要的未解决问题吗?

Chinchilla的观点是,在深度学习AI中,你可以通过构建更小的程序并在数据上进行更长时间的训练来实现更好的结果。换句话说,对于尚未完全理解的原因,更少才是更多。

DeepMind和其合作伙伴在本月发表的一篇论文中进一步发展了这一观点,他们提出,在神经网络遇到瓶颈后,通过剥离整个神经网络的部分,可以进一步提高性能。

此外:生成式人工智能将远远超过ChatGPT的能力。原因在于

根据奥地利科学与技术研究所的首席作者Elias Frantar和DeepMind的合作者的说法,如果使用一种称为“稀疏性”的技术,可以从一个只有另一个一半大小的神经网络中获得相同的准确性结果。

稀疏性是神经网络中已经研究多年的一个不太为人知的元素,它借鉴了人类神经元的实际结构。稀疏性是指关闭神经元之间的一些连接。在人脑中,这些连接被称为突触。

绝大多数人类突触没有连接。正如ETH Zurich的科学家Torsten Hoefler及其团队在2021年观察到的那样,“生物大脑,尤其是人脑,是分层、稀疏和循环结构”,他们补充说,“大脑中的神经元越多,它就越稀疏”。

这种思路是,如果能够近似这种非常少量连接的自然现象,那么在任何神经网络中都可以用更少的努力、时间、金钱和能量做更多的事情。

此外:微软和TikTok给生成式人工智能提供一种记忆

在人工神经网络中,如深度学习AI模型,突触连接的等效物是“权重”或“参数”。没有连接的突触将是具有零值的权重,它们不进行任何计算,因此不会占用任何计算能量。因此,AI科学家将稀疏性称为将神经网络的参数清零。

在这篇发布在arXiv预印本服务器上的新的DeepMind论文中,Frantar和他的团队提出了一个问题:如果较小的网络可以达到与较大网络相同的工作效果,正如之前的研究所示,那么通过去除一些权重,稀疏性可以进一步推动性能到什么程度?

研究人员发现,如果将神经网络的参数清零三分之一,使其更加稀疏,它可以完成与自己大小两倍的神经网络相同的工作。

他们总结道:“从这些结果中得出的关键要点是,当训练时间显著超过Chinchilla(密集计算最优)时,越来越多的稀疏模型开始成为具有相同非零参数数量的损失最优模型。”术语“密集计算模型”指的是没有稀疏性的神经网络,因此所有的突触都在工作。

“这是因为在某一点上,进一步训练密集模型的收益开始显著减缓,使得稀疏模型超过它们。”换句话说,正常的非稀疏模型(密集模型)在稀疏版本接管的地方开始崩溃。

另外:AI先驱Geoff Hinton表示,我们将看到一种全新的计算机类型

这项研究的实际影响是显著的。当神经网络在性能方面达到极限时,实际上减少其神经参数的数量,将其置零,会在训练时间越来越长的情况下进一步延长神经网络的性能。

“随着训练时间的增加,最佳稀疏度不断提高,因此稀疏性提供了一种在固定的最终参数成本下进一步提高模型性能的手段。”

对于一个担心越来越耗电的神经网络的能源成本的世界来说,好消息是科学家们发现即使减少成本,仍然可以做更多的事情。