Meta的AI大师LeCun:今天大部分的AI方法都不会导致真正的智能

Meta's AI master LeCun Most AI methods today do not lead to true intelligence.

“我认为AI系统需要能够进行推理,”Meta首席AI科学家Yann LeCun说道。如今流行的AI方法,如Transformers,许多都是基于他在该领域的开创性工作,但这些方法将不够。“你必须退一步,说,好吧,我们建造了这个梯子,但我们想去月球,这个梯子绝对不能让我们到达那里,”LeCun说道。

(本文已更新,包含Gary Marcus和Jürgen Schmidhuber的反驳内容。)

Meta的首席AI科学家Yann LeCun可能会惹恼他所在领域的许多人。

今年6月,LeCun在Open Review服务器上发表了一篇思考文章,对他认为有望实现机器人类智能的方法进行了广泛概述。

这篇论文没有明确表述,但暗示着大部分现今的AI项目将无法达到人类水平的目标。

本月,LeCun在与ENBLE通过Zoom进行的讨论中明确表示,他对目前深度学习中许多最成功的研究方向持怀疑态度。

图灵奖得主LeCun对同行的追求表示:“我认为这些研究是必要的,但是不足以实现目标。”

其中包括基于Transformer的大型语言模型,如GPT-3及其类似模型。LeCun将这些模型的支持者描述为“我们将所有内容进行分词,并训练巨大的模型进行离散预测,然后AI就会从中产生。”

他说:“他们并没有错,从某种意义上来说,这可能是未来智能系统的一部分,但我认为它缺少了重要的组成部分。”

此外:Meta的AI专家LeCun探索深度学习的能源前沿

作为深度学习程序中极具成效的实用技术卷积神经网络的完善者,LeCun看到了该领域许多其他高度成功领域的缺陷和局限性。

他坚持认为,强化学习也不足以实现目标。LeCun观察到,DeepMind的David Silver等研究人员开发的AlphaZero程序已经掌握了国际象棋、将棋和围棋等项目,但这些程序都是“非常基于行动”的,而“我们大部分的学习并不是通过采取行动来完成的,而是通过观察来完成的。”

尽管已经取得了几十年的成就,62岁的LeCun仍急切地要面对他认为许多人可能正在冲向的死胡同,并试图引导该领域朝着他认为正确的方向发展。

他说:“我们看到很多关于如何推动向人类级别的AI迈进的说法。有一些想法我认为是错误的。”

“我们的智能机器的常识水平还不及猫的水平,”LeCun观察到。“那么,为什么我们不从那里开始呢?”

他已经放弃了以前对使用生成网络预测视频中的下一帧的信念。他说:“这是一个彻底的失败。”

LeCun谴责那些他称为“信仰概率论”的人,他们“认为概率论是解释机器学习的唯一框架。”

他说,纯粹的统计方法是难以处理的。“要求一个世界模型完全遵循概率是太过分了,我们不知道该如何做到这一点。”

不仅仅是学术界,工业界的AI也需要进行深刻的重新思考,LeCun辩称。他说,自动驾驶汽车界,如Wayve等初创公司,对于“将数据投入大型神经网络并学习几乎任何事物”的想法有些“过于乐观”。

“你知道,我认为完全有可能我们会拥有没有常识的五级自动驾驶汽车,”他谈到了自动驾驶中的先进驾驶辅助系统(ADAS)的术语,“但你必须大量地对其进行工程设计。”

他认为,这种过度工程化的自动驾驶技术将会变得像所有被深度学习所淘汰的计算机视觉程序一样脆弱。

“最终,将会有一种更令人满意且可能更好的解决方案,涉及到更好地理解世界运作方式的系统。”

在这过程中,LeCun对他的主要批评者,如纽约大学教授Gary Marcus — “他从未为人工智能做出过任何贡献” — 和Dalle Molle人工智能研究所的联合主任Jürgen Schmidhuber — “标植旗帜非常容易” — 提出了一些尖锐的观点。

除了批评之外,LeCun提出的更重要的观点是,所有人工智能都面临着一些基本问题,特别是如何衡量信息。

“你必须退一步,然后说,好吧,我们建造了这把梯子,但我们想去月球,这把梯子根本无法把我们带到那里,”LeCun谈到了他希望引发对基本概念的重新思考。“基本上,我在这里写的是,我们需要建造火箭,我无法告诉你我们如何建造火箭的细节,但这是基本原则。”

通过阅读LeCun今年早些时候与ENBLE的访谈,可以更好地理解这篇论文和LeCun的思想,他在访谈中提出了以能量为基础的自我监督学习作为深度学习的前进之路。这些反思为他希望构建的替代方案提供了核心方法的感觉。

机器人技术

  • 这款由人工智能驱动的假肢手正在为改变生活的产品注入设计和风格
  • 目前可用的最佳机器人吸尘器
  • 为什么大学生们能拥有这些酷炫的机器人?
  • 五款最佳的机器人割草机:无需人工的草坪护理

以下是对访谈的稍作编辑的转录。

ENBLE:我们讨论的主题是这篇论文,《通往自主机器智能的路径》,0.9.2版本是现存版本,是吗?

Yann LeCun:是的,我认为这是一份工作文件。所以,我把它发布在Open Review上,等待人们的评论和建议,也许还有附加的参考资料,然后我会制作修订版本。

ENBLE:我看到Juergen Schmidhuber已经在Open Review上添加了一些评论。

YL:是的,他总是这样做。我在我的论文中引用了他的一篇论文。我认为他在社交网络上提出的论点,即他在1991年基本上发明了所有这些,就像他在其他情况下所做的那样,事实并非如此。我的意思是,只是提出一个想法,然后在玩具问题上让它起作用,然后在真实问题上让它起作用,然后进行一项理论来解释它为什么起作用,然后部署它,这之间有很大的差距。他对科学学术的理解是第一个提出这个想法的人应该得到全部的赞誉,这是荒谬的。

(更新:Jürgen Schmidhuber回答说,“LeCun声称我的‘科学学术信用的理念是第一个提出这个想法的人应该得到全部的赞誉’。在任何宇宙中都不是这样。正如我在[DLC]中所写的:‘一个重要方法的发明者应该因其发明而获得赞誉。她可能并不总是推广它的人。然后,推广者应该因其推广而获得赞誉(而不是因为发明它)。’然而,LeCun显然对推广他人发明的想法不满足,他还希望获得发明者的赞誉。他对不与科学诚信的基本普遍接受规则相一致的无法持续的立场进行了加倍的支持。”)

ENBLE:不要相信社交媒体上的一切。

YL:我的意思是,他说我应该引用的主要论文中没有我在论文中讨论的主要观点。他在GANs和其他事物上也做过这样的事情,但事实并非如此。种下旗帜很容易,但要做出贡献则更难。顺便说一下,在这篇特定的论文中,我明确表示这不是通常意义上的科学论文。它更像是关于这个领域发展方向的立场论文。其中有一些可能是新的想法,但大部分不是。我并不声称我在那篇论文中写的大部分内容的优先权。

(更新:Schmidhuber回应说:“LeCun关于我的声称:‘他说我应该引用的主要论文中没有我在论文中讨论的主要观点。’这没有任何意义。我列举了不止一个,而是几篇相关的论文(包括[AC90] [UN1] [AC02] [HRL1] [PLAN4]),其中包含了LeCun明确称作他的‘主要原创贡献’的大部分内容[LEC22a]。LeCun说[LEC22c]:‘我并不声称我在那篇论文中写的大部分内容的优先权。’然而,他列举了他的‘主要原创贡献’[LEC22a],而我证明它们与他所声称的完全不同[LEC]。LeCun关于我‘他在GANs方面也做过同样的事情。’这个错误的主张没有任何依据和参考文献。我在1990年的基于梯度的生成对抗神经网络的论文[AC90-AC90b]描述了2014年GAN的基本原理(被频繁引用、实现和使用),而该论文[GAN1]未能正确归功[T22]。我关于这方面的同行评审出版物[AC20]仍然没有受到挑战。)

LeCun坚持认为,单纯的强化学习是不够的。DeepMind的David Silver等研究人员开发的AlphaZero程序掌握了国际象棋、将棋和围棋,LeCun指出他们是“非常基于行动”的,但“我们大多数的学习并不是通过实际行动来完成的,而是通过观察来完成的。”

ENBLE:这也可能是一个好的起点,因为我很好奇您为什么现在选择这条路?是什么让您开始思考这个问题?为什么您想要写这篇论文?

YL:嗯,我对实现人类级或动物级智能或学习能力的路径思考已经很长时间了。在我的演讲中,我对有监督学习和强化学习都不足以模拟我们在动物和人类中观察到的学习给出了非常明确的观点。我已经这样做了大约七八年了。所以,这不是最近的事情。多年前,我在NeurIPS的主题演讲中提出了这个观点,并在各种演讲中都有记录。现在,为什么现在写一篇论文呢?我到了这个时候——[Google Brain研究员]Geoff Hinton做了类似的事情——我的意思是,当然,他比我更多,我们看到时间不多了。我们已经不年轻了。

ENBLE:六十就是新五十。

YL:没错,但问题是,我们听到了很多关于应该如何推进人类级人工智能的说法。有一些想法我认为是错误的。所以,一个想法是,哦,我们应该在神经网络之上添加符号推理。而我不知道如何做到这一点。因此,也许我在论文中解释的方法可能是一种不需要显式符号操作的方法。这是传统上的Gary Marcuses之类的人所希望的。顺便说一下,Gary Marcus并不是一个AI人员,他是一个心理学家。他在实验心理学方面做了非常好的工作,但他从未在AI上发表过同行评审的论文。还有那些人。

(更新:Gary Marcus反驳了缺乏同行评审文章的说法。他在给ENBLE的电子邮件中提供了以下同行评审文章:Commonsense Reasoning about Containers using Radically Incomplete Information in Artificial Intelligence;Reasoning from Radically Incomplete Information: The Case of Containers in Advances In Cog Sys;The Scope and Limits of Simulation in Automated Reasoning in Artificial Intelligence;Commonsense Reasoning and Commonsense Knowledge in Communications of the ACM;Rethinking eliminative connectionism, Cog Psy)

世界上有[DeepMind首席研究科学家]David Silvers等人说,你知道,奖励就足够了,基本上,这一切都与强化学习有关,我们只需要让它更加高效,好吗?我认为他们没有错,但我认为使强化学习更加高效的必要步骤,基本上将把强化学习降为一种额外的奖励。主要缺失的部分是通过观察而非行动来学习世界如何运作。强化学习非常行动导向,通过采取行动并观察结果来学习世界的知识。

ENBLE:而且它专注于奖励。

YL:它专注于奖励,也专注于行动。因此,你必须在世界中采取行动才能学到有关世界的东西。我在论文中关于自监督学习提出的主要观点是,我们大部分的学习并不是通过实际采取行动来进行的,而是通过观察来进行的。这对于强化学习的研究人员来说非常非常不寻常,但对于很多心理学家和认知科学家来说也是如此。他们认为行动是重要的,我的意思不是说行动不重要,它是重要的。但我认为我们所学到的大部分内容主要是关于世界结构的,并且当然涉及互动、行动和游戏等等,但其中很大一部分是观察性的。

ENBLE:你也会得罪那些Transformer追随者,那些以语言为先的人。你怎么能在没有语言的情况下建立这个系统?你可能会得罪很多人。

YL:是的,我已经习惯了。所以,是的,有那些以语言为先的人,他们认为智能是关于语言的,智能的基础是语言,等等。但这种观点基本上排除了动物智能。我们的智能机器还没有达到猫的常识水平。那么,为什么我们不从那里开始呢?是什么让猫能够理解周围的世界,做出相当聪明的事情,进行规划等等,而狗做得更好呢?

然后还有那些说智能是一种社交事物的人,对吧?我们之所以聪明,是因为我们互相交流和交换信息,等等。还有很多非社交物种,它们从不与父母见面,但非常聪明,比如章鱼或者猩猩。我是说,它们[猩猩]当然受到母亲的教育,但它们不是社交动物。

但我可能会得罪的另一类人是那些认为扩展就足够的人。所以,基本上,我们只需使用巨大的Transformer,在涉及视频、文本等多模态数据上对它们进行训练。我们对所有内容进行标记和分词,然后训练巨大的模型来进行离散预测,基本上,AI将从中产生。他们并没有错,因为这可能是未来智能系统的一部分。但我认为它缺少了一些关键的要素。

太空

  • Artemis是什么?关于NASA新月球任务的一切
  • NASA解开了旅行者1号奇怪数据传输的谜团
  • NASA的新型微型高功率激光器可以在月球上发现水
  • NASA正在开辟一条激励之路。我们需要确保每个人都能跟上

我会因这篇论文得罪另一类人,那就是概率论者,虔诚的概率论者。因为他们认为概率论是解释机器学习的唯一框架。正如我在文章中试图解释的那样,要求一个完全概率性的世界模型是太过分的。我们不知道如何做到这一点。还有计算上的不可解性。所以我提议放弃这个整体的想法。当然,你知道,这不仅是机器学习的巨大支柱,也是所有统计学的巨大支柱,它声称是机器学习的正常形式。

另一件事是-

ENBLE:你说得够多了…

YL:——被称为生成模型。所以,这个想法是你可以学会预测,并且通过预测可能对世界有很多了解。所以,我给你一段视频,然后让系统预测接下来会发生什么。我可能要求你预测具体的视频帧,带有所有的细节。但我在论文中争论的是,这实际上是要求太多了,太复杂了。这是我改变主意的事情。直到大约两年前,我曾经是一个潜在变量生成模型的拥护者,这种模型可以预测接下来会发生什么或者缺失的信息,如果预测不能是确定的,可能需要潜在变量的帮助。现在我放弃了这个观点。我放弃的原因是基于经验结果,人们试图应用类似BERT和大型语言模型中使用的基于预测或重构的训练方法来处理图像,但是这完全失败了。失败的原因是概率模型的限制,对于离散的令牌如单词,预测是相对容易的,因为我们可以计算字典中所有单词的概率分布。这很容易。但是,如果我们要求系统生成所有可能的视频帧的概率分布,我们不知道如何参数化它,或者我们大致知道如何参数化它,但是我们不知道如何对其进行归一化。这涉及到一个我们不知道如何解决的棘手的数学问题。

“我们的智能机器还没有达到与猫一样的常识水平,”Lecun观察到。“那我们为什么不从那里开始呢?是什么让猫能够理解周围的世界,做出相当聪明的事情,计划等等,而狗甚至更好?”

所以,这就是为什么我说让我们放弃概率论或者用于类似问题的框架,使用较弱的能量模型。几十年来,我一直在提倡这个观点,所以这不是最近的事情。但与此同时,我也放弃了生成模型的想法,因为世界上有很多事情是不可理解和不可预测的。如果你是一名工程师,你称之为噪音。如果你是一名物理学家,你称之为热量。如果你是一名机器学习者,你称之为无关细节或其他什么。

所以,我在论文中使用的例子,或者我在演讲中使用的例子是,你想要一个世界预测系统,可以帮助自动驾驶汽车,对吗?它希望能够提前预测其他所有汽车的轨迹,其他可能移动的物体的情况,行人、自行车、一个追逐足球的孩子之类的事情。所以,对世界的各种各样的事情。但是在道路的边缘,可能有树木,而且今天有风,所以树叶在风中摇动,树木后面有个池塘,池塘里有涟漪。这些基本上是无法预测的现象。你不希望你的模型花费大量的资源来预测那些难以预测且无关紧要的事情。所以这就是为什么我提倡联合嵌入架构,其中你要建模的变量,你不是试图预测它,而是试图对其进行建模,但它通过一个编码器,这个编码器可以消除输入中的许多无关或过于复杂的细节,基本上等同于噪音。

ENBLE:我们今年早些时候讨论过能量模型,JEPA和H-JEPA。我的理解是,如果我理解正确的话,你是在找到低能量点,使得这两个X和Y嵌入的预测最相似,这意味着如果在一个树上有一只鸽子,在场景的背景中有些东西,这些可能不是使这些嵌入彼此靠近的关键点。

YL:对。所以,JEPA架构实际上试图找到一个折衷方案,即在最大程度上提取关于输入的信息的表示,但又可以以某种准确度或可靠性从彼此预测出来。它找到了一个折衷方案。所以,如果它可以选择在包括树叶运动细节的情况下耗费大量的资源,并对决定树叶一秒钟后如何移动的动力学进行建模,或者只是通过运行Y变量通过预测器来消除所有这些细节,那么它可能只会消除掉,因为这些细节太难建模和捕捉了。

人工智能

  • 7个高级ChatGPT提示编写技巧,你需要了解
  • 2023年最佳的ChatGPT插件(以及如何充分利用它们)
  • 我为工作测试了很多AI工具,这是我目前为止最喜欢的5个
  • 人还是机器人?这个图灵测试游戏考验你的AI识别能力

ENBLE:令人惊讶的是,你曾经是一个坚定的支持者,说“它能工作,我们以后会找到解释它的热力学理论。”在这里,你采取了一种“我不知道我们将如何解决这个问题,但我想提出一些思考的想法”的方法,甚至可能接近一个理论或假设。有趣的是,有很多人在花费大量资金研究能够看到行人的汽车,无论这辆车是否具有常识。我想其中一些人会说,“没关系,我们不在乎它是否具有常识,我们已经建立了一个模拟,这个模拟非常棒,我们将不断改进,不断扩大模拟的规模。”

所以有趣的是,你现在有能力退一步思考我们正在做什么。而业界却在说我们只会不断扩大规模,扩大规模,扩大规模,因为这个曲柄确实有效。我的意思是,GPU的半导体曲柄确实有效。

YL:这里有五个问题。所以,我是说扩大规模是必要的。我不批评我们应该扩大规模的事实。我们应该扩大规模。随着它们变得更大,神经网络变得更好。毫无疑问,我们应该扩大规模。那些具有某种常识的系统将会很庞大。我认为这是无法避免的。所以扩大规模是好的,它是必要的,但不足够。这是我要表达的观点。这不仅仅是扩大规模。这是第一个观点。

第二个观点是关于理论先行和其他方面的。所以,我认为有一些概念是先行的,你必须退一步,说,好吧,我们建造了这把梯子,但我们想去月球,这把梯子根本无法把我们带到那里。所以,基本上,我在这里写的是,我们需要建造火箭。我不能告诉你我们如何建造火箭的细节,但这里有一些基本原则。我并不是在为此写一个理论或其他什么东西,但是,它将是一个火箭,好吗?或者是太空电梯或其他什么。我们可能还没有所有技术的细节。我们正在努力让其中一些东西起作用,就像我一直在研究JEPA。联合嵌入对图像识别非常有效,但用它来训练一个世界模型存在困难。我们正在努力解决这个问题,希望我们能很快让它起作用,但我们可能会遇到无法克服的障碍。

然后,在论文中有一个关于推理的关键思想,如果我们希望系统能够进行规划,你可以将其视为一种简单形式的推理,它们需要具有潜在变量。换句话说,不是由任何神经网络计算出来的东西,而是通过推断其值以最小化某个目标函数,某个成本函数。然后你可以使用这个成本函数来驱动系统的行为。这并不是一个新的想法,对吧?这是非常经典的最优控制,其基础可以追溯到50年代末、60年代初。所以,我并不是声称有什么新意。但是我想说的是,这种类型的推理必须成为一个能够进行规划的智能系统的一部分,其行为可以通过一个驱动行为的目标函数进行指定或控制——不一定是驱动学习,但是它驱动行为。你知道的,我们的大脑中有这个,每个动物都有内在成本或内在动机的东西。这驱使九个月大的婴儿想要站起来。当你站起来时的快乐成本,在成本函数中是硬性的。但是你如何站起来不是,那是学习。

“扩大规模是好的,是必要的,但不足够,”LeCun在谈到像基于Transformer的GPT-3类型的巨型语言模型时说道。Transformer的忠实拥护者们相信,“我们将所有东西进行标记,并训练庞大的模型进行离散预测,一些AI将从中出现…但我认为它缺少了必要的部分。”

ENBLE:只是为了补充一下这一点,深度学习社区中的很多人似乎对没有常识的东西都不介意。你似乎在这里明确地提出一个观点,即在某个时刻它会变成一个僵局。有些人说,我们不需要具有常识的自动驾驶汽车,因为规模化可以解决这个问题。听起来你的意思是,沿着这条路继续前进是不可取的?

YL:你知道,我认为我们完全有可能在没有常识的情况下拥有五级自动驾驶汽车。但这种方法的问题在于,这只是暂时的,因为你将不得不对其进行大量工程设计。因此,你需要绘制整个世界的地图,硬连所有种类的特殊边缘情况行为,收集足够的数据,以便你能够遇到在道路上可能遇到的所有奇怪情况等等。我猜测,通过足够的投资和时间,你可以对其进行大量工程设计。但最终,会有一个更加令人满意且可能更好的解决方案,它涉及到更好地了解世界运作方式的系统,并且具有某种我们所称的常识水平。它不需要达到人类的常识水平,但需要通过观察获取系统可以学习驾驶的某种知识,而不是观察某人驾驶,只是观察物体的移动并对世界有很多了解,建立一个关于世界运作方式的背景知识基础,然后在此基础上学习驾驶。

让我举一个历史性的例子来说明这一点。经典的计算机视觉是基于许多硬编码的模块,然后你会有一种学习的薄薄一层。因此,在2012年之前,那些被AlexNet打败的东西基本上有一个第一阶段的手工特征提取,比如SIFT(尺度不变特征转换,一种经典的图像识别技术)和HOG(方向梯度直方图,另一种经典的技术)等等。然后第二层,基于特征核的中层特征,以及某种无监督的方法。然后,在这之上,你放置一个支持向量机,或者一个相对简单的分类器。从2000年代中期到2012年,这是标准的流程。然后,它被端到端的卷积网络所取代,你不会硬编码任何内容,只需要大量的数据,然后从头到尾训练这个东西,这也是我长期以来一直提倡的方法,但直到那时,对于大规模问题来说,这是不可行的。

在语音识别领域也有类似的故事,同样需要大量的详细工程设计来预处理数据、提取大规模倒谱(一种用于信号处理的快速傅里叶变换的逆变换),然后使用隐藏马尔可夫模型和高斯混合模型等预设架构等等。因此,它与计算机视觉具有相同的架构,即有手工设计的前端,然后是一个某种程度上无监督训练的中间层,然后是顶层的有监督层。现在,这些都被端到端的神经网络所取代。所以,我在这里看到了一些类似的东西,试图学习所有东西,但你必须有正确的先验知识,正确的架构,正确的结构。

自动驾驶汽车的人群,像Waymo和Wayve这样的初创公司,一直以来都“过于乐观”,他说,他们认为“只要向其提供数据,你几乎可以学到任何东西”。ADAS的五级自动驾驶汽车是可能的,“但你将不得不进行大量工程设计”,结果将会像早期的计算机视觉模型一样“脆弱”。

ENBLE:你的意思是,有些人将尝试通过工程化深度学习中目前无法适用的东西,例如在工业领域,他们将开始创建一些成为计算机视觉中过时事物的东西?

YL:是的。这也是为什么过去几年中从事自动驾驶研究的人们有些过于乐观的部分原因,因为你知道,你有这些通用的东西,比如卷积网络和Transformer,你只需要向它提供数据,它就可以学到几乎任何东西。所以,你说,好吧,我有解决这个问题的办法。你首先做的事情是构建一个演示,让汽车在几分钟内自己驾驶而不伤害任何人。然后你会意识到有很多边界情况,你会试图绘制随着训练集增加而我提高的曲线,然后你会意识到你永远无法达到那个水平,因为有各种各样的边界情况。而你需要的是一辆在每2亿公里内不会造成致命事故的汽车,对吧?那你该怎么办呢?嗯,你需要向两个方向发展。

第一个方向是,我如何减少系统学习所需的数据量?这就是自我监督学习的作用所在。因此,很多自动驾驶汽车团队对自我监督学习非常感兴趣,因为这是一种通过预先训练来使用大量监督数据进行模仿学习,从而实现更好性能的方法。目前还没有完全实现,但未来会有所突破。另外,大多数目前更先进的公司采用的是另一种选择,即进行端到端训练,但还有许多特殊情况无法处理,所以我们将设计能够处理这些特殊情况的系统,并将其视为特例,并硬编码控制和处理特殊情况的基本行为。如果你有足够庞大的工程团队,或许能够成功。但这需要很长时间,并且最终仍然可能有一定的脆弱性,而未来可能出现的基于学习的方法则不会有这种脆弱性,因为它可能具备一定的常识和对世界如何运作的理解。

在短期内,这种“工程化”方法将取胜,实际上已经取胜了。这就是Waymo、Cruise和Wayve等公司的做法。然后,还有自我监督学习的方法,这可能有助于“工程化”方法取得进展。但从长远来看,可能对这些公司来说时间太长了,最终可能会形成一种更综合的自主智能驾驶系统。

ENBLE:我们说得比大多数投资者的投资周期更长。

YL:没错。所以问题是,在性能达到期望水平之前,人们是否会失去耐心或者用尽资金。

ENBLE:关于你在模型中选择了哪些元素,有什么有趣的事情要说吗?因为你引用了Kenneth Craik [1943,《解释的本质》]和Bryson和Ho [1969,《应用最优控制》],我很好奇为什么你从这些影响开始,如果你特别相信他们所做的事情。为什么从这里开始?

YL:嗯,我不认为他们完全掌握了所有细节。所以,Bryson和Ho,这是我在1987年在多伦多与Geoffrey Hinton合作时阅读的一本书。但在写我的博士论文时,我就知道了这个研究领域,并且将最优控制与反向传播相联系。如果你真的想成为另一个Schmidhuber,你会说,反向传播的真正发明者实际上是最优控制理论家Henry J. Kelley、Arthur Bryson,甚至可能是俄罗斯最优控制理论家Lev Pontryagin,他是上世纪50年代末的人。

所以,他们找到了方法,实际上,你可以看到其数学根基是拉格朗日力学。事实上,你可以回溯到欧拉和拉格朗日,实际上,在他们的经典力学拉格朗日定义中,你可以找到这种思路。因此,在最优控制的背景下,这些人主要关注的是计算火箭轨迹。你知道,那是早期的太空时代。如果你有一个火箭模型,在时间t告诉你火箭的状态,在时间t+1告诉你我要采取的行动,推力和各种执行器,还有火箭在时间t+1的状态。

ENBLE:状态-行动模型,价值模型。

YL:没错,控制的基础。所以,现在你可以通过想象一系列指令来模拟火箭的发射,然后你有一些成本函数,即火箭与目标之间的距离,比如太空站。然后通过某种梯度下降的方法,你可以找出如何更新我的行动序列,以便使我的火箭尽可能靠近目标。这必须通过向后传播信号来实现。这就是反向传播,梯度反向传播。这些信号在拉格朗日力学中被称为共轭变量,但实际上,它们是梯度。因此,他们发明了反向传播,但他们没有意识到这个原理可以用来训练一个可以进行模式识别等任务的多阶段系统。这个发现直到70年代末80年代初才真正被认识到,然后直到80年代中期才真正被实现和应用。所以,这就是反向传播真正开始的地方,因为人们展示了几行代码,你可以训练一个端到端的、多层的神经网络。这消除了感知器的限制。当然,这与最优控制有一些联系,但没关系。

ENBLE: 那么,这就是说你一开始接触的影响回溯到反向传播,这对你来说是一个重要的起点?

YL: 是的,但我认为人们有点忘记了,关于这方面曾经进行了相当多的工作,你知道,在90年代或者80年代,包括像迈克尔·乔丹(MIT大脑与认知科学系)这样的人也进行了相关研究,尽管他们现在不再从事神经网络的研究,但是使用神经网络进行控制以及使用经典的最优控制思想的想法一直存在。所以,像所谓的模型预测控制,现在被称为模型预测控制,这个想法是如果你对你尝试控制的系统和环境有一个良好的模型,你可以模拟或想象一系列动作的结果。然后通过梯度下降,本质上不是学习而是推断,你可以找出最佳的一系列动作,以最小化我的目标。因此,使用具有潜在变量的代价函数进行推断,我认为是当前大规模神经网络已经忘记的东西。但这在机器学习中长期以来一直是非常经典的组成部分。因此,每个贝叶斯网络、图形模型或概率图模型都使用了这种类型的推断。你有一个捕捉一堆变量之间依赖关系的模型,你被告知一些变量的值,然后你必须推断出其余变量最有可能的值。这是图形模型和贝叶斯网络以及类似的推理的基本原理。我认为这基本上就是推理和规划的内容。

ENBLE: 你是一个秘密的贝叶斯派。

YL: 我是一个非概率贝叶斯派。我之前开过这个玩笑。事实上,几年前我在NeurIPS上,我记得是2018年或2019年,被一个贝叶斯学派的人录像问我是否是一个贝叶斯派,我说,是的,我是一个贝叶斯派,但我是一个非概率贝叶斯派,或者说是一种能量基础的贝叶斯派,如果你愿意的话。

ENBLE: 这听起来绝对像《星际迷航》里的东西。你在这篇论文的结尾提到,要实现你的愿景需要多年的艰苦工作。告诉我目前的工作中有哪些内容。

YL: 所以,我在论文中解释了如何训练和构建JEPA。我主张的标准是找到一种方式来最大化从输入中提取的表示对信息内容的贡献,然后第二个标准是最小化预测误差。如果预测器中有一个允许预测器是非确定性的潜在变量,你还必须通过最小化其信息内容来对该潜在变量进行正则化。所以,现在有两个问题,一个是如何最大化神经网络输出的信息内容,另一个是如何最小化某个潜在变量的信息内容?如果你不做这两件事,系统就会崩溃。它不会学到任何有趣的东西。它会给一切都赋予零能量之类的东西,这不是一个好的依赖模型。这就是我提到的防止崩溃问题。

我说过,对于人们曾经做过的所有事情,只有两类方法可以防止崩溃。一类是对比方法,另一类是正则化方法。所以,最大化两个输入的表示的信息内容,并最小化潜在变量的信息内容的想法属于正则化方法。但是目前在这些联合嵌入架构中的大部分工作都在使用对比方法。实际上,它们可能是目前最流行的方法。所以,问题就是如何以一种可以优化或最小化的方式来衡量信息内容?这就是问题变得复杂的地方,因为我们实际上不知道如何衡量信息内容。我们可以近似它,可以对它进行上界估计,可以做类似的事情。但是它们实际上并不衡量信息内容,而且在某种程度上甚至没有明确定义。

ENBLE: 不是香农的定理吗?不是信息论吗?你有一定数量的熵,好的熵和坏的熵,好的熵是一个有效的符号系统,坏的熵是噪音。难道香农已经解决了这个问题?

YL: 你是对的,但是其中存在一个重大缺陷。你说得对,如果有数据传递过来,你可以将数据量化为离散的符号,并且测量每个符号的概率,那么这些符号所携带的最大信息量就是这些符号的Shannon熵,即Pi log Pi的概率之和,对吧?其中Pi是符号i的概率——这就是Shannon定理常常被表述为H = – ∑ pi log pi的原因。

然而问题在于:Pi是多少?当符号数量较少且符号相互独立时,这很容易。但是当符号数量很多且存在依赖关系时,问题就变得非常困难。所以,如果你有一串比特序列,并且假设比特之间相互独立且概率在1和0之间相等或其他什么的,那么你可以很容易地测量熵,没有问题。但是如果传递给你的是高维向量,比如视频帧之类的东西,Pi是多少?概率分布是什么样的?首先,你必须量化这个高维连续空间,这是一个高维连续空间,你不知道如何正确量化。你可以使用k-means等方法,这是人们在进行视频压缩和图像压缩时所做的。但这只是一个近似值。然后,你必须假设它们相互独立。显然,视频中的连续帧不是独立的。它们存在依赖关系,而且该帧可能依赖于你一个小时前看到的另一帧,那个帧是同样的东西的图像。所以,你知道,你无法测量Pi。要测量Pi,你必须有一个机器学习系统来学习预测。所以你又回到了之前的问题。所以,你只能近似地测量信息量。

“问题在于,你如何以一种可以优化或最小化的方式来测量信息内容?” LeCun说。“这就是事情变得复杂的地方,因为实际上我们不知道如何测量信息内容。”到目前为止,最好的办法是找到一个“对我们想要的任务足够好”的代理。

让我举一个更具体的例子。我们一直在尝试的算法之一,我在文章中也提到过,叫做VICReg,方差不变性协方差正则化。它是在ICLR上发表的另一篇独立论文,大约在2021年之前一年放在了arXiv上。其思想是最大化信息量。实际上,这个思想来源于我们小组早期的一篇论文,叫做Barlow Twins。通过假设变量之间唯一的依赖关系是相关性、线性依赖关系,你可以通过确保所有变量具有非零方差(假设方差为1,无论是多少都无关紧要)并进行反相关,即所谓的白化过程(这也不是新鲜事物)。这种方法的问题在于,你可能会有非常复杂的依赖关系,不仅仅是变量组之间的依赖关系,甚至是变量对之间的依赖关系,而这些依赖关系不是线性依赖关系,也不会在相关性中显示出来。例如,如果你有两个变量,并且这两个变量的所有点排列成一种螺旋形式,那么这两个变量之间存在非常强的依赖关系,对吧?但实际上,如果你计算这两个变量之间的相关性,它们是不相关的。所以,这是一个例子,这两个变量的信息内容实际上非常小,只有一个数量,因为它是螺旋中的位置。它们是不相关的,所以你以为从这两个变量中可以得到很多信息,但实际上不是这样,你只能从一个变量预测另一个变量。因此,这表明我们只有非常近似的方法来测量信息内容。

ENBLE: 所以这是你现在正在研究的问题之一吗?也就是我们如何知道何时最大化和最小化信息内容?

YL:  或者说我们用于此的代理是否足够好,能够完成我们想要的任务。实际上,在机器学习中,我们经常这样做。我们要最小化的成本函数从来都不是我们实际想要最小化的。例如,你想进行分类,好吧?当你训练分类器时,你想要最小化的成本函数是分类器的错误次数。但这是一个不可微分的、糟糕的成本函数,你无法最小化它,因为你知道,直到其中一个样本改变了决策,改变了神经网络的权重,什么都不会改变,然后误差会出现跳跃,正或负。

ENBLE:所以你有一个代理,它是一个你可以确定的目标函数,我们可以确定地说,我们可以流动这个东西的梯度。

YL:没错。所以人们使用这个交叉熵损失,或者说SOFTMAX,你可以给它取几个名字,但是它是同一个东西。基本上,它是系统产生的错误数量的平滑近似,平滑是通过考虑系统对每个类别的评分来实现的。

ENBLE:我们还没有涵盖到你想涵盖的内容吗?

YL:可能是强调主要观点。我认为AI系统需要能够推理,而我提倡的方法是最小化某个潜变量的某个目标。这样可以使系统能够进行规划和推理。我认为我们应该放弃概率框架,因为当我们想要捕捉高维连续变量之间的依赖关系时,它是难以处理的。我主张放弃生成模型,因为系统将不得不投入太多资源来预测那些太难预测的事情,可能会消耗太多资源。基本上就是这样。这是主要的信息,如果你想要的话。然后是整体架构。然后还有关于意识的性质和配置器的作用的那些推测,但这只是推测。

ENBLE:我们下次再讨论这个。我本来想问你,你如何对这个东西进行基准测试?但我猜你离基准测试还有一段距离?

YL:不一定离得很远,可以使用一些简化版本。你可以做每个人在控制或强化学习中都做的事情,训练这个东西玩Atari游戏或者其他一些有一定不确定性的游戏。

ENBLE:谢谢你的时间,Yann。