正在阅读:

聊聊大模型如何思考与深度学习科学家Yann LeCun

扫一扫下载界面新闻APP

聊聊大模型如何思考与深度学习科学家Yann LeCun

大模型的可解释性。

文 | 硅谷101 泓君

随着近两年来生成式AI技术的进步与普及,使用大模型来生成内容也已逐渐成为普通人生活的一部分。这个过程看起来似乎很轻松:当我们输入一个指令,大模型就直接能为我们输出答案。然而在这背后,模型内部的工作原理和模型决策过程却并没有人知道,这即是广为人知的“机器学习黑盒”。

因为黑盒模型所存在的不可解释性,AI的安全问题也一直备受质疑。于是科学家们开始试图去打开大模型的黑盒子,业内称之为“白盒研究”。一方面,白盒模型的研究能帮助人们理解黑盒模型,从而对大模型进行优化和效率的提升。另一方面,白盒研究的目标是要把AI这一工程性学科推向科学。

此次,我们邀请到了加州大学戴维斯分校电子与计算机工程系助理教授陈羽北,他的研究内容就与“白盒模型”有关。此外,他也是图灵奖获得者、Meta首席科学家Yann LeCun的博士后。本期节目中,他和我们聊了聊白盒模型的最新研究进展,同时也向我们分享了他所熟悉的这位经历过AI行业起起伏伏、却依然纯粹专注的科学家Yann LeCun。

以下是部分访谈精选

01 人脑与大模型

《硅谷101》:可以先简单介绍一下你正在做的“白盒模型”研究吗?在你的研究过程中有没有发现如何能去解释 GPT 的输入输出问题?

陈羽北:这个方向其实一个比较大的目标就是深度学习从一门纯经验性学科向一个科学学科来推动,或者说把工程变成科学,因为目前工程发展得比较快但科学相对缓慢。以前有一个模型叫做词的嵌入(embedding),它可以学到语言的一些表征。

大家当时其实就有一个疑问,我们做任务的性能变好了,可是究竟是什么导致这个性能变好了?所以我们当时做过一个非常早期的工作,就是尝试打开词汇的这些表示。当你把它打开的时候,就会发现一些很有意思的现象。

比如说苹果这个词,你可以找到里面的一些元意思,比如其中的一个意思可能就是代表水果,另外一个意思代表甜点,再往下挖会找到有技术和产品的意思,当然指的是苹果公司的产品。所以你就会发现顺着一个词你能找到这些元意思,接着你就可以把这样的方法延伸到大语言模型里。

也就是说,当我们学完一个大语言模型以后,可以在模型里面去寻找它里面所带有的一些元意思,然后尝试去打开。你会发现一个大语言模型,它其实有很多层。

在初级层里,它会出现一个现象叫“词语的消歧”。比如像在英文里面有个词叫做“left”,这个词它既有向左转的意思,也有离开的过去式的意思,那么它具体的意思则要取决于语境前后的上下文,所以大语言模型在初期的几层里就完成了词语的消歧。

而在中期你会发现又有一些新的意思产生。当时我们觉得一个很好玩的事叫做“单位转换”,一旦要将公里变成英里、温度从华氏度变成摄氏度的时候就会被激活,这个意思就会被打开,你可以顺着这个路找到很多相似级别的这种元意思。

你再往上走的时候甚至会发现这些元意思中存在一种规律,这种规律就是当上下文里出现了一个重复的意思时它就会被激活,你就可以用这样的方式去打开大语言模型以及小语言模型。当然这些思路也并不完全是新的,它在视觉模型里其实已经有一段历史了,比如说从Matthew Zeiler开始就有一些类似探索。

《硅谷101》:顺着这个思路,是不是如果我们知道了它部分是怎么运作的,就可以从工程上对它有很多优化?

陈羽北:是的,这个是一个非常好的问题。我觉得做任何理论一个比较高的要求就是可以指导实践,所以在我们当时做语言模型还有词汇表征的时候,当时也有的一个目标,就是当我们理解以后,能不能反过来优化这些模型?其实是可以的。

举一个例子,如果你在大语言模型里面找到的一个元意思,当它看到某一种元意思的时候就会激活,那这一个神经元就可以被作为一个判别器,你就可以用这个东西来做一些任务。通过对这些元意思的改变,来调节模型的偏见。

就是如果我能够发现它,那我可以调整它。最近 Anthropic 他们就是做了类似的一个工作,就是找到语言模型里边可能存在的一些偏见,然后对它进行一些改变来使这个模型变得更加的公平和安全。

《硅谷101》:我看到去年 OpenAI 也有一项研究,就是用 GPT4 去解释 GPT2,看 GPT2到底是怎么工作的。比如说他们发现GPT 2的神经元在回答所有跟美国历史1800年前后的事情时,第5行的第12个神经元会被激活,在回答中文的时候是第12行的第13个神经元被激活。

如果把它回答中文的这个神经元关闭的话,它对中文的理解能力就会大幅的下降。但是越往后的神经元,比如当神经元到了2000排左右的时候那它整个的可信度就已经下降了很多。你有没有注意到他们的这个研究?

OpenAI的研究:让GPT4去解释GPT2的神经元

陈羽北:这篇文章我还没看过,不过这个方法它非常像是给大脑的神经元做手术。相当于现在如果有一个神经的网络,这个网络是指从某种意义上能找到一个局部的存在而不是完全分散的,那么就可以对它进行一些操作。比如把某个神经元切掉了,那你就可以认为它某一块的能力相对来讲就损失掉了。

人其实也是一样的,比如一个患有癫痫的人在做完手术后可能会出现某些语言的障碍,但并不太影响其他人体功能,这从原理上看起来是相似的。

《硅谷101》:OpenAI、Anthropic他们现在都在研究大模型的可解释性,你的研究跟他们之间有什么区别吗?

陈羽北:白盒模型的研究是否将来能成功其实大家都不知道,我之前也跟我的导师讨论过,但大家一致的看法是说这件事值得尝试。如果我们回到这一块的话,我们的研究想做的其实是想理解人工智能,并且通过我们的理解重构它,进而从根本上来构建出一些不一样的东西。那么观测,也就是可解释性我觉得只是一种手段。

也就是说,打开这种模型也好,我做这些实验也好,对模型进行一些调整也好,我认为这都是我们在理解的过程中所尝试的一些手段,但是白盒模型真正重要的还是要回到这个信号本身。因为不管是人脑也好,机器也好,它们的学习的本质都因为信号。

我们这个世界中存在一些结构,他们也要通过这些结构来进行学习,学的也正是这些结构。那么我们是否可以找到这些结构背后的规律,以及表示他们的一些数学工具再把这些东西进行重组进而构建出来一个不一样的模型?如果这件事可以完成的话,我想就能带来关于提高我们的系统的鲁棒性,或者安全性和可信度的一种期望。

另外,它的效率也会提高。这有点像是蒸汽机先出来之后才出现了热力学这种理论,从而支撑它从一门完全的工匠学科变成了一门科学。那么同理,今天我们就好像是第一次在数据上有了蒸汽机,从以前不理解我们的数据,到现在终于可以开始做出来一些 AI 的算法把数据中的规律给抓出来。

《硅谷101》:所以它会更节能。

陈羽北:要说到节能,我可以举几个有意思的例子。第一个点肯定是节能,因为大脑它相当于一个20瓦功耗的一个灯泡,那现在的超级计算机它可能要超过百万瓦。

第二点是,如果我们看自然界各种各样生物所进行演化,它的演化效率其实是非常高的。比如有一种特殊蜘蛛叫Jumping Spider,它只有几百万个神经元,但它可以做出非常复杂的三维的群线去捕捉它的猎物。

而我觉得最有意思的一件事儿是人对于数据使用的效率。Llama3现在的数据量大概已经达到了13万亿个Token。但人的一生当中到底能接收多少的数据呢?假设我们每秒可以获得30帧图像,每天的获取时间是12个小时,做20年,那么我们大概能得到100亿个token,文字能获取的也是差不多一样,数据量比大模型小太多了。

那么问题来了,人究竟是如何通过如此少的一个数据量来获得如此强的一个泛化能力的呢?这就是人脑在效率层面让我觉得很神奇的一点。

《硅谷101》:去揭开大模型是怎么运作的和跟揭开人脑是怎么运作的哪个更难?我听起来都很难。

陈羽北:这两者各有各的难法,但在方法上是相似的。不管是人脑还是大语言模型,我们都是尝试去观测它,看它对什么产生了响应。

这个方法其实从上个世纪80年代获得诺贝尔生理学奖得主David Hubel和Torsten Weisel关于视觉皮层的研究中就能看到。他们找到了一种Simple Cell,尝试研究人看到什么东西的时候这些神经元它会产生冲动,分析看不同的东西时候神经元不同的响应状态,比如什么时候完全不响应,什么时候又很兴奋,接着他们就找到了神经元的 Receptive field。

D.H.Hubel和T.N.Wiesel, 1981年诺贝尔生理学或医学奖获得者

而我们今天研究大语言模型其实也是相似的,找不同的输入,然后理解模型内部的哪些神经元是对哪些输入感兴趣的。不过它们仍然有区别。

第一个区别是,不管是通过插电极还是脑机接口等方法对人脑进行观测,都有很多的限制,但大语言模型有一个天然的好处就是观测手段不再受限了,如果你有更好的方法,你就可以长期去分析,甚至你还可以通过一些微分的方法对模型进一步分析。

但是它的缺点是,大模型的能力还远远不及大脑,尤其是大语言模型,因为它只从语言里面来学习这个世界,所以它的对世界是理解是不完整的,就好像一个人他没有了其他的感官只有语言。

相比之下,大脑能处理更多维的信号,感官是非常丰富的。有时候我们会想一个问题,就是语言是否是完备的?如果没有其他感官的支撑的话,语言里边是不是所有的概念都可以独立存在,还是一定需要其他感官作为支撑,才有可能实现真正的理解。

举个例子,“冰箱”这个东西如果不和现实世界的冷热感受关联,只是描述它有门等这种统计特征,是不是这种描述就是不完备的。

《硅谷101》:所以其实目前大模型跟大脑相比,它还是欠缺非常多的。但是因为我们可以把它拆开来研究,所以你觉得它还是会比揭开大脑的秘密的这个野心稍微更进一步。

陈羽北:理解大语言模型它的难度在于你观测的手段多,对它理解也能更多。比如有两台机器,一台机器完全可观测,一台机器部分可观测,那从直觉上来讲是完全可观测的这台机器就更容易被理解。当然它有一些能力是这台机器没有,所以不能取代对人脑的一些理解。

《硅谷101》:我跟听众也补充介绍一下,羽北之前是学神经科学的。那你觉得对你的学科背景对现在来做 AI 方向的研究有什么帮助吗?会不会有一些跨学科的可以相互借鉴的研究方法?

陈羽北:我其实也不是专业学计算神经科学的。我本科是在清华的电子系,在伯克利是电子工程计算机系,但当时我所在的研究所是一个神经科学的一个研究所,所以我导师是计算神经科学的专家。

关于刚才那个问题,我觉得神经科学的学习对我来讲的帮助通常是一种启发。因为当你知道自然界的这些系统,知道它们可以做到什么的时候,你可能就会有不一样的想法,会重新看待眼前的问题。

举个例子,一张图片它是一个二维输入信号,它的像素有横向的、纵向的,然后它形成一个网格。但人眼视网膜并不长这样。首先它是种拥有不同感知的感受器,这个感受器是以非常密集但又不是非常规则的方式排布的,它中间非常的细密,向两边的时候会变得稀疏。

当你面对这样一个输入信号的时候,首先我们习以为常的卷积神经网络这些东西就都失效了,因为连卷积在这里都没有定义。所以当看到生物系统里的这个情况,就会重新去想我们所谓的这些卷积到底从何而来。

《硅谷101》:所以你会重新去想方法是不是对的?是不是一定要以这种方式来实现?

陈羽北:是的。就是假设有一天你醒来,所有的神经元都打乱了,那你还能再去理解这个世界吗?因为你看到的已经不再是一张图片了,你也不能再用卷积神经网络来做这件事情了,你需要什么样的方法?

虽然我们还没完全解决这个问题,其实目前也已经走了一步。虽然我的所有的神经元都打乱了,就是我们的感受器图像里边的这些像素打乱了,可是相邻的这些像素它们有一些关系。比如我们看图像时我会发现如果一个像素是红的,那周围的像素也更可能是红的,那么通过这种关系你就可以去让这些像素他们重新去找朋友,然后就可以把相似的像素自组织成一些关系。

然后这个时候再加上大语言模型里 Transformer 这样的结构,就可以重新的对这种图像做出一个表示,而且这个表示的性能还不错。这个就是一个完全从自然的启发去重新审视我们现在的工程上的一些做法、然后提出一些不同方法的例子。

《硅谷101》:感觉研究AI大模型和人脑神经科学还是有很多相似之处的。会有神经科学家从他们的角度来跟你们产生跨领域的研究合作吗?

陈羽北:其实有很多的神经科学家、统计学家以及数学家他们想要理解自然信号中的一些结构,同时也会关注大脑中的神经元它们是如何运作的,然后把这两者结合在一起,尝试去提出一些极简的对于信号的一些表示。

举一个例子,在大脑里面你会发现有一个现象,就是神经元虽然很多,但同一时间在工作的这些神经元其实是非常的稀疏。比如有100 万个神经元,可能就只有几千个在工作。

根据这个,早年神经科学领域就提出来一个稀疏编码的方法,也就是在这种高位信号中,能不能找出一些稀疏的低维表示?从这样的思路出发所构建出来算法,就和你在大脑里面观测到的这些神经元表示非常相近,所以这个是早期计算神经科学无监督的一个成功。

到今天来讲的话,我们整个的这一块研究领域有个名字叫做自然统计信号的研究(Natural Signal Statistics),它的目标就是揭示信号背后的一些基本结构,但和大模型相比,和白盒模型这类神经科学结合的研究它的发展其实相对来讲慢一些的。我其实觉得一方面可能是因为问题复杂,但另一方面也是因为投入这个方向的人比较少。

02 黑盒模型的“弯道超车”

《硅谷101》:简单来说就是现在研究白盒模型的人太少了。但是在大模型出现以前,传统的机器学习是不是也属于白盒模型研究的范畴?

陈羽北:我觉得这个说法可以认为是对的,以前的这些机器学习的模型相对简单,相对来讲都可以理解。

《硅谷101》:那为什么现在整个的黑盒模型的研究进展对白盒模型实现了弯道超车,速度可以快这么多?

陈羽北:这个问题问出来我们就先会是紧张一下,然后再回答。

《硅谷101》:为什么要紧张?陈羽北:因为这个问题很尖锐,其实是在问是不是白盒模型、或者说可理解的这条路径我们就应该放弃了。从我们这个时代开始,是不是在AI领域我们已经不再研究科学了,以后全都变成一个经验性学科?但我觉得还不是。

回到你刚才的这个问题,这个过程中到底发生了什么?首先一点就是黑盒模型的包袱少。你既要这个方法可以工作又要这个方法可以解释的话要求就太多,那黑盒模型就放弃了一条让他先可以工作。

第二是相对来讲被大家所忽视的原因,就是数据的逆势增长,或者说是规模扩大。

Richard Sutton之前写了一篇博客里面曾提到,在过去的 20 年里面有一个一直没有被打破的东西,就是当我们有更多的数据、更多的计算,应该找到比较能够真正扩张的算法去把所有的数据的这种规律找进来。我认为这个是黑盒模型里,或者说是我们现在的经验性的进展里很重要的一条。

就是说当我们有更大的数据、更好的数据,更多的计算、更大的模型,然后就能学得更多。但是我们回到这个问题的话,就是白盒模型里大家有一个追求,是说模型本身要具有简洁性。

《硅谷101》:为什么白盒模型要简洁?是不是可以理解成如果它过于复杂,它就很难被设计?陈羽北:是的。其实做理论只有简洁的东西才可以被理解,肯定是要做一次一次的简化。但是们在追求模型的简洁性的时候,也可能会做了一次又一次的过度简化,而一旦出现这种过度简化,模型就无法完全刻画数据的形态。那么数据更多的时候,模型就走不下去了,它的能力会被限制住。

所以我认为这也是以前大家在研究白盒模型、研究简单模型时面临的一个困难。我们不仅仅要带着模型需要工作、同时还需要它可解释的包袱,同时我还需要它简洁,当你把所有的这些东西带上,就会发现这个包袱太重。当你做过度简化的时候也就引入了错误,错误会积累,再后来就走不动了。《硅谷101》:但现在随着黑盒模型的快速发展,我们又开始尝试去解决它。陈羽北:是的。而且这一次我们在解决它的时候,可能会重新审视这个问题。就是我们不一定需要让模型完全的简化到那个程度,它还是能够表示这个世界比较复杂的一面。

但是同时我们还是希望他是比较可以理解的,所以如果有一天我们可以做到白盒模型的话,那么在此之前我认为每一次的尝试都是一次过度的简化,但是我们希望每次简化都能往前走。我们甚至不需要完全做出一个白盒模型,也许可以做出一个白盒的、但是没有大模型那么强的模型,但它又相对来讲非常简洁。

它对于我们理解学习背后的本质是有帮助的,同时这种理解可能反过来又让我们对大模型的训练提高效率。关于效率问题我之前跟 Yann 也讨论过几次,就是说如果这背后的理论得到发展,我们就可能让工程实践效率以数量级的方式上升。《硅谷101》:Yann的观点是更希望发展白盒模型还是黑盒模型?陈羽北:Yann是一个以工程方面著称的科学家,所以他的很多尝试还是要让这个东西先工作起来。但Yann也是支持白盒模型研究的,在我跟他讨论的过程中,他会觉得这条路值得探索,但是一个过于有野心的目标,是否能实现他也不知道,但总要有人做。《硅谷101》:感觉黑盒模型是一个工程问题,白盒模型则必须用科学解释它。虽然从商业化角度,它的投入产出比不是那么高,但如果最终能做出来这个东西,那么对 AI 的安全性和未来商业化的应用还是很有价值的。陈羽北:关于商业化,其实我认为所有做基础 AI 研究的人工作的初衷不是以任何的应用为初衷,而是由对智能这个问题比较纯粹的好奇心所驱动,紧接着可能会发现一些规律反过来可能帮到在工程实践。研究本身并不是为某一种应用所设计的。

另外,当我们在追求这种白盒模型、这种极致效率的过程中,我们也会追问一个问题,就是我们现在做的这个大语言模型是不是只通过这种规模化或者 Scaling Law 这一条路走下去就可以了?我认为其实不是的。因为人是做不到接受这么大量数据的,那如何用少量的数据还能获得比较高的泛化能力,这也是我们在研究的一个重要的问题。《硅谷101》:这应该也是黑盒模型的学者在研究的一个问题。目前白盒模型有哪些学者跟流派在研究这个事情呢?

陈羽北:目前主要就是AI的三股力量。第一股力量就是我们在研究这些工程模型的过程中所产生的一些经验,然后对它进行可视化,比如最近Anthropic、 OpenAI 他们也参与在做的这些事情。

Anthropic的研究:从神经网络Claude 3 Sonnet提取可解释的特征

第二就是计算神经科学尝试对人脑进行理解,找到一些记忆可能存在的方式。

还有一种流派就是从数学和统计的角度出发,看信号的基本的结构是什么样的。当然这三种之间还会产生很多的交叉。《硅谷101》:你属于哪一流派?陈羽北:其实这三派我都或多或少都有受到一点影响。之前在伯克利的时候跟我的导师以及马毅老师他们都属于偏神经科学和数学统计的这个流派,然后在Yann 这边是工程方面训练多一点。这三种方法我也觉得都可以接受,因为它最终都会让我们向同一个方向前进。《硅谷101》:同样的方向是哪个方向?现在有阶段性结果吗?

陈羽北:最终就是理解这个模型。之前有一些阶段性成果,比如说我们能不能做出一些哪怕是两三层的网络,每一层我们都可以看他学的是什么东西。最后发现真的可以做到一个数字要想表示它,你会把它的笔画全都学出来,再把相似的笔画联系在一起,接着就可以构建出来下一个层次的表示,这样的一层一层的,最后找到了数字。《硅谷101》:你现在的这些研究会对黑盒模型产生优化吗?

陈羽北:一是当你对它的理解加深了以后,可能就能优化黑盒模型,让它的效率变高。第二是能把不同的黑盒模型统一起来,这样就减少了很多不必要的浪费。同时还有一个涉及到我这个实验室的另外一项支柱性的工作,就是要研究不仅仅是感知还有控制。

当你给了这些大语言模型它能够和世界交互的这个能力的时候,能不能让它在控制系统里边你能否获得同样的泛化能力。什么意思呢?就是说在感知系统里边你会发现,我学了苹果,学了梨,然后来一个桃子,由于我之前学了一个相似的苹果和梨的概念,所以可以很快就学会桃子这个概念。

那么在控制的领域,能不能达到相似的性能呢?比如一个机器人它学会了向前走和原地跳跃,那能不能很快把它变成一个向前一边跳一边走的机器人。

《硅谷101》:如果让你给一个结论的话,你觉得用白盒模型的研究解开大模型运作这个秘密,它目前的进度条到哪里了?陈羽北:实际上我们都不知道这个进度条有多长,我感觉距离这个目标其实很远。它不一定是一个线性的发展,可能是比较像量子的这种跳跃。当一个新的认知出来以后,你可能会马上往前走一大步。

如果你想做一个白盒的ChatGPT,我认为这个还挺远的,但我们有可能能够做出一个还不错的、完全可理解的模型,复现当时像比如 AlexNet 这样的能力。这种模型它可以就做 Imagenet 的识别,我们可以理解它里边的每一步它是怎么做的,它是如何一步一步地变成了一个猫和狗,然后这个猫和狗它的这个结构是怎么产生的。

ImageNet 使用的 WordNet 的示例

《硅谷101》:ImageNet 的识别算是白盒还是黑盒?

陈羽北:我们还没有完全发现它的工作原理。从 Matthew Zeiler 和 Rob Fergus以及很多研究者做的一些早期的可视化中有一定理解,但是没有人能够创造出来这样的一个模型,每一步我们都可理解且还能工作得不错。《硅谷101》:所以可能白盒模型的目标就是分阶段的。比如第一步先解释这个 ImageNet 是怎么工作的,这个谜底揭开以后我们可以再来解释一些小模型是怎么工作的,就像用GPT 4去解释GPT 2是怎么工作的,然后再慢慢解释大模型是怎么工作的。陈羽北:是的。这个过程我觉得还是有相当长的时间,而且也需要更多的人来投入到这个方向上。因为目前大部分的工作都集中在工程领域。如果我们放到学校来做的话,那你其实是需要有一些原创性的想法,而不是说你去scale,我也去scale,那大家都是scale,到最后其实就没有区分度,就看谁的机器最好和谁的数据最多了。

03 我所了解的Yann LeCun

《硅谷101》:接下来我想跟你讨论一下你博士后的导师Yann LeCun。我先再补充介绍一下Yann LeCun,他的中文名字叫做杨立昆,是一名法国计算机科学家,在机器学习、计算机视觉、移动机器人和计算神经科学等领域都有很多贡献,被誉为“卷积神经网络之父”。

LeCun 现任Meta首席AI科学家,并担任纽约大学教授。他在1980年代率先提出了卷积神经网络(CNN),这项技术成为现代计算机视觉的基础。LeCun与Geoffrey Hinton和Yoshua Bengio共同获得2018年图灵奖,表彰他们在深度学习方面的开创性工作。

可不可以给我们不懂技术的朋友稍微解释一下 Yann 主要的科学研究成果,以及他为什么这么知名?

陈羽北:Yann从 80 年代就开始研究神经网络 AI 领域,经历了很多次的高峰和低谷和不同学派的衰落,但他始终坚持深度学习网络,是一个走过黑暗的人。

比如2000 年的时候发深度学习相关的文章非常困难,困难到什么程度呢?如果你的文章里面存在 Neural 神经或者Network这个词,你被拒稿的概率就很大了,如果有 Neural Network 的话基本就一定会被拒稿。

所以当时对于他们来讲这是一个至暗时刻,经费也受影响。但是他们能在这种黑暗当中坚持不放弃,最后走出这个黑暗,到今天神经深度网络改变了世界,我觉得这个其实也是他们得图灵奖,对他们当年作为前期的先锋的一种记忆吧。

《硅谷101》:你读博士后的时候为什么会选他的组?陈羽北:这是一个比较有意思的奇遇。我当时其实挺迷茫的,甚至没有想过那个学期去毕业。因为我的决心是说要在博士期间做出一个白盒的模型,而且要和 AlexNet 的性能可比,但还差一点没有做好。

我觉得如果要继续我的研究,博士后去找谁呢?当时我正在开会,然后在会场上就碰到了Yann。我其实不是特别投机的一个人,我想大家肯定都想找Yann去做博后,所以碰到他的时候其实主要想的是聊一下他对我工作的一些看法,以及聊一聊对于AI未来研究方向的上的一些观点。

结果当时在会上聊的就非常好,我的研究方向以及我想的一些问题,他曾经也都想过,只不过是从神经网络的这个角度。所以当时他就问我在招博士后你有没有兴趣申请一下,那我当然申请了,所以当时就是这样的一拍即合。

《硅谷101》:他是一个什么样风格的导师?是属于给学生非常多自由空间探索的,还是来跟大家一起讨论帮忙很多的。陈羽北:首先,第二种情况他现在已经不可能了,很多人都需要他的时间,他能够分给每一个人的时间也相对来讲就没有那么多。

他其实和我的博士的导师相似,在一些大方向上是非常放养的,但我认为他们有另外一点相似就是对于他们所相信的事情他们会有坚持,就是他可能会给你指一个方向和目标。但具体怎么走,是乘船还是乘车,这都没有关系,他不会去控制这些细节。

他自己的大方向其实这么多年也没有变过,一直是自监督学习。自监督学习其实分两部分,一个部分是基于感知的自监督。另一个更重要的部分是如何用具身的方式来做自监督,或者我们现在做世界模型 World Model,这是他相信的一个方向。

这个名字其实还是我安利给他,因为我当时读了David Ha和Jürgen Schmidhuber写的那篇名字叫 World Model文章,我觉得这个名字挺酷的。

A system architecture for autonomous intelligence, Mata AI

《硅谷101》:你觉得Yann的研究方向跟 OpenAI、Anthropic 他们的有什么不一样吗?陈羽北:如果说真要说什么不一样的话,我觉得Yann想要的是模型需要具备有几个特点。第一是要有具身的能力,也就说不是只堆数据,而是这个模型最终它可以自己去探索这个世界。《硅谷101》:这有什么不一样呢?似乎大家都希望最终达到这样的一个结果。陈羽北:执行方式有所不同。比如 OpenAI 我认为它是 Scaling Law,也就是更多、更好的数据,然后更多的计算和更大的模型。但Yann还是比较科学化的,他想的是如果我们想真正通向比较类人的这种智能的话,那到底需要什么?他会觉得只是堆数据是不够的。《硅谷101》:所以Yann其实是相当于黑盒白盒一起研究。

陈羽北:我觉得Yann它实际上没有那么在意这是否能发展成一门科学,目前我认为他的观点主要还停留在经验性和工程上,希望这个系统可以工作得更好,这其实也是他一直非常擅长的东西。

《硅谷101》:当 OpenAI 证明了Scaling Law可以达到很好的效果的时候,你觉得Yann他在科研方法和思维上有所转变吗?还是他仍然非常坚持原路线?

陈羽北:实际上他并不反对 Scaling Law,我觉得大家在这件事情上并没有冲突。真正的可能分歧主要在于 OpenAI 很多的工作其实还是以产品为导向,在工程上执行到极致,但Yann其实是以更科学的形式在研究。

他想这些问题的时候其实不太涉及到产品,而只是想一个事情,就是究竟怎么能实现智能。因为他在这个领域已经太久了,在八几年的时候就开始在这个领域在深耕了,所以他可能看这些问题的时候,还是会坚持自己的理想。

《硅谷101》:让智能自主学习这是Yann研究的第一个特点,其他还有一些什么特点?

陈羽北:还有就是Yann一直相信的一个东西叫做JEPA,Joint Embedding Predictive Architecture。就是说模型当然要有自主学习的能力,但是比这是更重要的一点是当模型在学习数据的时候也能学习到一些比较高层次的规律。

实际上目前有两派,一派希望能够通过学习对数据进行完全重建,可以认为是一个压缩的思路,但是Yann不希望完全地回到这个图像当中,因为重建这个图像带有了太多的细节,而这些细节并不是对系统做判断时最重要的一些信息。

《硅谷101》:这点他跟你在伯克利的马毅导师观点是不一样的吗?

陈羽北:其实他们在这个观点上并没有本质的冲突,只不过是表述的方式有所不同。马老师觉得这个世界的规律是简洁的,Yann认为这些细节其实对做下游的任务或者是一些判断是不利的,所以要把那些高层次的规律找到。

其实这二者是一样的,因为高层次的规律一般就是简洁的。马老师经常说所有的东西都是压缩,如果你拿Yann的观点来看的话,会发现压缩确实没错,但数据的层次结构其实是不同的。

因为现实世界是复杂的,在现实世界中如果你深入到这些细节里边会有发现有大量的东西其实是低层次的一些结构。数据中有结构,任何存在结构的东西都是从噪声偏离的一个反应,就是说完全没有结构的东西就是噪声,任何离开噪声你就是有结构了。

我们要学习这些结构,但结构有不同的层次。但当你上升层次,在更大的一个尺度的时候,就会发现结构其实已经不重要了,在那个层次来看的话,这些东西就已经变成像噪声一样的东西了。

所以Yann的观点就是说,要压缩没错,但我们需要有这样一个层次化的学习,学习信号中所有的结构、学出越来越高的结构。但是最高级的结构它往往对于压缩的整个占比不大,在优化的过程中就可能会丢失,因为大量的东西都是在低层次的、像噪声一样的信息量是最大的,越往上走就越难发现这样的结构。

为什么呢?因为在你的优化的 loss function 就是你的目标函数里边,你找到这个规律和找不到这个规律可能对你的 loss 影响不大。我觉得主要就是这两点,一个是世界模型,另外一个是对于这种层次化的表示。

《硅谷101》:你觉得他们身上有哪些特质是特别打动你的?

陈羽北:特别打动我的可能就是他们做事情的那种专注和纯粹吧。

有一次我跟Yann吃午饭,他说你们在年轻时候想要的所有的东西我都有了,但是我已经没有太多时间了,所以他只能用自己剩下的时间做自己真正相信的事情。

当你跟这样的一些科学家工作的时候,你可能会被他们身上的这种气质所影响,以至于你即便你还没有达到他们现在所在的这个地位,以及他们所拥有的这些东西之前,也能以他们的视角来看待这个世界一点。

所以你在做选择或做事情的时候,可能会超出现在所在的这个位置,可能会想,如果有一天我也像他一样全都拥有了,我会做什么。

《硅谷101》:他有改变你的哪些决定吗?

陈羽北 :有,它会让我做很多的选择的时候会想到这个事情。我记得我读博士的第一天,我的导师跟我讲了两件事情。

一件是说他不需要我发很多的文章,但希望能发出来的这种文章可以穿越时间,就是在 20 年以后看到这篇文章依然不旧。这其实很难,因为很多的工作它带有鲜明的时代感,但是真正一些深邃的思想它可能穿越了上百年依然不老,这是一个很高的目标,可能当你快要退休的时候可能才能够被验证。但是它提出了一个灵魂的拷问,就是你能否坚持去做一些能够与时间共存的工作。

第二是他希望一个学者应该具有自己的一种态度,如果你觉得一件事情是a可以做, b 可以做, 你也可以做,你就不要做。就是说当你做这件事情的时候,你会发现并不是这个工作需要你,而是你需要这个工作,这就是一种投机的心态。这其实是我在他们身上看到的这种相似的气质,就是希望不要随大流,能有自己的态度和寻找到自己的一些 voice。

所以当我在选研究的方向的时候,也会自己时不时的判断一下我现在做的这个工作到底是一个投机的,还是一个真正的中有砥柱的工作。

我觉得他们,尤其是Yann比较伟大的一点,就是你可以穿越了这种几乎是绝望的时光然后迎来曙光。没有经历过低谷的人沉淀的可能是不够的,当你经过至暗时刻,用你的眼光和坚持穿越短期的这个时间,然后证明它是对的,我觉得这个是挺有意思的一种气质。

《硅谷101》:Yann有哪些在科学上的看法是你不同意的吗?

陈羽北 :他有的时候会铁口直断。比如最近他就说如果你作为一个研究者的话,那就不应该研究大语言模型。这句话它有很多种理解,从字面上意思的理解的话很多人就会不同意,包括我。我可能会觉得,大语言模型里面有一些结构是值得被理解和研究的。

当然Yann可能真正想说的可能是我刚才提到的,不要做a可以做、b也可以做的这种投机性的工作,希望研究者有自己的一点坚持和找到比较原创性的贡献。如果是这样的说的话,我其实觉得我会更同意一些。但他作为大V有时候这个话讲出来会吓你一跳,然后引起很多话题讨论。是让我觉得很有意思的一个地方。

《硅谷101》:你也在 Meta 工作过,你觉得 Yann 对 Meta 最大的贡献在哪里?

陈羽北:首先应该是帮助筹建了Meta AI。当时他筹建 Meta AI 的时候,首先是 Mark 找到他,另外因为他早年是贝尔实验室的,他很向往当年的贝尔实验室的那个状态,所以他也有一个理想想在 Meta 复制这样一个实验室。他秉承了这样的一个理念,在Meta AI也招募和培养了一批非常不错的人,给这个领域做了很大的贡献,推动了整个领域的发展。

《硅谷101》:我觉得开源应该也算是他的很重要的一个贡献,比如说 Meta llama 之所以走了开源的路线,跟整个 Yarn 的思想应该也是非常一致的。

陈羽北:是的,对,开源确实是Yann所坚持。但我也不知道将来 Meta 是不是会一直开源下去,因为毕竟 Meta 也会面临竞争,但是我觉得这是Yann的一个理念,最终能执行到多好,能走多远,其实也要看整个环境的发展。

《硅谷101》:你觉得现在整个大模型的研究必须是由科学家驱动吗?还是它会慢慢变成一个工程驱动的事情?

陈羽北:我就觉得它已经变成一个工程驱动了,早期是科学家驱动。这一两年里面,我觉得主要的这个进展都来自于工程的执行,数据的质量是不是变高了?数据是不是变多了?它的 distribution 是不是变丰富了?计算是不是能够并行?都是由工程领域非常重要的细节导致的。从 0 到1 的发展它需要科学的突破性,但从 1 到100,就需要工程的严格性和执行能力,在不同阶段需要不同角色的人一起来推动。

《硅谷101》:大家现在都在期待 GPT 5,你觉得如果 GPT 5 出来了,它更多是一个科学问题,还是一个工程问题?

陈羽北:我觉得工程上面可走的路是很远的,甚至我们可以认为 Scaling Law 它还有相当长的路可走,完全没有到尽头,包括数据的质量以及算力的扩展。但同时我认为即使我们现在找到的最鲁棒的一条路就是Scaling Law,但这肯定是不够的。

那我们还需什么呢?我觉得需要的就是类人的这样的一些高效率,那如何实现这样的一个效率?有可能是数据触发的,但也可能是还有其他的一些东西,所以我觉得如果我们说要通向 AGI 的过程中,应该还会有这种完全从 0 到 1 的一些比较大的转变。

《硅谷101》:就是既要有科学上的进展,在工程上我们也还有很大的空间可以去提高。

本文为转载内容,授权事宜请联系原著作权人。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

聊聊大模型如何思考与深度学习科学家Yann LeCun

大模型的可解释性。

文 | 硅谷101 泓君

随着近两年来生成式AI技术的进步与普及,使用大模型来生成内容也已逐渐成为普通人生活的一部分。这个过程看起来似乎很轻松:当我们输入一个指令,大模型就直接能为我们输出答案。然而在这背后,模型内部的工作原理和模型决策过程却并没有人知道,这即是广为人知的“机器学习黑盒”。

因为黑盒模型所存在的不可解释性,AI的安全问题也一直备受质疑。于是科学家们开始试图去打开大模型的黑盒子,业内称之为“白盒研究”。一方面,白盒模型的研究能帮助人们理解黑盒模型,从而对大模型进行优化和效率的提升。另一方面,白盒研究的目标是要把AI这一工程性学科推向科学。

此次,我们邀请到了加州大学戴维斯分校电子与计算机工程系助理教授陈羽北,他的研究内容就与“白盒模型”有关。此外,他也是图灵奖获得者、Meta首席科学家Yann LeCun的博士后。本期节目中,他和我们聊了聊白盒模型的最新研究进展,同时也向我们分享了他所熟悉的这位经历过AI行业起起伏伏、却依然纯粹专注的科学家Yann LeCun。

以下是部分访谈精选

01 人脑与大模型

《硅谷101》:可以先简单介绍一下你正在做的“白盒模型”研究吗?在你的研究过程中有没有发现如何能去解释 GPT 的输入输出问题?

陈羽北:这个方向其实一个比较大的目标就是深度学习从一门纯经验性学科向一个科学学科来推动,或者说把工程变成科学,因为目前工程发展得比较快但科学相对缓慢。以前有一个模型叫做词的嵌入(embedding),它可以学到语言的一些表征。

大家当时其实就有一个疑问,我们做任务的性能变好了,可是究竟是什么导致这个性能变好了?所以我们当时做过一个非常早期的工作,就是尝试打开词汇的这些表示。当你把它打开的时候,就会发现一些很有意思的现象。

比如说苹果这个词,你可以找到里面的一些元意思,比如其中的一个意思可能就是代表水果,另外一个意思代表甜点,再往下挖会找到有技术和产品的意思,当然指的是苹果公司的产品。所以你就会发现顺着一个词你能找到这些元意思,接着你就可以把这样的方法延伸到大语言模型里。

也就是说,当我们学完一个大语言模型以后,可以在模型里面去寻找它里面所带有的一些元意思,然后尝试去打开。你会发现一个大语言模型,它其实有很多层。

在初级层里,它会出现一个现象叫“词语的消歧”。比如像在英文里面有个词叫做“left”,这个词它既有向左转的意思,也有离开的过去式的意思,那么它具体的意思则要取决于语境前后的上下文,所以大语言模型在初期的几层里就完成了词语的消歧。

而在中期你会发现又有一些新的意思产生。当时我们觉得一个很好玩的事叫做“单位转换”,一旦要将公里变成英里、温度从华氏度变成摄氏度的时候就会被激活,这个意思就会被打开,你可以顺着这个路找到很多相似级别的这种元意思。

你再往上走的时候甚至会发现这些元意思中存在一种规律,这种规律就是当上下文里出现了一个重复的意思时它就会被激活,你就可以用这样的方式去打开大语言模型以及小语言模型。当然这些思路也并不完全是新的,它在视觉模型里其实已经有一段历史了,比如说从Matthew Zeiler开始就有一些类似探索。

《硅谷101》:顺着这个思路,是不是如果我们知道了它部分是怎么运作的,就可以从工程上对它有很多优化?

陈羽北:是的,这个是一个非常好的问题。我觉得做任何理论一个比较高的要求就是可以指导实践,所以在我们当时做语言模型还有词汇表征的时候,当时也有的一个目标,就是当我们理解以后,能不能反过来优化这些模型?其实是可以的。

举一个例子,如果你在大语言模型里面找到的一个元意思,当它看到某一种元意思的时候就会激活,那这一个神经元就可以被作为一个判别器,你就可以用这个东西来做一些任务。通过对这些元意思的改变,来调节模型的偏见。

就是如果我能够发现它,那我可以调整它。最近 Anthropic 他们就是做了类似的一个工作,就是找到语言模型里边可能存在的一些偏见,然后对它进行一些改变来使这个模型变得更加的公平和安全。

《硅谷101》:我看到去年 OpenAI 也有一项研究,就是用 GPT4 去解释 GPT2,看 GPT2到底是怎么工作的。比如说他们发现GPT 2的神经元在回答所有跟美国历史1800年前后的事情时,第5行的第12个神经元会被激活,在回答中文的时候是第12行的第13个神经元被激活。

如果把它回答中文的这个神经元关闭的话,它对中文的理解能力就会大幅的下降。但是越往后的神经元,比如当神经元到了2000排左右的时候那它整个的可信度就已经下降了很多。你有没有注意到他们的这个研究?

OpenAI的研究:让GPT4去解释GPT2的神经元

陈羽北:这篇文章我还没看过,不过这个方法它非常像是给大脑的神经元做手术。相当于现在如果有一个神经的网络,这个网络是指从某种意义上能找到一个局部的存在而不是完全分散的,那么就可以对它进行一些操作。比如把某个神经元切掉了,那你就可以认为它某一块的能力相对来讲就损失掉了。

人其实也是一样的,比如一个患有癫痫的人在做完手术后可能会出现某些语言的障碍,但并不太影响其他人体功能,这从原理上看起来是相似的。

《硅谷101》:OpenAI、Anthropic他们现在都在研究大模型的可解释性,你的研究跟他们之间有什么区别吗?

陈羽北:白盒模型的研究是否将来能成功其实大家都不知道,我之前也跟我的导师讨论过,但大家一致的看法是说这件事值得尝试。如果我们回到这一块的话,我们的研究想做的其实是想理解人工智能,并且通过我们的理解重构它,进而从根本上来构建出一些不一样的东西。那么观测,也就是可解释性我觉得只是一种手段。

也就是说,打开这种模型也好,我做这些实验也好,对模型进行一些调整也好,我认为这都是我们在理解的过程中所尝试的一些手段,但是白盒模型真正重要的还是要回到这个信号本身。因为不管是人脑也好,机器也好,它们的学习的本质都因为信号。

我们这个世界中存在一些结构,他们也要通过这些结构来进行学习,学的也正是这些结构。那么我们是否可以找到这些结构背后的规律,以及表示他们的一些数学工具再把这些东西进行重组进而构建出来一个不一样的模型?如果这件事可以完成的话,我想就能带来关于提高我们的系统的鲁棒性,或者安全性和可信度的一种期望。

另外,它的效率也会提高。这有点像是蒸汽机先出来之后才出现了热力学这种理论,从而支撑它从一门完全的工匠学科变成了一门科学。那么同理,今天我们就好像是第一次在数据上有了蒸汽机,从以前不理解我们的数据,到现在终于可以开始做出来一些 AI 的算法把数据中的规律给抓出来。

《硅谷101》:所以它会更节能。

陈羽北:要说到节能,我可以举几个有意思的例子。第一个点肯定是节能,因为大脑它相当于一个20瓦功耗的一个灯泡,那现在的超级计算机它可能要超过百万瓦。

第二点是,如果我们看自然界各种各样生物所进行演化,它的演化效率其实是非常高的。比如有一种特殊蜘蛛叫Jumping Spider,它只有几百万个神经元,但它可以做出非常复杂的三维的群线去捕捉它的猎物。

而我觉得最有意思的一件事儿是人对于数据使用的效率。Llama3现在的数据量大概已经达到了13万亿个Token。但人的一生当中到底能接收多少的数据呢?假设我们每秒可以获得30帧图像,每天的获取时间是12个小时,做20年,那么我们大概能得到100亿个token,文字能获取的也是差不多一样,数据量比大模型小太多了。

那么问题来了,人究竟是如何通过如此少的一个数据量来获得如此强的一个泛化能力的呢?这就是人脑在效率层面让我觉得很神奇的一点。

《硅谷101》:去揭开大模型是怎么运作的和跟揭开人脑是怎么运作的哪个更难?我听起来都很难。

陈羽北:这两者各有各的难法,但在方法上是相似的。不管是人脑还是大语言模型,我们都是尝试去观测它,看它对什么产生了响应。

这个方法其实从上个世纪80年代获得诺贝尔生理学奖得主David Hubel和Torsten Weisel关于视觉皮层的研究中就能看到。他们找到了一种Simple Cell,尝试研究人看到什么东西的时候这些神经元它会产生冲动,分析看不同的东西时候神经元不同的响应状态,比如什么时候完全不响应,什么时候又很兴奋,接着他们就找到了神经元的 Receptive field。

D.H.Hubel和T.N.Wiesel, 1981年诺贝尔生理学或医学奖获得者

而我们今天研究大语言模型其实也是相似的,找不同的输入,然后理解模型内部的哪些神经元是对哪些输入感兴趣的。不过它们仍然有区别。

第一个区别是,不管是通过插电极还是脑机接口等方法对人脑进行观测,都有很多的限制,但大语言模型有一个天然的好处就是观测手段不再受限了,如果你有更好的方法,你就可以长期去分析,甚至你还可以通过一些微分的方法对模型进一步分析。

但是它的缺点是,大模型的能力还远远不及大脑,尤其是大语言模型,因为它只从语言里面来学习这个世界,所以它的对世界是理解是不完整的,就好像一个人他没有了其他的感官只有语言。

相比之下,大脑能处理更多维的信号,感官是非常丰富的。有时候我们会想一个问题,就是语言是否是完备的?如果没有其他感官的支撑的话,语言里边是不是所有的概念都可以独立存在,还是一定需要其他感官作为支撑,才有可能实现真正的理解。

举个例子,“冰箱”这个东西如果不和现实世界的冷热感受关联,只是描述它有门等这种统计特征,是不是这种描述就是不完备的。

《硅谷101》:所以其实目前大模型跟大脑相比,它还是欠缺非常多的。但是因为我们可以把它拆开来研究,所以你觉得它还是会比揭开大脑的秘密的这个野心稍微更进一步。

陈羽北:理解大语言模型它的难度在于你观测的手段多,对它理解也能更多。比如有两台机器,一台机器完全可观测,一台机器部分可观测,那从直觉上来讲是完全可观测的这台机器就更容易被理解。当然它有一些能力是这台机器没有,所以不能取代对人脑的一些理解。

《硅谷101》:我跟听众也补充介绍一下,羽北之前是学神经科学的。那你觉得对你的学科背景对现在来做 AI 方向的研究有什么帮助吗?会不会有一些跨学科的可以相互借鉴的研究方法?

陈羽北:我其实也不是专业学计算神经科学的。我本科是在清华的电子系,在伯克利是电子工程计算机系,但当时我所在的研究所是一个神经科学的一个研究所,所以我导师是计算神经科学的专家。

关于刚才那个问题,我觉得神经科学的学习对我来讲的帮助通常是一种启发。因为当你知道自然界的这些系统,知道它们可以做到什么的时候,你可能就会有不一样的想法,会重新看待眼前的问题。

举个例子,一张图片它是一个二维输入信号,它的像素有横向的、纵向的,然后它形成一个网格。但人眼视网膜并不长这样。首先它是种拥有不同感知的感受器,这个感受器是以非常密集但又不是非常规则的方式排布的,它中间非常的细密,向两边的时候会变得稀疏。

当你面对这样一个输入信号的时候,首先我们习以为常的卷积神经网络这些东西就都失效了,因为连卷积在这里都没有定义。所以当看到生物系统里的这个情况,就会重新去想我们所谓的这些卷积到底从何而来。

《硅谷101》:所以你会重新去想方法是不是对的?是不是一定要以这种方式来实现?

陈羽北:是的。就是假设有一天你醒来,所有的神经元都打乱了,那你还能再去理解这个世界吗?因为你看到的已经不再是一张图片了,你也不能再用卷积神经网络来做这件事情了,你需要什么样的方法?

虽然我们还没完全解决这个问题,其实目前也已经走了一步。虽然我的所有的神经元都打乱了,就是我们的感受器图像里边的这些像素打乱了,可是相邻的这些像素它们有一些关系。比如我们看图像时我会发现如果一个像素是红的,那周围的像素也更可能是红的,那么通过这种关系你就可以去让这些像素他们重新去找朋友,然后就可以把相似的像素自组织成一些关系。

然后这个时候再加上大语言模型里 Transformer 这样的结构,就可以重新的对这种图像做出一个表示,而且这个表示的性能还不错。这个就是一个完全从自然的启发去重新审视我们现在的工程上的一些做法、然后提出一些不同方法的例子。

《硅谷101》:感觉研究AI大模型和人脑神经科学还是有很多相似之处的。会有神经科学家从他们的角度来跟你们产生跨领域的研究合作吗?

陈羽北:其实有很多的神经科学家、统计学家以及数学家他们想要理解自然信号中的一些结构,同时也会关注大脑中的神经元它们是如何运作的,然后把这两者结合在一起,尝试去提出一些极简的对于信号的一些表示。

举一个例子,在大脑里面你会发现有一个现象,就是神经元虽然很多,但同一时间在工作的这些神经元其实是非常的稀疏。比如有100 万个神经元,可能就只有几千个在工作。

根据这个,早年神经科学领域就提出来一个稀疏编码的方法,也就是在这种高位信号中,能不能找出一些稀疏的低维表示?从这样的思路出发所构建出来算法,就和你在大脑里面观测到的这些神经元表示非常相近,所以这个是早期计算神经科学无监督的一个成功。

到今天来讲的话,我们整个的这一块研究领域有个名字叫做自然统计信号的研究(Natural Signal Statistics),它的目标就是揭示信号背后的一些基本结构,但和大模型相比,和白盒模型这类神经科学结合的研究它的发展其实相对来讲慢一些的。我其实觉得一方面可能是因为问题复杂,但另一方面也是因为投入这个方向的人比较少。

02 黑盒模型的“弯道超车”

《硅谷101》:简单来说就是现在研究白盒模型的人太少了。但是在大模型出现以前,传统的机器学习是不是也属于白盒模型研究的范畴?

陈羽北:我觉得这个说法可以认为是对的,以前的这些机器学习的模型相对简单,相对来讲都可以理解。

《硅谷101》:那为什么现在整个的黑盒模型的研究进展对白盒模型实现了弯道超车,速度可以快这么多?

陈羽北:这个问题问出来我们就先会是紧张一下,然后再回答。

《硅谷101》:为什么要紧张?陈羽北:因为这个问题很尖锐,其实是在问是不是白盒模型、或者说可理解的这条路径我们就应该放弃了。从我们这个时代开始,是不是在AI领域我们已经不再研究科学了,以后全都变成一个经验性学科?但我觉得还不是。

回到你刚才的这个问题,这个过程中到底发生了什么?首先一点就是黑盒模型的包袱少。你既要这个方法可以工作又要这个方法可以解释的话要求就太多,那黑盒模型就放弃了一条让他先可以工作。

第二是相对来讲被大家所忽视的原因,就是数据的逆势增长,或者说是规模扩大。

Richard Sutton之前写了一篇博客里面曾提到,在过去的 20 年里面有一个一直没有被打破的东西,就是当我们有更多的数据、更多的计算,应该找到比较能够真正扩张的算法去把所有的数据的这种规律找进来。我认为这个是黑盒模型里,或者说是我们现在的经验性的进展里很重要的一条。

就是说当我们有更大的数据、更好的数据,更多的计算、更大的模型,然后就能学得更多。但是我们回到这个问题的话,就是白盒模型里大家有一个追求,是说模型本身要具有简洁性。

《硅谷101》:为什么白盒模型要简洁?是不是可以理解成如果它过于复杂,它就很难被设计?陈羽北:是的。其实做理论只有简洁的东西才可以被理解,肯定是要做一次一次的简化。但是们在追求模型的简洁性的时候,也可能会做了一次又一次的过度简化,而一旦出现这种过度简化,模型就无法完全刻画数据的形态。那么数据更多的时候,模型就走不下去了,它的能力会被限制住。

所以我认为这也是以前大家在研究白盒模型、研究简单模型时面临的一个困难。我们不仅仅要带着模型需要工作、同时还需要它可解释的包袱,同时我还需要它简洁,当你把所有的这些东西带上,就会发现这个包袱太重。当你做过度简化的时候也就引入了错误,错误会积累,再后来就走不动了。《硅谷101》:但现在随着黑盒模型的快速发展,我们又开始尝试去解决它。陈羽北:是的。而且这一次我们在解决它的时候,可能会重新审视这个问题。就是我们不一定需要让模型完全的简化到那个程度,它还是能够表示这个世界比较复杂的一面。

但是同时我们还是希望他是比较可以理解的,所以如果有一天我们可以做到白盒模型的话,那么在此之前我认为每一次的尝试都是一次过度的简化,但是我们希望每次简化都能往前走。我们甚至不需要完全做出一个白盒模型,也许可以做出一个白盒的、但是没有大模型那么强的模型,但它又相对来讲非常简洁。

它对于我们理解学习背后的本质是有帮助的,同时这种理解可能反过来又让我们对大模型的训练提高效率。关于效率问题我之前跟 Yann 也讨论过几次,就是说如果这背后的理论得到发展,我们就可能让工程实践效率以数量级的方式上升。《硅谷101》:Yann的观点是更希望发展白盒模型还是黑盒模型?陈羽北:Yann是一个以工程方面著称的科学家,所以他的很多尝试还是要让这个东西先工作起来。但Yann也是支持白盒模型研究的,在我跟他讨论的过程中,他会觉得这条路值得探索,但是一个过于有野心的目标,是否能实现他也不知道,但总要有人做。《硅谷101》:感觉黑盒模型是一个工程问题,白盒模型则必须用科学解释它。虽然从商业化角度,它的投入产出比不是那么高,但如果最终能做出来这个东西,那么对 AI 的安全性和未来商业化的应用还是很有价值的。陈羽北:关于商业化,其实我认为所有做基础 AI 研究的人工作的初衷不是以任何的应用为初衷,而是由对智能这个问题比较纯粹的好奇心所驱动,紧接着可能会发现一些规律反过来可能帮到在工程实践。研究本身并不是为某一种应用所设计的。

另外,当我们在追求这种白盒模型、这种极致效率的过程中,我们也会追问一个问题,就是我们现在做的这个大语言模型是不是只通过这种规模化或者 Scaling Law 这一条路走下去就可以了?我认为其实不是的。因为人是做不到接受这么大量数据的,那如何用少量的数据还能获得比较高的泛化能力,这也是我们在研究的一个重要的问题。《硅谷101》:这应该也是黑盒模型的学者在研究的一个问题。目前白盒模型有哪些学者跟流派在研究这个事情呢?

陈羽北:目前主要就是AI的三股力量。第一股力量就是我们在研究这些工程模型的过程中所产生的一些经验,然后对它进行可视化,比如最近Anthropic、 OpenAI 他们也参与在做的这些事情。

Anthropic的研究:从神经网络Claude 3 Sonnet提取可解释的特征

第二就是计算神经科学尝试对人脑进行理解,找到一些记忆可能存在的方式。

还有一种流派就是从数学和统计的角度出发,看信号的基本的结构是什么样的。当然这三种之间还会产生很多的交叉。《硅谷101》:你属于哪一流派?陈羽北:其实这三派我都或多或少都有受到一点影响。之前在伯克利的时候跟我的导师以及马毅老师他们都属于偏神经科学和数学统计的这个流派,然后在Yann 这边是工程方面训练多一点。这三种方法我也觉得都可以接受,因为它最终都会让我们向同一个方向前进。《硅谷101》:同样的方向是哪个方向?现在有阶段性结果吗?

陈羽北:最终就是理解这个模型。之前有一些阶段性成果,比如说我们能不能做出一些哪怕是两三层的网络,每一层我们都可以看他学的是什么东西。最后发现真的可以做到一个数字要想表示它,你会把它的笔画全都学出来,再把相似的笔画联系在一起,接着就可以构建出来下一个层次的表示,这样的一层一层的,最后找到了数字。《硅谷101》:你现在的这些研究会对黑盒模型产生优化吗?

陈羽北:一是当你对它的理解加深了以后,可能就能优化黑盒模型,让它的效率变高。第二是能把不同的黑盒模型统一起来,这样就减少了很多不必要的浪费。同时还有一个涉及到我这个实验室的另外一项支柱性的工作,就是要研究不仅仅是感知还有控制。

当你给了这些大语言模型它能够和世界交互的这个能力的时候,能不能让它在控制系统里边你能否获得同样的泛化能力。什么意思呢?就是说在感知系统里边你会发现,我学了苹果,学了梨,然后来一个桃子,由于我之前学了一个相似的苹果和梨的概念,所以可以很快就学会桃子这个概念。

那么在控制的领域,能不能达到相似的性能呢?比如一个机器人它学会了向前走和原地跳跃,那能不能很快把它变成一个向前一边跳一边走的机器人。

《硅谷101》:如果让你给一个结论的话,你觉得用白盒模型的研究解开大模型运作这个秘密,它目前的进度条到哪里了?陈羽北:实际上我们都不知道这个进度条有多长,我感觉距离这个目标其实很远。它不一定是一个线性的发展,可能是比较像量子的这种跳跃。当一个新的认知出来以后,你可能会马上往前走一大步。

如果你想做一个白盒的ChatGPT,我认为这个还挺远的,但我们有可能能够做出一个还不错的、完全可理解的模型,复现当时像比如 AlexNet 这样的能力。这种模型它可以就做 Imagenet 的识别,我们可以理解它里边的每一步它是怎么做的,它是如何一步一步地变成了一个猫和狗,然后这个猫和狗它的这个结构是怎么产生的。

ImageNet 使用的 WordNet 的示例

《硅谷101》:ImageNet 的识别算是白盒还是黑盒?

陈羽北:我们还没有完全发现它的工作原理。从 Matthew Zeiler 和 Rob Fergus以及很多研究者做的一些早期的可视化中有一定理解,但是没有人能够创造出来这样的一个模型,每一步我们都可理解且还能工作得不错。《硅谷101》:所以可能白盒模型的目标就是分阶段的。比如第一步先解释这个 ImageNet 是怎么工作的,这个谜底揭开以后我们可以再来解释一些小模型是怎么工作的,就像用GPT 4去解释GPT 2是怎么工作的,然后再慢慢解释大模型是怎么工作的。陈羽北:是的。这个过程我觉得还是有相当长的时间,而且也需要更多的人来投入到这个方向上。因为目前大部分的工作都集中在工程领域。如果我们放到学校来做的话,那你其实是需要有一些原创性的想法,而不是说你去scale,我也去scale,那大家都是scale,到最后其实就没有区分度,就看谁的机器最好和谁的数据最多了。

03 我所了解的Yann LeCun

《硅谷101》:接下来我想跟你讨论一下你博士后的导师Yann LeCun。我先再补充介绍一下Yann LeCun,他的中文名字叫做杨立昆,是一名法国计算机科学家,在机器学习、计算机视觉、移动机器人和计算神经科学等领域都有很多贡献,被誉为“卷积神经网络之父”。

LeCun 现任Meta首席AI科学家,并担任纽约大学教授。他在1980年代率先提出了卷积神经网络(CNN),这项技术成为现代计算机视觉的基础。LeCun与Geoffrey Hinton和Yoshua Bengio共同获得2018年图灵奖,表彰他们在深度学习方面的开创性工作。

可不可以给我们不懂技术的朋友稍微解释一下 Yann 主要的科学研究成果,以及他为什么这么知名?

陈羽北:Yann从 80 年代就开始研究神经网络 AI 领域,经历了很多次的高峰和低谷和不同学派的衰落,但他始终坚持深度学习网络,是一个走过黑暗的人。

比如2000 年的时候发深度学习相关的文章非常困难,困难到什么程度呢?如果你的文章里面存在 Neural 神经或者Network这个词,你被拒稿的概率就很大了,如果有 Neural Network 的话基本就一定会被拒稿。

所以当时对于他们来讲这是一个至暗时刻,经费也受影响。但是他们能在这种黑暗当中坚持不放弃,最后走出这个黑暗,到今天神经深度网络改变了世界,我觉得这个其实也是他们得图灵奖,对他们当年作为前期的先锋的一种记忆吧。

《硅谷101》:你读博士后的时候为什么会选他的组?陈羽北:这是一个比较有意思的奇遇。我当时其实挺迷茫的,甚至没有想过那个学期去毕业。因为我的决心是说要在博士期间做出一个白盒的模型,而且要和 AlexNet 的性能可比,但还差一点没有做好。

我觉得如果要继续我的研究,博士后去找谁呢?当时我正在开会,然后在会场上就碰到了Yann。我其实不是特别投机的一个人,我想大家肯定都想找Yann去做博后,所以碰到他的时候其实主要想的是聊一下他对我工作的一些看法,以及聊一聊对于AI未来研究方向的上的一些观点。

结果当时在会上聊的就非常好,我的研究方向以及我想的一些问题,他曾经也都想过,只不过是从神经网络的这个角度。所以当时他就问我在招博士后你有没有兴趣申请一下,那我当然申请了,所以当时就是这样的一拍即合。

《硅谷101》:他是一个什么样风格的导师?是属于给学生非常多自由空间探索的,还是来跟大家一起讨论帮忙很多的。陈羽北:首先,第二种情况他现在已经不可能了,很多人都需要他的时间,他能够分给每一个人的时间也相对来讲就没有那么多。

他其实和我的博士的导师相似,在一些大方向上是非常放养的,但我认为他们有另外一点相似就是对于他们所相信的事情他们会有坚持,就是他可能会给你指一个方向和目标。但具体怎么走,是乘船还是乘车,这都没有关系,他不会去控制这些细节。

他自己的大方向其实这么多年也没有变过,一直是自监督学习。自监督学习其实分两部分,一个部分是基于感知的自监督。另一个更重要的部分是如何用具身的方式来做自监督,或者我们现在做世界模型 World Model,这是他相信的一个方向。

这个名字其实还是我安利给他,因为我当时读了David Ha和Jürgen Schmidhuber写的那篇名字叫 World Model文章,我觉得这个名字挺酷的。

A system architecture for autonomous intelligence, Mata AI

《硅谷101》:你觉得Yann的研究方向跟 OpenAI、Anthropic 他们的有什么不一样吗?陈羽北:如果说真要说什么不一样的话,我觉得Yann想要的是模型需要具备有几个特点。第一是要有具身的能力,也就说不是只堆数据,而是这个模型最终它可以自己去探索这个世界。《硅谷101》:这有什么不一样呢?似乎大家都希望最终达到这样的一个结果。陈羽北:执行方式有所不同。比如 OpenAI 我认为它是 Scaling Law,也就是更多、更好的数据,然后更多的计算和更大的模型。但Yann还是比较科学化的,他想的是如果我们想真正通向比较类人的这种智能的话,那到底需要什么?他会觉得只是堆数据是不够的。《硅谷101》:所以Yann其实是相当于黑盒白盒一起研究。

陈羽北:我觉得Yann它实际上没有那么在意这是否能发展成一门科学,目前我认为他的观点主要还停留在经验性和工程上,希望这个系统可以工作得更好,这其实也是他一直非常擅长的东西。

《硅谷101》:当 OpenAI 证明了Scaling Law可以达到很好的效果的时候,你觉得Yann他在科研方法和思维上有所转变吗?还是他仍然非常坚持原路线?

陈羽北:实际上他并不反对 Scaling Law,我觉得大家在这件事情上并没有冲突。真正的可能分歧主要在于 OpenAI 很多的工作其实还是以产品为导向,在工程上执行到极致,但Yann其实是以更科学的形式在研究。

他想这些问题的时候其实不太涉及到产品,而只是想一个事情,就是究竟怎么能实现智能。因为他在这个领域已经太久了,在八几年的时候就开始在这个领域在深耕了,所以他可能看这些问题的时候,还是会坚持自己的理想。

《硅谷101》:让智能自主学习这是Yann研究的第一个特点,其他还有一些什么特点?

陈羽北:还有就是Yann一直相信的一个东西叫做JEPA,Joint Embedding Predictive Architecture。就是说模型当然要有自主学习的能力,但是比这是更重要的一点是当模型在学习数据的时候也能学习到一些比较高层次的规律。

实际上目前有两派,一派希望能够通过学习对数据进行完全重建,可以认为是一个压缩的思路,但是Yann不希望完全地回到这个图像当中,因为重建这个图像带有了太多的细节,而这些细节并不是对系统做判断时最重要的一些信息。

《硅谷101》:这点他跟你在伯克利的马毅导师观点是不一样的吗?

陈羽北:其实他们在这个观点上并没有本质的冲突,只不过是表述的方式有所不同。马老师觉得这个世界的规律是简洁的,Yann认为这些细节其实对做下游的任务或者是一些判断是不利的,所以要把那些高层次的规律找到。

其实这二者是一样的,因为高层次的规律一般就是简洁的。马老师经常说所有的东西都是压缩,如果你拿Yann的观点来看的话,会发现压缩确实没错,但数据的层次结构其实是不同的。

因为现实世界是复杂的,在现实世界中如果你深入到这些细节里边会有发现有大量的东西其实是低层次的一些结构。数据中有结构,任何存在结构的东西都是从噪声偏离的一个反应,就是说完全没有结构的东西就是噪声,任何离开噪声你就是有结构了。

我们要学习这些结构,但结构有不同的层次。但当你上升层次,在更大的一个尺度的时候,就会发现结构其实已经不重要了,在那个层次来看的话,这些东西就已经变成像噪声一样的东西了。

所以Yann的观点就是说,要压缩没错,但我们需要有这样一个层次化的学习,学习信号中所有的结构、学出越来越高的结构。但是最高级的结构它往往对于压缩的整个占比不大,在优化的过程中就可能会丢失,因为大量的东西都是在低层次的、像噪声一样的信息量是最大的,越往上走就越难发现这样的结构。

为什么呢?因为在你的优化的 loss function 就是你的目标函数里边,你找到这个规律和找不到这个规律可能对你的 loss 影响不大。我觉得主要就是这两点,一个是世界模型,另外一个是对于这种层次化的表示。

《硅谷101》:你觉得他们身上有哪些特质是特别打动你的?

陈羽北:特别打动我的可能就是他们做事情的那种专注和纯粹吧。

有一次我跟Yann吃午饭,他说你们在年轻时候想要的所有的东西我都有了,但是我已经没有太多时间了,所以他只能用自己剩下的时间做自己真正相信的事情。

当你跟这样的一些科学家工作的时候,你可能会被他们身上的这种气质所影响,以至于你即便你还没有达到他们现在所在的这个地位,以及他们所拥有的这些东西之前,也能以他们的视角来看待这个世界一点。

所以你在做选择或做事情的时候,可能会超出现在所在的这个位置,可能会想,如果有一天我也像他一样全都拥有了,我会做什么。

《硅谷101》:他有改变你的哪些决定吗?

陈羽北 :有,它会让我做很多的选择的时候会想到这个事情。我记得我读博士的第一天,我的导师跟我讲了两件事情。

一件是说他不需要我发很多的文章,但希望能发出来的这种文章可以穿越时间,就是在 20 年以后看到这篇文章依然不旧。这其实很难,因为很多的工作它带有鲜明的时代感,但是真正一些深邃的思想它可能穿越了上百年依然不老,这是一个很高的目标,可能当你快要退休的时候可能才能够被验证。但是它提出了一个灵魂的拷问,就是你能否坚持去做一些能够与时间共存的工作。

第二是他希望一个学者应该具有自己的一种态度,如果你觉得一件事情是a可以做, b 可以做, 你也可以做,你就不要做。就是说当你做这件事情的时候,你会发现并不是这个工作需要你,而是你需要这个工作,这就是一种投机的心态。这其实是我在他们身上看到的这种相似的气质,就是希望不要随大流,能有自己的态度和寻找到自己的一些 voice。

所以当我在选研究的方向的时候,也会自己时不时的判断一下我现在做的这个工作到底是一个投机的,还是一个真正的中有砥柱的工作。

我觉得他们,尤其是Yann比较伟大的一点,就是你可以穿越了这种几乎是绝望的时光然后迎来曙光。没有经历过低谷的人沉淀的可能是不够的,当你经过至暗时刻,用你的眼光和坚持穿越短期的这个时间,然后证明它是对的,我觉得这个是挺有意思的一种气质。

《硅谷101》:Yann有哪些在科学上的看法是你不同意的吗?

陈羽北 :他有的时候会铁口直断。比如最近他就说如果你作为一个研究者的话,那就不应该研究大语言模型。这句话它有很多种理解,从字面上意思的理解的话很多人就会不同意,包括我。我可能会觉得,大语言模型里面有一些结构是值得被理解和研究的。

当然Yann可能真正想说的可能是我刚才提到的,不要做a可以做、b也可以做的这种投机性的工作,希望研究者有自己的一点坚持和找到比较原创性的贡献。如果是这样的说的话,我其实觉得我会更同意一些。但他作为大V有时候这个话讲出来会吓你一跳,然后引起很多话题讨论。是让我觉得很有意思的一个地方。

《硅谷101》:你也在 Meta 工作过,你觉得 Yann 对 Meta 最大的贡献在哪里?

陈羽北:首先应该是帮助筹建了Meta AI。当时他筹建 Meta AI 的时候,首先是 Mark 找到他,另外因为他早年是贝尔实验室的,他很向往当年的贝尔实验室的那个状态,所以他也有一个理想想在 Meta 复制这样一个实验室。他秉承了这样的一个理念,在Meta AI也招募和培养了一批非常不错的人,给这个领域做了很大的贡献,推动了整个领域的发展。

《硅谷101》:我觉得开源应该也算是他的很重要的一个贡献,比如说 Meta llama 之所以走了开源的路线,跟整个 Yarn 的思想应该也是非常一致的。

陈羽北:是的,对,开源确实是Yann所坚持。但我也不知道将来 Meta 是不是会一直开源下去,因为毕竟 Meta 也会面临竞争,但是我觉得这是Yann的一个理念,最终能执行到多好,能走多远,其实也要看整个环境的发展。

《硅谷101》:你觉得现在整个大模型的研究必须是由科学家驱动吗?还是它会慢慢变成一个工程驱动的事情?

陈羽北:我就觉得它已经变成一个工程驱动了,早期是科学家驱动。这一两年里面,我觉得主要的这个进展都来自于工程的执行,数据的质量是不是变高了?数据是不是变多了?它的 distribution 是不是变丰富了?计算是不是能够并行?都是由工程领域非常重要的细节导致的。从 0 到1 的发展它需要科学的突破性,但从 1 到100,就需要工程的严格性和执行能力,在不同阶段需要不同角色的人一起来推动。

《硅谷101》:大家现在都在期待 GPT 5,你觉得如果 GPT 5 出来了,它更多是一个科学问题,还是一个工程问题?

陈羽北:我觉得工程上面可走的路是很远的,甚至我们可以认为 Scaling Law 它还有相当长的路可走,完全没有到尽头,包括数据的质量以及算力的扩展。但同时我认为即使我们现在找到的最鲁棒的一条路就是Scaling Law,但这肯定是不够的。

那我们还需什么呢?我觉得需要的就是类人的这样的一些高效率,那如何实现这样的一个效率?有可能是数据触发的,但也可能是还有其他的一些东西,所以我觉得如果我们说要通向 AGI 的过程中,应该还会有这种完全从 0 到 1 的一些比较大的转变。

《硅谷101》:就是既要有科学上的进展,在工程上我们也还有很大的空间可以去提高。

本文为转载内容,授权事宜请联系原著作权人。