AI 学习的三个阶段
首先,在过去几年里,我们已经找到了让 AI 变得更、更智能的方法。它不再仅仅是预训练(pretraining),预训练基本上是说,让我们获取人类创造过的所有信息,让 AI 从中学习。这本质上是记忆和泛化。这与我们小时候上学没什么不同,是学习的第一阶段。
预训练,就像学前教育一样,从来都不是教育的终点。预训练、学前教育只是教你基本的智能技能,让你明白如何学习其他一切。没有词汇量,不理解语言以及如何交流、如何思考,就不可能学习其他一切。
接下来是后训练(post-training)。预训练之后的后训练是教你技能,解决问题的技能,分解问题、进行推理的技能,如何解决数学问题、如何编程、如何一步步思考这些问题,使用第一性原理(first principle reasoning)。
然后,在那之后,计算(computation)才真正发挥作用。如你所知,对我们许多人来说,我们上学,那是在我的情况中,是几十年前的事了。但从那以后,我学到了更多,思考得更多。原因在于我们不断地在新的知识中扎根。我们不断地进行研究,我们不断地思考。
思考才是智能的全部意义所在。因此,现在我们拥有了三种基础技术技能。我们拥有这三种技术:预训练,它仍然需要大量的计算。我们现在有了后训练,它使用了更多的计算。而现在,思考给基础设施带来了令人难以置信的计算负荷,因为它正在为我们每一个人进行思考。
因此,AI 进行思考、进行推理(inference)所需的计算量是非常惊人的。我以前常听人们说,推理很容易。NVIDIA 应该做训练。NVIDIA 会做,你知道,他们很擅长这个,所以他们会做训练。推理很容易。
思考怎么会容易呢?重复记忆的内容很容易。重复乘法表很容易。思考是困难的,这就是为什么这三个阶段,这三个新的扩展定律(scaling laws),它们都在全速发展,给计算量带来了如此大的压力。