NVLink 72:一场革命性的架构
所以,这有点像美国队长的盾牌。NVLink 72,NVLink 72,如果我们想创造一个巨大的芯片,一个巨大的 GPU,它就会是这个样子。这就是我们必须达到的晶圆级处理水平。这太不可思议了。所有这些芯片现在都被放进了一个巨大的机架中。
是我做的,还是别人做的?放进了那个巨大的机架。你知道,有时候,我不觉得我是一个人站在这里。仅仅是这一个巨大的机架,就能让所有这些芯片作为一个整体协同工作。这简直令人难以置信,我将向你们展示它的好处。
它的样子就是这样。谢谢,Janine。我喜欢这个。好的。女士们,先生们,Janine Paul。
我明白了。下次,我就要像雷神一样了。就像你在家够不到遥控器时,你只是做个手势,就有人把它拿给你。就是这个意思。这从未发生在我身上。我只是在做梦。我只是说说而已。好的。
所以无论如何,我们过去创造的是这个。这是 NVLink 8。现在这些模型非常庞大。我们解决它的方法是,将这个模型,这个巨大的模型,变成一堆“专家”。这有点像一个团队。这些“专家”擅长某些类型的问题,我们将一堆“专家”聚集在一起。
因此,这个巨大的、拥有数万亿参数的 AI 模型拥有所有这些不同的“专家”,我们将所有这些不同的“专家”放在 GPU 上。现在这是 NVLink 72。我们可以将所有的芯片放入一个巨大的网络结构中,每个“专家”都可以相互交谈。因此,主控“专家”,即主要的“专家”,可以与所有分布式的工作以及所有必要的上下文、提示和我们必须发送给所有“专家”的大量数据、大量 token 进行通信。
被选中来解决问题的“专家”会去尝试做出响应。然后它会一层又一层地进行下去。有时是八层,有时是十六层,有时是这些“专家”,有时是六十四层,有时是二百五十六层。但重点是,“专家”的数量越来越多。
在这里,NVLink 72,我们有七十二个 GPU。正因为如此,我们可以在一个 GPU 中放置四个“专家”。对于每个 GPU,你需要做的最重要的事情是生成 token,这是你在 HBM 内存中拥有的带宽量。我们有一个 GPU 为四个“专家”生成思考,而在这里,由于每台计算机只能放置八个 GPU,我们必须将三十二个“专家”放入一个 GPU 中。
所以这个 GPU 必须为三十二个“专家”思考,而这个系统,每个 GPU 只需为四个“专家”思考。正因为如此,速度上的差异是令人难以置信的。这刚刚发布。这是 Semi Analysis 所做的基准测试。他们做得非常非常彻底。他们对所有可进行基准测试的 GPU 进行了基准测试。结果发现并没有那么多。