Cerebras CTO分享CS3硬件架构的演讲

嗨，大家好，我是Sean Lie。很高兴能和大家分享关于CS3硬件架构的一些信息。CS3系统是我们的第三代晶圆级系统，性能比上一代CS2系统提高了两倍，但功耗和价格却没有变化。

首先，让我们来看看CS3的基础，也就是计算内核。我们在上一代WSE-2内核的基础上进行了改进，现在的内核具有更高的AI计算性能，包括8-way SIMD和16-way SIMD数据路径，能够加速神经网络的矩阵乘法和非线性函数计算。

在内存方面，我们将本地缓存提升到512字节，实现更宽的数据路径和更高的性能。结合本地内存，我们可以获得完整的内存带宽，实现完整的SIMD性能，这是传统GPU内存架构无法比拟的。

接下来，我们将这些小内核堆叠1万次，形成一个晶粒，然后在整个硅晶圆片上切割出84个这样的晶粒。这种晶圆级集成能力是我们独一无二的，也是我们与台积电合作的关键。

我们的晶片是如此之大，可以连接10倍以上的晶粒或芯片，拥有33倍的IO带宽，同时提高了100倍的能效。这得益于我们在晶圆上驱动比特的独特方式，使得整个晶片就像一个巨大的芯片。

CS3系统的性能数字简直令人难以置信。我们可以在单个芯片上实现大规模训练，甚至可以在一天内微调700亿参数模型，获得10亿个指令牌。而CS3集群更是将整个集群设计成单个ML加速器，支持2048个CS3系统，相当于256 EFLOPS的fp16 AI计算能力。

我们还利用规范空间RDMA实现低开销和低延迟，将集群总带宽提升到10Pb/s，让用户能够在数小时或数天内训练出最先进的模型。

稀疏性是我们关注的重点，因为神经网络本身就是稀疏的。我们相信只有通过硬件才能加速所有形式的稀疏性，解决训练增长不可持续的问题。

Cerebras CS3系统的创新性能和稀疏性加速能力让我们能够在人工智能领域取得巨大突破，为用户提供更高效的训练体验。感谢大家的聆听。