Facebook“下一代 AI 计算平台”长什么样子?

Facebook“下一代 AI 计算平台”长什么样子?

Facebook 于日前公开“下一代”AI 模型训练硬件平台 Zion,也一起介绍了另外两类计算的自订化 ASIC(应用专属积体电路)晶片:用于 AI 推理的Kings Canyon,以及用于影片转码的Mount Shasta。这些新设计主要针对 AI 推理、AI 训练、影片转码三类计算。这些计算不仅负荷重、切换为专属硬件的提升明显,而且也是 Facebook 快速扩大的服务类别。

从当代 AI 硬件到下一代 AI 硬件

Facebook 早就开始大规模部署 AI 模型用于业务计算,这些模型每天要做超过 100 兆次预测及超过 60 亿次语言翻译。Facebook 用来辨识、分类内容的影像辨识模型也使用超过 35 亿张影像训练。各种使用 AI 的服务帮助用户日常沟通,也为他们提供独特、个性化的使用感受。

Facebook 自研的 AI 平台FBLearner管理 Facebook 目前大多数 AI 模型流水线。FBLearner 包含储存特征、管理训练过程、管理推理引擎等工具。另外,Facebook 也基于“开放计算计划”(OCP)设计硬件,和 FBLearner 配合使用,能让 Facebook 开发人员快速大量部署模型。

解决目前紧迫的计算规模问题后,Facebook 继续集中精力研发,最终目标是建立针对未来、可靠的硬件设计,不仅对供应商透明,同时也持续体现 Facebook 最大化执行效率的离散化设计理念。Facebook 的答案就是下一代训练、推理硬件平台。

用 Zion 进行 AI 训练

Zion 是 Facebook 的下一代大容量统一训练平台,目标是高效承担更高计算负载。Zion 设计时就考虑如何高效处理 CNN、LSTM、稀疏神经网络等多种不同的神经网络模型。Zion 平台提供高记忆体容量、高频宽、灵活的高速内部连线,为 Facebook 内部关键工作负载提供强大的计算能力。

Zion 设计采用 Facebook 新供应商透明 OCP 加速模型(OAM)。OAM 的作用在于,Facebook 从 AMD、Habana、Graphcore、英特尔、辉达等供应商购买硬件,只要他们以开放计算计划(OCP)的公开标准基础开发硬件,不仅帮助他们更快创新,也让 Facebook 自由在同一机架的不同硬件平台、不同服务器间拓展,只需要透过一个机柜网络交换机。即便 Facebook 的 AI 训练负载不断增加、不断复杂,Zion 平台也能拓展处理。

具体来说,Facebook 的 Zion 系统分为三部分:八路 CPU 服务器、OCP 加速模组、可装载 8 个 OCP 加速模组的平台主板。

Facebook“下一代 AI 计算平台”长什么样子? AI与大数据 图2张

▲ 左为模组化服务器主板,每个主机板可安装 2 个 CPU;右为 4 张主机板、8 个 CPU 组成一台八路服务器。

Facebook“下一代 AI 计算平台”长什么样子? AI与大数据 图3张

▲ 左为一个 OCP加速模组;中为 8 个OCP加速模组安装在一个平台主板;右为组成一个含 8 块加速晶片的平台。

Facebook“下一代 AI 计算平台”长什么样子? AI与大数据 图4张

▲ Zion 平台内部模组连线示意图。

Zion 平台的设计得以解耦系统中的记忆体、计算、网络部件,然后每项都可独立拓展。系统的八路 CPU 平台提供超大 DDR 记忆体池,服务对记忆体容量有很高要求的工作,比如稀疏神经网络的内嵌表。对 CNN 或稀疏神经网络较稠密那些,对频宽和计算能力更敏感,加速主要就是依靠连线到每个 CPU 的 OCP 加速器模组。

系统包括两种高速连线线:一种互相连线所有 CPU ,另一种互相连线所有加速器。由于加速器有很高记忆体频宽和低记忆体容量,Facebook 工程人员想了一种办法高效利用总记忆体容量:划分模型和记忆体,比较经常存取的资料就储存在加速器记忆体,不常存取的资料储存在 CPU 的 DDR 记忆体。所有 CPU 和加速器之间的计算和通讯会平衡进行,透过高速和低速互联线路执行。

用Kings Canyon 进行 AI 推理

与逐渐增加的 AI 训练负载相对应,AI 推理负载也在快速增加。下一代设计中,Facebook 和 Esperanto、Habana、英特尔、Marvell、高通等企业合作,共同开发易于拓展和部署的专属 ASIC 晶片。Kings Canyon 晶片同时支援偏重推理速度的 INT8(8 位整型)计算,以及偏重更高精准度的 FP16(半精准度浮点)计算。

Facebook“下一代 AI 计算平台”长什么样子? AI与大数据 图5张

Kings Canyon 晶片搭载在 M.2 规格的电路板上;每个 Glacier Point v2 母板安装 6 块Kings Canyon 晶片;最后,两个 Glacier Point v2 母板和两个单路服务器一同组成完整的Yosemite 服务器。

Facebook 的影片转码 ASIC 晶片Mount Shasta 也采用这种布置方式。

总结

根据 Facebook 的图解和介绍,目前似乎只有 AI 训练平台Zion 开始使用,AI 推理晶片Kings Canyon、影片转码晶片Mount Shasta 及相关硬件还没看到实物。但 Facebook 上下都对这套设计充满信心。未来他们会透过 OCP 公开所有设计和相关规格,便于更广泛的合作;Facebook 也会和目前的合作伙伴一起共同改善整套系统的软硬件共同设计。

更多详细说明可参见 Facebook 官网。

(本文由 雷锋网 授权转载;首图来源:Facebook)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。