2.4 万个 H100 GPU 训练 Llama 3 新模型,Meta 展示 AI 运算火力
▼
Meta 在其工程部落格公开两座 AI 资料中心部署细节,包含超过 24,000 个 NVIDIA H100 GPU 等运算硬件以及网络、储存、设计、性能、软件等,Meta 正使用这些 GPU 丛集训练下一代大型语言模型 Llama 3。
新公开的 GPU 丛集是为 Meta 在支援自然语言处理、语音辨识、影像生成等领域的 AI 研究和开发,整个丛集内含 24,576 个 NVIDIA H100 GPU,这与内含 16,000 个 NVIDIA A100 GPU 的原有丛集相比,算力明显成长。
新的 AI 训练丛集以 Meta 研发的 AI Research SuperCluster(RSC)为基础,这在 2022 年已经发表。Meta 指出,新的丛集能够支援比 RSC 更大、更复杂的模型运算,为开发生成式 AI 产品铺路。
Meta 执行长祖克柏(Mark Zuckerberg)年初谈道,Meta 正以扩大运算基础设施为目标,2024 年底前将 35 万个 NVIDIA H100 GPU 纳入 AI 资料中心的产品组合中,并使整体运算能力接近 60 万个 H100 规模。
▲ Meta 打造生成式 AI 运算基础设施。(Source:Engineering at Meta Blog)
两种 GPU 丛集的网络基础设施有所不同,这两种解决方案都能互连 400 Gbps 端点,但 Meta 建构了一种以 Arista 7800、Wedge400、Minipack2 OCP 机架交换器的 RoCE(RDMA over Converged Ethernet)解决方案,另一丛集则采 NVIDIA Quantum-2 InfiniBand 结构。
此外,两种 GPU 丛集皆使用 Meta 内部开放 GPU 硬件平台 Grand Teton 所建构,可支援大型 AI 工作负载。做为 Zion-EX 平台后续产品,它包含 4 倍的主机到 GPU 频宽、2 倍的运算和资料网络频宽等。
这些丛集还使用 Meta 的 Open Rack 电源和机架架构进行开发,这套专门为支援 Grand Teton 等解决方案所设计,在资料中心环境提供更多弹性。针对新的丛集,每个机架的服务器数量经过定制,以便能在每个服务器的吞吐量、减少机架数量即在耗电效率之间达成平衡。
储存方面,丛集在 Userspace API 中使用支援 Linux 档案系统的 Tectonic 分散式储存解决方案。Meta 也与开发商 Hammerspace 合作,共同开发平行网络档案系统。
两个丛集均以 YV3 Sierra Point 服务器平台为基础,配备最新的大容量 E1.S SSD。透过更改网络拓扑、网络路由以及部署 NCCL(Nvidia Collective Communications Library),达到最佳网络使用率。
Meta 也表示,会持续发展以 PyTorch 为基础的 AI 框架,为数十万次 GPU 训练做好准备。
- Meta reveals details of two new 24k GPU AI clusters
(首图来源:Engineering at Meta Blog)
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。