花了 100 多亿美元建 AI 模型,微软又豪掷数亿美元投资专用硬件

花了 100 多亿美元建 AI 模型,微软又豪掷数亿美元投资专用硬件

玩得起 AI 解决方案的非顶级大公司莫属,因不但要花大钱投资 AI 模型,还要投巨资开发硬件,以完美支援 AI 模型训练,以及与自家应用服务整合最佳化与商业化。

2019 年微软手捧 10 亿美元资金与 OpenAI 初次合作,已视为科技界押对宝的最佳典范。今年 1 月微软再接再厉又增加 100 亿美元挹注,让微软进入备受瞩目的 AI 领导厂商行列,伴随而来的亮丽股市表现无疑是获市场正面肯定的证明。

ChatGPT 必须运行于微软资料中心耗费巨资部署的 Azure 硬件,才能顺利完成 AI 模型训练,以及与自家 Bing、Github Copilot 及 Microsoft 365 Copilot 最佳化整合。虽然微软并未正面透露 Azure 硬件投资金额,但彭博社(Bloomberg)13 日报道指,微软已花费“数亿美元”训练 ChatGPT 专用硬件。

微软也在 13 日发表两篇官方部落格文章详述如何打造专门运行 ChatGPT 的 AI 基础设施,以为 Bing 服务核心。随着 ND A100 v4 虚拟机(建立于 Nvidia A100 GPU 专供 AI 处理作业)进驻,微软资料中心又再导入基于更新硬件(并未透露到底有多少硬件)的 ND H100 v5 虚拟机,支援 8 到数千颗 Nvidia H100 GPU 等各尺寸虚拟机,明显加速 AI 模型性能。

全新虚拟机支援透过 NVSwitch 和 NVLink 4.0 互连的 Nvidia H100 Tensor Core GPU、400gb/s Quantum-2 CX7 InfiniBand 联网,以及具 PCIe Gen5 互连和 DDR5 记忆体的第四代 Intel Xeon 可扩充处理器。

另一篇文章微软谈到如何与 OpenAI 合作,协助打造 ChatGPT 模型超级电脑,以连 Nvidia 都没想过的新方式将数千颗 GPU 连接。为了获最佳效能,微软凭更新累积的经验大量最佳化系统。

总之,Azure 基础设施针对模型的训练最佳化,但整个 AI 平台花了好几年才逐步改善。Bing AI 背后集结数量庞大且分散全球 60 个 Azure 区域的无数 GPU、网络硬件和虚拟化软件。目前 ND H100 v5 虚拟实例适用预览版,最终成为 Azure 产品组合的标准成员,但并未透露时程。

  • Microsoft details its ChatGPT hardware investments

(首图来源:微软)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。