打破 16 项 AI 性能纪录,Nvidia A100 GPU 要无人能敌?

打破 16 项 AI 性能纪录,Nvidia A100 GPU 要无人能敌?

7 月 30 日,MLPerf 组织发布第 3 个版本 MLPerf Training v0.7 基准测试(Benchmark)结果。辉达(Nvidia)基于今年 5 月最新 Ampere 架构 A100 Tensor Core GPU,和 HDR InfiniBand 达成多个 DGX A100 系统互联的庞大集群──DGX SuperPOD 系统,性能方面开创了 8 个全新里程碑,共打破 16 项纪录。

打破 MLPerf Training 最新基准测试 16 项纪录

MLPerf 是 2018 年 5 月成立的行业基准测试组织,在 AI 备受关注的当下,获得晶片巨头和 AI 晶片公司、AI 业界的广泛关注。为了让机器学习处理器的基准测试也像 CPU,MLPerf 组织囊括业界所有知名企业和机构,如英特尔、Nvidia、Google、亚马逊、阿里巴巴和百度、微软、史丹佛大学等。

巨头公司乐于透过 MLPerf 的成绩证明自家 AI 实力,平头哥半导体去年 11 月 MLPerf 首版基准测试成绩公布后,就强调自主研发的 AI 晶片含光 800 在 Resnet50 基准测试获得单晶片性能第一。

身为 AI 领军者,Nvidia 自然也不会错过 MLPerf 基准测试。2018 年 12 月,Nvidia 首次在 MLPerf 训练基准测试创下 6 项纪录,次年 7 月 Nvidia 再创 8 项纪录。最新 MLPerf Training v0.7 基准测试,有两项新测试和一项经大幅修订的测试。

打破 16 项 AI 性能纪录,Nvidia A100 GPU 要无人能敌? AI与大数据 图2张
打破 16 项 AI 性能纪录,Nvidia A100 GPU 要无人能敌? AI与大数据 图3张

基准测试之一排名推荐系统性能。推荐系统是日益普及的 AI 任务。另一项基准测试是测试使用 BERT 的对话式 AI,BERT 是现有最复杂的神经网络模型之一。还有强化学习测试使用 Mini-go 和全尺寸 1919 围棋棋盘,是本轮最复杂的测试,内容涵盖游戏到训练等多项操作。

Nvidia 是唯一一家在 MLPerf Training v0.7 测试均采用市售商品的公司。其他大多数提交的是预览类(preview category),预计需几个月后才会面市。使用研究类产品,可能长时间都不会面市。

此次提交结果的 9 家公司,除 Nvidia 外,还有 6 家公司多家生态系统合作伙伴也提交基于 Nvidia GPU 的 MLPerf 测试结果。包括 3 家云端服务提供商(阿里云、Google 云和腾讯云)和 3 家服务器制造商(戴尔、富士通和浪潮)。

18 个月内做到 AI 性能 4 倍提升

创造纪录的 Nvidia DGX SuperPOD 系统是基于 Ampere 架构及 Volta 架构。之前曾报道,5 月发表的最近 Ampere 架构 GPU A100 基于台积电 7 奈米制程,面积高达 826 平方公釐,整合 540 亿个晶体管。比起 Volta 架构高达 20 倍的性能提升,并可同时满足 AI 训练和推理的需求。

打破 16 项 AI 性能纪录,Nvidia A100 GPU 要无人能敌? AI与大数据 图4张
打破 16 项 AI 性能纪录,Nvidia A100 GPU 要无人能敌? AI与大数据 图5张

▲ A100 对比 V100。

由 8 个安培 A100 GPU 打造的 NVIDIA DGX A100 AI 系统单节点性能,达创纪录的 5petaflops。

此次,Nvidia 在 Selene 执行系统 MLPerf 测试,Selene 是基于 DGX SuperPOD 的内部集群。DGX SuperPOD 是针对大规模 GPU 集群的公共参考架构,可在数周内完成部署。

根据测试结果,相较首轮 MLPerf 训练测试使用的基于 V100 GPU 系统,如今 DGX A100 系统能以相同吞吐率,18 个月内做到 4 倍性能提升。

取得里程碑的原因除了强大硬件,还有两大关键──软件和网络连接。

打破 16 项 AI 性能纪录,Nvidia A100 GPU 要无人能敌? AI与大数据 图6张

A100 GPU 搭配 CUDA-X 库的软件更新,支援透过 Mellanox HDR 200Gb/s InfiniBand 网络构建的扩展集群。HDR InfiniBand 可达成极低延迟和高数据吞吐量,同时透过可扩展分层聚合和缩减协议(SHARP)技术,提供智慧深度学习计算加速引擎。

Nvidia A100 能否无人能敌?

Nvidia A100 发表后,有业界人士表示 GPU 性能又上一阶,AI 晶片新创公司想超越 Nvidia 的难度又增加了。

但相比硬件超越,软硬件生态才是巨头公司更大的优势。据悉,透过最新软件优化,基于 NVIDIA V100 的 DGX-1 系统也可达成 2 倍性能提升。

就此次最新基准测试而言,提交基于 Nvidia GPU 的 MLPerf 测试结果的公司大多采用 Nvidia 的软件中心 NGC 容易,以及参赛用的公开框架。另外,包括 MLPerf 合作伙伴等近 20 家云端服务提供商和 OEM 组成的生态系统,已采用或计划采用 A100 GPU 打造线上实例、服务器和 PCIe 卡。

Nvidia 表示,A100 进入市场的速度也比以往 Nvidia 的 GPU 更快,发布初期用于 Nvidia 的第三代 DGX 系统,正式发表 6 周后,A100 就登陆 Google Cloud。

当然,Nvidia 也透过更多行业软件吸引用户。比如 5 月,Nvidia 发表两个应用框架──对话用式 AI 的 Jarvis 和用于推荐系统的 Merlin。还有针对汽车业市场的NVIDIA DRIVE、医疗健康市场的 Clara、机器人技术市场的 Isaac 及零售/智慧城市市场的 Metropolis。

性能和生态都极佳的 A100,能让 Nvidia 在 AI 市场无敌手吗?又价格会是阻碍吗?

(本文由 雷锋网 授权转载;首图来源:Nvidia)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。