打破 16 项 AI 性能纪录，Nvidia A100 GPU 要无人能敌？

AI与大数据 45分钟前 0

▼

7 月 30 日，MLPerf 组织发布第 3 个版本 MLPerf Training v0.7 基准测试（Benchmark）结果。辉达（Nvidia）基于今年 5 月最新 Ampere 架构 A100 Tensor Core GPU，和 HDR InfiniBand 达成多个 DGX A100 系统互联的庞大集群──DGX SuperPOD 系统，性能方面开创了 8 个全新里程碑，共打破 16 项纪录。

打破 MLPerf Training 最新基准测试 16 项纪录

MLPerf 是 2018 年 5 月成立的行业基准测试组织，在 AI 备受关注的当下，获得晶片巨头和 AI 晶片公司、AI 业界的广泛关注。为了让机器学习处理器的基准测试也像 CPU，MLPerf 组织囊括业界所有知名企业和机构，如英特尔、Nvidia、Google、亚马逊、阿里巴巴和百度、微软、史丹佛大学等。

巨头公司乐于透过 MLPerf 的成绩证明自家 AI 实力，平头哥半导体去年 11 月 MLPerf 首版基准测试成绩公布后，就强调自主研发的 AI 晶片含光 800 在 Resnet50 基准测试获得单晶片性能第一。

身为 AI 领军者，Nvidia 自然也不会错过 MLPerf 基准测试。2018 年 12 月，Nvidia 首次在 MLPerf 训练基准测试创下 6 项纪录，次年 7 月 Nvidia 再创 8 项纪录。最新 MLPerf Training v0.7 基准测试，有两项新测试和一项经大幅修订的测试。

打破 16 项 AI 性能纪录，Nvidia A100 GPU 要无人能敌？ AI与大数据图2张

打破 16 项 AI 性能纪录，Nvidia A100 GPU 要无人能敌？ AI与大数据图3张

基准测试之一排名推荐系统性能。推荐系统是日益普及的 AI 任务。另一项基准测试是测试使用 BERT 的对话式 AI，BERT 是现有最复杂的神经网络模型之一。还有强化学习测试使用 Mini-go 和全尺寸 1919 围棋棋盘，是本轮最复杂的测试，内容涵盖游戏到训练等多项操作。

Nvidia 是唯一一家在 MLPerf Training v0.7 测试均采用市售商品的公司。其他大多数提交的是预览类（preview category），预计需几个月后才会面市。使用研究类产品，可能长时间都不会面市。

此次提交结果的 9 家公司，除 Nvidia 外，还有 6 家公司多家生态系统合作伙伴也提交基于 Nvidia GPU 的 MLPerf 测试结果。包括 3 家云端服务提供商（阿里云、Google 云和腾讯云）和 3 家服务器制造商（戴尔、富士通和浪潮）。

18 个月内做到 AI 性能 4 倍提升

创造纪录的 Nvidia DGX SuperPOD 系统是基于 Ampere 架构及 Volta 架构。之前曾报道，5 月发表的最近 Ampere 架构 GPU A100 基于台积电 7 奈米制程，面积高达 826 平方公釐，整合 540 亿个晶体管。比起 Volta 架构高达 20 倍的性能提升，并可同时满足 AI 训练和推理的需求。

打破 16 项 AI 性能纪录，Nvidia A100 GPU 要无人能敌？ AI与大数据图4张

打破 16 项 AI 性能纪录，Nvidia A100 GPU 要无人能敌？ AI与大数据图5张

▲ A100 对比 V100。

由 8 个安培 A100 GPU 打造的 NVIDIA DGX A100 AI 系统单节点性能，达创纪录的 5petaflops。

此次，Nvidia 在 Selene 执行系统 MLPerf 测试，Selene 是基于 DGX SuperPOD 的内部集群。DGX SuperPOD 是针对大规模 GPU 集群的公共参考架构，可在数周内完成部署。

根据测试结果，相较首轮 MLPerf 训练测试使用的基于 V100 GPU 系统，如今 DGX A100 系统能以相同吞吐率，18 个月内做到 4 倍性能提升。

取得里程碑的原因除了强大硬件，还有两大关键──软件和网络连接。

打破 16 项 AI 性能纪录，Nvidia A100 GPU 要无人能敌？ AI与大数据图6张

A100 GPU 搭配 CUDA-X 库的软件更新，支援透过 Mellanox HDR 200Gb/s InfiniBand 网络构建的扩展集群。HDR InfiniBand 可达成极低延迟和高数据吞吐量，同时透过可扩展分层聚合和缩减协议（SHARP）技术，提供智慧深度学习计算加速引擎。

Nvidia A100 能否无人能敌？

Nvidia A100 发表后，有业界人士表示 GPU 性能又上一阶，AI 晶片新创公司想超越 Nvidia 的难度又增加了。

但相比硬件超越，软硬件生态才是巨头公司更大的优势。据悉，透过最新软件优化，基于 NVIDIA V100 的 DGX-1 系统也可达成 2 倍性能提升。

就此次最新基准测试而言，提交基于 Nvidia GPU 的 MLPerf 测试结果的公司大多采用 Nvidia 的软件中心 NGC 容易，以及参赛用的公开框架。另外，包括 MLPerf 合作伙伴等近 20 家云端服务提供商和 OEM 组成的生态系统，已采用或计划采用 A100 GPU 打造线上实例、服务器和 PCIe 卡。

Nvidia 表示，A100 进入市场的速度也比以往 Nvidia 的 GPU 更快，发布初期用于 Nvidia 的第三代 DGX 系统，正式发表 6 周后，A100 就登陆 Google Cloud。

当然，Nvidia 也透过更多行业软件吸引用户。比如 5 月，Nvidia 发表两个应用框架──对话用式 AI 的 Jarvis 和用于推荐系统的 Merlin。还有针对汽车业市场的NVIDIA DRIVE、医疗健康市场的 Clara、机器人技术市场的 Isaac 及零售／智慧城市市场的 Metropolis。

性能和生态都极佳的 A100，能让 Nvidia 在 AI 市场无敌手吗？又价格会是阻碍吗？

（本文由雷锋网授权转载；首图来源：Nvidia）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

AI GPU Nvidia 晶片测试

打破 MLPerf Training 最新基准测试 16 项纪录

18 个月内做到 AI 性能 4 倍提升

相关文章