NVIDIA、Arm 与英特尔三雄联手,发表 FP8 规格加速 AI 运算

NVIDIA、Arm 与英特尔三雄联手,发表 FP8 规格加速 AI 运算

为了加速 AI 训练、推理发展,NVIDIA、英特尔Intel)以及 Arm 三雄联手,近日共同发表 FP8 Formats for Deep Learning 白皮书,期能透过 8 位元浮点运算的格式来改善运算效能,并将当成 AI 通用的交换格式,提升深度学习训练推理速度;而此一白皮书也已提交给电机电子工程师协会(Institute of Electrical and Electronics Engineers,IEEE)。

NVIDIA 表示,AI 发展需要跨硬件、软件平台的全面创新,以解决神经网络日益成长的运算需求。而提高效率的其中一个关键是使用较低精确的数字格式改善运算效能,同时降低记忆体使用并最佳化频宽互联。为此,目前业界已由 32 位元降至 16 位元,如今甚至已转向 8 位元。

NVIDIA 认为,拥有一种共通的交换格式,将能推动软件与硬件平台的互动,进而加快 AI 运算发展。也因此,NVIDIA、英特尔和 Arm 携手合作,共同撰写 FP8 Formats for Deep Learning 白皮书,透过描述 8 位元浮点运算规格,提供一个共同的交换格式加速 AI 训练、推理。

NVIDIA 进一步解释,FP8 规范有两个变体,分别是 E5M2 和 E4M3,可最大限度减少与现有的 IEEE 754 浮点格式的偏差,能为 AI 训练、推理发展带来更大的自由度,得以在硬件与软件间取得良好平衡,以改善开发者的生产效率。

根据实验结果,广泛的训练架构如 Transformer,FP8 训练的准确性都类似 16 位元结果,但却有更佳效能。譬如 NVIDIA Hopper 便利用新的 FP8 格式,BERT 高精度模型实现 4.5 倍加速。

NVIDIA 强调,与英特尔、Arm 合作撰写 FP8 Formats for Deep Learning 白皮书,是希望透过开放、免费授权的方式,提供通用、可维持准确性的交换格式,以加速 AI 发展,并让 AI 模型在所有硬件平台都有一致高效表现。

  • NVIDIA, Arm, and Intel Publish FP8 Specification for Standardization as an Interchange Format for AI

(首图来源:NVIDIA)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。