AI 运算需要什么？ Intel：当然是强悍的处理器

▼

Intel 先前推出Xeon Scalable系列服务器专用处理器，包含白金、黄金、银、铜等不同等级产品，取代先前 E7、E5、E3 命名方式，并能带来高于前代产品 1.73 倍的综合效能表现，在深度学习方面更有 2.2 倍的效能表现，相当适合用于人工智慧领域，Intel 也说明了人工智慧的效能需求与一般运算有何不同。

AI 在做什么

最近 AI（人工智慧）的发展有爆炸性成长，如影像辨识、语音辨识、自然语言处理等需求，都可以透过 AI 处理。而深度学习也是 AI 技术的其中一环，它是种执行机器学习的技术，能将大量数据输入机器，并透过演算法分析数据，让机器从中学习判断或预测事物的能力。

以影像辨识为例，输入的影像会经过许多称为“层”的数学运算过程，每“层”运算都能让系统分析影像的特征，当第一“层”运算完成后，就会将分析结果传到下一“层”，如此迭代运算直到最后一“层”。

在运算过成中，系统内的类神精网络（Neural Network）会透过正向传播演算法（Forward Propagation）学习图像的特征与计算权重，并透过反向传播演算法（Backward Propagation）比对输入资料与演算误差，修正错误。

在深度学习中，输入的图像通常是一组数量庞大的图库，并以平行处理方式同时进行大量运算，使用者可在训练过程调校参数，提高训练的准确度与速度。当训练完成后，我们就能利用 AI 进行图像分类，让 AI 自动将图像分类或是加上标签（Tag）。这个动作称为深度学习推论（Deep Learning Inference），是相当重要的效能指标。

▲深度学习领域的类神经网络，是模仿生物大脑结构和功能的数学模型。

Xeon Scalable 处理器冲着 AI 而来

了解深度学习的概念后，就可以开始看看 Intel 如何强化 Xeon Scalable 处理器的效能，来提升深度学习的效率。

类神精网络运作时的折积运算基本上就是矩阵相乘，因此能以每秒进行的单精度通用矩阵乘法（Single Precision General Matrix Multiply，SGEMM）或通用矩阵乘法（Integer General Matrix Multiply，IGEMM）运算次数，来评估处理器的效能表现。相较 Broadwell 世代 Xeon 处理器，Xeon Platinum 8180 能带来 2.3 倍 SGEMM 效能，以及 3.4 倍 INT8 IGEMM4 效能，有效提升深度学习效率。

此外 Xeon Scalable 也支援 AAX-512 指令集，能同时进行两组 512 bit 融合乘加（Fused-Multiply Add，FMA）运算，吞吐量是 AAX、AAX2 的两倍，根据 Intel 内部测试，在同一个处理器开启 AAX-512，可带来 1.65 倍效能提升。

另一方面，由于深度学习仰赖庞大的资料，所以记忆体存取能力也是效能表现的重要关键。每颗 Xeon Scalable 都支援 6 通道 DDR4 记忆体，以及新的网状架构（Mesh Architecture），STREAM Triad 效能测试中，记忆体频宽高达 211GB/s，此外大容量的快取记忆体也对效能有正面助益。

除了硬件方面，Intel 也以开源形式提供深度神精网络（Deep Neural Networks）运算用的函数库，方便使用者利用 Neon、TensorFlow、Caffe、theano、torch 等软件框架开发 AI 程式，透过软件最佳化的方式进一步提升效能。

虽然我们这种一般使用者不会直接使用 Xeon Scalable 处理器，但仍可使用许多与 AI 相关的多云端服务，因此还是能间接享受 Xeon Scalable 的强悍效能。

▲Intel 的 Xeon Scalable 系列服务器专用处理器也走彩色战队风。（Source：Intel）

▲Xeon Scalable 相较前代产品，在 AI 运算表现最高有 2.4 倍提升。（Source：Intel）

▲ AI 训练方面，比前代产品提升 2.2 倍效率。（Source：Intel）

▲AI 推论输出的效率则最多提升 2.4 倍。（Source：Intel）

（本文由 T客邦授权转载；首图来源：Intel）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

AI Intel 人工智慧

AI 在做什么

Xeon Scalable 处理器冲着 AI 而来

相关文章