FPGA 保持弹性同时拥有 ASIC 级 AI 效能,可能吗?

FPGA 保持弹性同时拥有 ASIC 级 AI 效能,可能吗?

AI 语音助理和 AI 影像最佳化是离我们最近的 AI 应用,然而这只是 AI 能力初级体现,未来 AI 将以目前难以想像的方式改变我们的生活。AI 的重要推动力之一,不同类别的 AI 处理器正努力满足 AI 的需求,但依旧无法满足 AI 不断更新的演算法。围绕 AI 晶片的创新因此成为热点。

总部位于美国加州的 Achronix 为满足 AI 和机器学习需求,推出一款融合 ASIC 核心效率的全新类别 FPGA。

到底是什么推动 AI 晶片创新?

AI 发展的三大要素是算力、演算法和大数据,而这一轮 AI 热潮兴起的关键原因就是深度神经网络演算法流行。不过,由于 AI 还处于初级,深度学习演算法不仅种类多样,且不断演化。另外,数据的类别也十分多样,包含整型和浮点型,以及每种数据类别的不同精确度,这对晶片的通用性都提出要求。

FPGA 保持弹性同时拥有 ASIC 级 AI 效能,可能吗? AI与大数据 图2张

▲AI 处理器的硬件挑战。

但是,晶片通用也就意味着算力难以做到极致,且不同数据类别和精确度对处理器的效能的要求又不相同,想要同时满足算力和通用性的要求,半导体制程提升是最直接的方法。过去 30 年,摩尔定律带来显着的计算能力提升,半导体制程从微米跨越到奈米级,如今电脑处理速度也能达每秒千万亿次(1,015FLOPS)。

2018 年,10 奈米和 7 奈米的晶片开始量产,但 CMOS 元件的横向大小接近几奈米,厚度只有几个原子层,想要继续靠制程提升电晶体密度带来处理效能显着提升,技术难度越来越高,成本也让越来越多晶片公司却步。

除了半导体制程,当运算能力达到一定程度,存取记忆体的速度无法跟上运算部件消耗数据的速度,再增加运算部件也无法充分利用,这个冯诺依曼架构的瓶颈(记忆体墙)也阻碍了 AI 晶片算力提升。

显然,不断更新的演算法、不同 AI 模型的数据类别需求、与日俱增的数据量,都推动承载 AI 演算法的 AI 晶片不断创新。

FPGA 如何与 ASIC 融合?

目前,CPU、GPU、FPGA、ASIC 都认为是广义的 AI 晶片,从 CPU 到 ASIC,晶片通用性降低,但效能依次增强,其中,GPU 凭并列计算的优势成为目前最成功的 AI 晶片。FPGA 为不少 AI 晶片公司 ASIC 晶片验证的偏好,也在 AI 晶片市场占据一定地位,但成本对大规模应用是个挑战。

FPGA 保持弹性同时拥有 ASIC 级 AI 效能,可能吗? AI与大数据 图3张

▲Achronix Semiconductor 总裁兼首席执行长 Robert Blake。

此时,如果有兼具 ASIC 的效能和 FPGA 弹性的 AI 处理器,应该是非常有竞争力的产品,但得解决多个挑战。Achronix Semiconductor 总裁兼首席执行长 Robert Blake 接受媒体采访时表示:“最新发表的 Achronix Speedster7t 是灵活的 FPGA 技术与 ASIC 核心效率的融合,提供全新的 FPGA+ 晶片种类,这代表我们建立在 4 个架构代系的硬件和软件开发基础上的创新和积淀,以及与用户之间的密切合作。”

Robert 指出,这款新产品 3 年前就开始规划,过程中工程团队完全重新构建整个 FPGA 架构,要平衡片上处理、互连和外部输入汇出介面(I/O),以达成资料密集型应用吞吐量最大化,适合高频宽需求的应用,比如边缘和基于服务器的 AI / ML、网络处理和储存。

架构改进让 FPGA 更适合 AI 计算

要让 FPGA 具备 ASIC 等级效能,首先需要提升算力。正如前面所说,先进半导体制程对处理器效能的提升非常关键,因此 Speedster7t 采用台积电 7 奈米 FinFET 制程。我们知道 7 奈米制程的流片成本非常高昂,着是否意味着这款 7 奈米 FPGA+ 只针对云端市场?Robert 表示,在高阶应用市场,无论 AI 训练还是推理,对效能和延迟要求都很高,需要 7 奈米制程。当然,除了云端,针对边缘市场会有更小且成本更低的产品,满足不用应用和不同市场。

半导体制程明确后,想让 FPGA 适合深度学习演算法,还需要改进架构。Robert 表示,传统基于 DSP 的 FPGA 计算单元设计 DSP、LUTs、储存单元分开,布线也限制效能,不仅无法高效支援 AI 模型的不同数值精度,还要消耗其余逻辑的储存资源。

FPGA 保持弹性同时拥有 ASIC 级 AI 效能,可能吗? AI与大数据 图4张

“我们采用的方法是改进传统架构,设计出 MLP 单元,采用阵列式乘累积计算架构,每个乘累加单元(MAC)支援最多 32 个乘法器,达成可配置计算。同时,MLP 单元整合分别针对浮点和整型资料的 MAC,可支援 4~24 位整点格式和高效浮点模式。且计算单元与缓冲区单元紧密相邻,可做到更复杂的演算法,并不需要使用复杂布线,确保以 750MHz 最高效能将资料传到 MLP。”Robert 指出。

FPGA 保持弹性同时拥有 ASIC 级 AI 效能,可能吗? AI与大数据 图5张

Robert 表示,MLP 的效率比传统 FPGA 效能提升 5 倍,使这款 FPGA 能以每秒兆次运算数量为单位(TOPS)。演算法不断改变,但底层需求都一样,他们希望建立很好的硬件底层,让演算法无论怎么改变,需求都可满足。

FPGA 保持弹性同时拥有 ASIC 级 AI 效能,可能吗? AI与大数据 图6张

用片上网络解决资料挑战

计算能力提高可透过增加 MAC,但算力提升之后,能否解决资料传送的挑战决定 AI 处理器的最终效能。据介绍,Speedster7t 器件是唯一支援 GDDR6 记忆体的 FPGA,且最多支援 8 个 GDDR6 控制器,支援 4Tbps 的 GDDR6 累加频宽,能以 HBM 一半成本提供与 HBM 等效的储存频宽。

FPGA 保持弹性同时拥有 ASIC 级 AI 效能,可能吗? AI与大数据 图7张

另外,Speedster7t 还有 72 个高效能的 SerDes,可达到 1~112Gbps 速度,Robert 强调已经过硅片验证。还有带前向纠错(FEC)的硬件 400G 乙太网络 MAC,支援 4x 100G 和 8x 50G 规格,每个控制器有 8 个或 16 个通道的硬件 PCI Express Gen5 控制器。为了应付 400G 乙太网络资料的处理需求,Achronix 采用分割数据并列处理的方法。

FPGA 保持弹性同时拥有 ASIC 级 AI 效能,可能吗? AI与大数据 图8张

但这些最先进和更多频宽只能解决晶片与外部资料交换,晶片内部效率提升才是关键。这就是 Achronix 这款新产品架构的另一大关键创新,高频宽二维片上网(NOC)。Robert 将架构中可横跨和垂直跨越 FPGA 逻辑阵列的 NOC 比喻为城市街道系统的高速公路。NOC 每一行或每一列都可当作两个 256 位实现,单向、工业标准的 AXI 通道,工作频率为 2Ghz,同时可为每个方向提供 512Gbps 的数据流量。

FPGA 保持弹性同时拥有 ASIC 级 AI 效能,可能吗? AI与大数据 图9张

他进一步表示,专属二维 NOC 极简化高速资料行动,确保资料流轻松定向到整个 FPGA 架构中任何自订处理引擎。最重要的是,NOC 消除了传统 FPGA 使用程式化路线和逻辑寻找表资源在整个 FPGA 中行动资料流出现的拥塞和效能瓶颈。不仅可提高 Speedster7t FPGA 的总频宽容量,还能降低功耗同时提高有效 LUT 容量。

FPGA 保持弹性同时拥有 ASIC 级 AI 效能,可能吗? AI与大数据 图10张

除了硬件,AI 时代软硬件的重要性更多人关注。据 Robert 透露,Achronix 的软件和硬件投资相当,且在公司创立时很大的优势就是软件技术,这也是他们今天能做到高规格的重要原因。

但 Robert 也强调,底层软件非常重要,如果 NOC 软件做不好,就很难真正提升。目前针对 Speedster7t 的 ACE 设计工具现已提供支援,今年第三季会发表将 TensorFlow、Caffe2 等框架 AI 模型转换到晶片的工具。第一批用于评估的器件和开发板将于 2019 年第四季提供。

另据了解,安全性方面,Speedster7t FPGA 系列可用最先进的位元流安全保护功能应对。产品批量化支援方面,Achronix 在 Speedcore eFPGA IP 采用与 Speedster7t FPGA 使用的同一种技术,可支援从 Speedster7t FPGA 到 ASIC 无缝转换。当使用 Speedcore eFPGA IP 将Speedster7t FPGA 转换为 ASIC 时,用户有望节省高达 50% 功耗并降低 90% 成本。

FPGA 保持弹性同时拥有 ASIC 级 AI 效能,可能吗? AI与大数据 图11张

哪种处理器会在 AI 竞争胜出?

既然功耗和成本都能显着降低,那是否意味 Achronix 新推出的 FPGA+ 将成为 AI 晶片的主流?Robert 表示,CPU、GPU、FPGA、ASIC 每类晶片都有技术长处,并且 AI 晶片的市场在增长,所有的晶片类别都会受益。仅看 FPGA,根据市场调研公司 Semico Research 的预测,人工智慧应用 FPGA 的市场规模将在未来 4 年增长 3 倍,达 52 亿美元。

但有观点认为,随着 AI 演算法成熟,未来市场需要的是最通用和最专属的 AI 处理器,FPGA 将失去优势。Robert 表示,随着 AI 发展,晶片发生一些变化,ASIC 也需要一些程式化能力,而我们现在也在 FPGA 增加 ASIC 属性,因此未来 FPGA 和 ASIC 都可能不再是传统定义。

更进一步,FPGA 会在哪些市场现出优势?Robert 从产品出厂指出,FPGA 器件方面主要是云端、网络加速及机器学习,IP 主要还是 5G、汽车及储存。当然,还需要根据用户回馈和需求,推出效能和架构都最适合用户的 FPGA 产品。

小结

随着计算效能不断提升,记忆体墙的瓶颈越来越明显,在这样的情况下,架构的创新能体现的价值越来越明显。当然,这需要具备前瞻性及强大的技术研发能力,我们看到市场有一些针对储存架构的创新设计,包括存算一体、储存优先、可重组、可重构的架构等。

Achronix 擅长 FPGA 技术,经过多年积累以了解用户需求,选择保持 FPGA 弹性同时,专为 AI 效能最佳化达到 ASIC 级,并透过影片上传网络解决资料的传送问题,从最重要的计算能力和资料传送两方面创新,也是提升竞争力很好的选择。

(本文由 雷锋网 授权转载)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。