Hot Chips 2023》三星的记忆体内运算技术

Hot Chips 2023》三星的记忆体内运算技术

本届 Hot Chips 2023(第 35 届)谈论“记忆体内运算”(PIM,Processing-In-Memory)厂商不只 SK 海力士,同为南韩记忆体巨头的三星也没有缺席。

其实三星早在 2021 年第 33 届 Hot Chips,就公开针对 Facebook 的 DLRM(Deep Learning Recommendation Model)模型的 AXIMM(Acceleraton DIMM)、LPDDR5-PIM 及代号 Aquabolt-XL 的 HBM2-PIM,揭露完整技术布局。

Hot Chips 2023》三星的记忆体内运算技术 AI与大数据 图2张

▲ 利用记忆体内运算以一劳永逸解决记忆体瓶颈,三星也没有闲着,甚至脚步还看似比 SK 海力士快许多。

Hot Chips 2023 三星进一步扩展记忆体内运算范围至 CXL(Compute eXpress Link)外部记忆体储存池。就来看看三星对记忆体内运算的观点与看法。

Hot Chips 2023》三星的记忆体内运算技术 AI与大数据 图3张

▲ 计算工作最昂贵的成本之一:将资料从不同储存位置和记忆体空间,搬移到实际计算引擎。

Hot Chips 2023》三星的记忆体内运算技术 AI与大数据 图4张

▲ 透过增加记忆体通道或提升时脉的传统手段,有物理局限性。

Hot Chips 2023》三星的记忆体内运算技术 AI与大数据 图5张

▲ 所以三星也将脑袋动到 PCIe 为基础的 CXL 了。

Hot Chips 2023》三星的记忆体内运算技术 AI与大数据 图6张

▲ ChatGPT-3 的记忆体瓶颈。

Hot Chips 2023》三星的记忆体内运算技术 AI与大数据 图7张

▲ 三星分析 ChatGPT 的工作负载,大规模矩阵向量运算占 60%~80% 延迟,这也变成三星下手的目标。

Hot Chips 2023》三星的记忆体内运算技术 AI与大数据 图8张

▲ GPU 利用率分析,多数执行时间都浪费在资料于 CPU 与 GPU 间反复搬运。

Hot Chips 2023》三星的记忆体内运算技术 AI与大数据 图9张

▲ 三星展示如何将部分计算卸载至记忆体内处理(PIM)。

Hot Chips 2023》三星的记忆体内运算技术 AI与大数据 图10张

▲ 直接在记忆体内处理资料,可减少资料搬运,降低功耗和互连成本。

Hot Chips 2023》三星的记忆体内运算技术 AI与大数据 图11张

▲ 当 SK 海力士展示 GDDR6-PIM 方案时,三星则谈论 HBM-PIM。

Hot Chips 2023》三星的记忆体内运算技术 AI与大数据 图12张

▲ 三星 2022 年底用 96 张改造后 AMD MI100 加速卡,建置全球第一个基于 PIM 的 GPU 运算系统,或许可期待 AMD 以后就会做到这件事。

Hot Chips 2023》三星的记忆体内运算技术 AI与大数据 图13张

▲ T5-MoE 模型如何使用 HBM-PIM 丛集。

Hot Chips 2023》三星的记忆体内运算技术 AI与大数据 图14张

▲ 性能和能效都有飞跃性提升。

Hot Chips 2023》三星的记忆体内运算技术 AI与大数据 图15张

▲ 但关键还是在软件如何有效运用 PIM。

Hot Chips 2023》三星的记忆体内运算技术 AI与大数据 图16张

▲ 三星希望能将软件环境整合至标准应用程式开发模组。

Hot Chips 2023》三星的记忆体内运算技术 AI与大数据 图17张

▲ OneMCC 软件标准的将来计划,但还不是现在。

Hot Chips 2023》三星的记忆体内运算技术 AI与大数据 图18张

▲ 三星不只公开资料中心 HBM-PIM,也有终端装置(On-Device)LPDDR-PIM,现在走到哪里都需要 AI。

Hot Chips 2023》三星的记忆体内运算技术 AI与大数据 图19张

▲ LPDDR-PIM 应用概念。

Hot Chips 2023》三星的记忆体内运算技术 AI与大数据 图20张

▲ LPDDR-PIM 峰值内频宽为 102.4GB/s,因运算就在记忆体内完成,无须将资料传输回 CPU 或其他辅助处理器(xPU),所以可降低功耗。

▲ LPDDR-PIM 架构,256 位元宽 SIMD 浮点运算器可执行 FP16 乘法、FP32 / INT8 累加运算,暂存器分别有指令、向量、和纯量三种。

▲ LPDDR5-PIM 性能和功耗分析。

▲ HBM-PIM 和 LPDDR-PIM 还不够,三星也企图延展到 CXL-PNM(Processing-Near-Memory)。

▲ CXL-PNM 有两种方法:运算单元集中放在 CXL 控制器,或分散到记忆体颗粒。

▲ 将 PNM 引擎放在 CXL 控制器是比较简单的方法。

▲ 三星推出 512GB 的 CXL-PNM 概念卡,理论频宽 1.1TB/s。

▲ CXL-PNM 也需要专用软件堆叠架构。

▲ 大型语言模型引进 CXL-PNM 的预期节能和吞吐量。奠基于 PCIe 之上的 CXL,资料传输能源成本也不低,因此避免资料传输有明显好处。

▲ 最后毫无疑问,减少能源消耗当然比较节能减碳。

身为全球最大记忆体制造商,三星没有理由放过 AI 带来的记忆体内运算衍生的巨大商机。既然 SK 海力士和三星都积极表态了,就让我们等待同为“DRAM 御三家”的美光(Micron)何时会透露他们的计划。

(首图来源:三星)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。