Hot Chips 2023》三星的记忆体内运算技术
▼
本届 Hot Chips 2023(第 35 届)谈论“记忆体内运算”(PIM,Processing-In-Memory)厂商不只 SK 海力士,同为南韩记忆体巨头的三星也没有缺席。
其实三星早在 2021 年第 33 届 Hot Chips,就公开针对 Facebook 的 DLRM(Deep Learning Recommendation Model)模型的 AXIMM(Acceleraton DIMM)、LPDDR5-PIM 及代号 Aquabolt-XL 的 HBM2-PIM,揭露完整技术布局。
▲ 利用记忆体内运算以一劳永逸解决记忆体瓶颈,三星也没有闲着,甚至脚步还看似比 SK 海力士快许多。
Hot Chips 2023 三星进一步扩展记忆体内运算范围至 CXL(Compute eXpress Link)外部记忆体储存池。就来看看三星对记忆体内运算的观点与看法。
▲ 计算工作最昂贵的成本之一:将资料从不同储存位置和记忆体空间,搬移到实际计算引擎。
▲ 透过增加记忆体通道或提升时脉的传统手段,有物理局限性。
▲ 所以三星也将脑袋动到 PCIe 为基础的 CXL 了。
▲ ChatGPT-3 的记忆体瓶颈。
▲ 三星分析 ChatGPT 的工作负载,大规模矩阵向量运算占 60%~80% 延迟,这也变成三星下手的目标。
▲ GPU 利用率分析,多数执行时间都浪费在资料于 CPU 与 GPU 间反复搬运。
▲ 三星展示如何将部分计算卸载至记忆体内处理(PIM)。
▲ 直接在记忆体内处理资料,可减少资料搬运,降低功耗和互连成本。
▲ 当 SK 海力士展示 GDDR6-PIM 方案时,三星则谈论 HBM-PIM。
▲ 三星 2022 年底用 96 张改造后 AMD MI100 加速卡,建置全球第一个基于 PIM 的 GPU 运算系统,或许可期待 AMD 以后就会做到这件事。
▲ T5-MoE 模型如何使用 HBM-PIM 丛集。
▲ 性能和能效都有飞跃性提升。
▲ 但关键还是在软件如何有效运用 PIM。
▲ 三星希望能将软件环境整合至标准应用程式开发模组。
▲ OneMCC 软件标准的将来计划,但还不是现在。
▲ 三星不只公开资料中心 HBM-PIM,也有终端装置(On-Device)LPDDR-PIM,现在走到哪里都需要 AI。
▲ LPDDR-PIM 应用概念。
▲ LPDDR-PIM 峰值内频宽为 102.4GB/s,因运算就在记忆体内完成,无须将资料传输回 CPU 或其他辅助处理器(xPU),所以可降低功耗。
▲ LPDDR-PIM 架构,256 位元宽 SIMD 浮点运算器可执行 FP16 乘法、FP32 / INT8 累加运算,暂存器分别有指令、向量、和纯量三种。
▲ LPDDR5-PIM 性能和功耗分析。
▲ HBM-PIM 和 LPDDR-PIM 还不够,三星也企图延展到 CXL-PNM(Processing-Near-Memory)。
▲ CXL-PNM 有两种方法:运算单元集中放在 CXL 控制器,或分散到记忆体颗粒。
▲ 将 PNM 引擎放在 CXL 控制器是比较简单的方法。
▲ 三星推出 512GB 的 CXL-PNM 概念卡,理论频宽 1.1TB/s。
▲ CXL-PNM 也需要专用软件堆叠架构。
▲ 大型语言模型引进 CXL-PNM 的预期节能和吞吐量。奠基于 PCIe 之上的 CXL,资料传输能源成本也不低,因此避免资料传输有明显好处。
▲ 最后毫无疑问,减少能源消耗当然比较节能减碳。
身为全球最大记忆体制造商,三星没有理由放过 AI 带来的记忆体内运算衍生的巨大商机。既然 SK 海力士和三星都积极表态了,就让我们等待同为“DRAM 御三家”的美光(Micron)何时会透露他们的计划。
(首图来源:三星)
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。