IBM 打造类比 AI 处理器,实现超低功耗的神经网络及语音识别应用

IBM 打造类比 AI 处理器,实现超低功耗的神经网络及语音识别应用

面对大型语言模型极度耗能的问题,将记忆体和处理单元加以混合会是可行的解决方案之一,IBM 和英特尔都制造出能为单个神经元提供执行功能所需之所有记忆体的晶片。另一种方法则是在记忆体中执行操作,这种方法已在相变化记忆体(phase-change memory)中得到证明。

如今 IBM 又制造出一款更接近功能性 AI 处理器的相变晶片,并于于 23 日发表在《自然》期刊上的论文中,展示了该硬件能够以合理的准确率以及更低的能耗执行语音辨识。

证明可行!相变化记忆体可以模拟神经网络节点强度及行为

相变化记忆体的发展已有一段时日,它提供媲美快闪记忆体的持久性,同时展现直追现有挥发性 RAM 记忆体的性能表现。其工作原理是加热一小块材料,然后控制它冷却的速度。如果慢慢冷却,该材料会形成有序的晶体结构,导电性能极佳。但若迅速冷却,它会形成一团无序的混乱结构,具有更高的电阻。这两种状态之间的差异可以储存一个位元,该位元会保持储存,直到施加足够电压使材料再次熔化后为止。

这种行为被证明非常适合神经网络。在神经网络中,每个节点接收一个输入,并根据其状态决定将该信号的多少转发给其他后续节点,这也被视为网络中单个神经元之间的连接强度。拜相位变化记忆体特性之赐,这种强度也可由类比模式下工作的单个记忆体位元来表示。

当储存数位位元时,相变化记忆体开及关状态之间的差异被最大化以限制错误。我们大可将位元电阻值设置为其开和关状态之间任何位置的各种数值,进而允许模拟行为。这种平滑的电位梯度值可以用来表示节点之间的连接强度,换言之,只需将电流通过某相变化记忆体位元,便能获得与神经网络节点行为相一致的效果,IBM 已经证明了这是可行的。

成功展示在 5 个晶片上共 1.4 亿个相变位元的超低功耗运算作业

IBM 新发表的新晶片更接近于功能性处理器,它可在处理大型语言模型所需规模上做到上述的行为效果。这款新晶片的核心组件是所谓的“瓦片”(tile),它是一个由各个相变位元组成的交错式阵列,宽 512 个单位,深 2048 个单位。每个晶片包含 34 个瓦片,并约有 3,500 万个相变位元。

该晶片还具备使这些位元得以高速通讯所需的一切,甚至可以在不同的瓦片间进行通讯,而无需任何类比到数位的转换作业。其并且内建了连同一些静态 RAM 的传统处理单元,有助于控制上述种种通讯流,并处理该晶片中类比部分和数位部分之间的转换。

再者,该系统十分弹性地允许任何连接强度由可变动的位元数来维持。晶片之间也能通信,这使得更大的问题得以分割并分布在多个晶片中进行处理。IBM 展示的最大运算作业涉及分布在 5 个晶片上共 1.4 亿个相变位元。目前研究人员从现有的 AI 系统开始,搞定相变位元状态的设置以进行匹配。一旦设置好,就可以重复运行分析,而且晶片的相变部分也不会有额外的耗能。

语音辨识效能媲美传统处理器,功耗表现更胜数倍

IBM 研究人员使用这种硬件在两个语音辨识任务上进行展示。首先,较简单的任务是要识别出语音中一小部分的关键字,这有助于处理自动化客服系统上可能遇到的互动。第二个任务是通用语音辨识。在这两种情况下,该硬件都能够达到和传统处理器上运行人工智慧系统的等效性能表现。结果该晶片在其最大峰值性能下,平均每瓦特功耗能执行 12.4 兆次操作,这比传统处理器执行相同操作所需的功耗低了很多倍。

需要注意的是,这不是一个通用型 AI 处理器,它只适用于特定类型的神经网络,而且并不是每个问题都适合这种神经网络。它所承诺的节能效益也是基于网络保持静态的状况下。任何需要重新配置节点间连接的问题,都意味着要重新设置相变位元的状态,这反而会造成更多的能耗。

  • IBM team builds low-power analog AI processor

(首图来源:IBM)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。