藉 CS-2 晶圆级晶片辅助,Cerebras 宣布人工智慧 NLP 训练更低廉简便

藉 CS-2 晶圆级晶片辅助,Cerebras 宣布人工智慧 NLP 训练更低廉简便

以生产出世界上最大加速器晶片 CS-2 Wafer Scale Engine 闻名的公司 Cerebras 日前宣布,已经在利用该晶圆级晶片进行人工智慧训练,就是已经训练出在单晶片上全世界最大的自然语言处理(NLP)人工智慧模型,为公司的发展步出重要的一大里程。

根据国外媒体报道,CS-2 Wafer Scale Engine 晶圆级晶片,采用台积电 7 奈米制程技术,由一整块方形的晶圆刻蚀而成。它的大小数百倍于当前的主流晶片,具有 15KW 的功率,并且整合了 2.6 兆个电晶体,封装了 850,000 个核心和 40GB 记忆体。透过该晶片所建构的 NLP 模型,内建 20 亿个参数。

事实上,NLP 模型的开发是人工智慧中的一个相当重要领域。因为,利用 NLP 模型,可以训练人工智慧理解文字含义,并进行相应的动作。之前,OpenAI 所发展的 DALL.E 模型就是一个典型的 NLP 模型,这个模型可以将使用者的输入的文字资讯转化为图片输出。不过,达成这一模型的成功运作并不容易,NLP 模型的开发必须具有极高的算力成本和技术门槛。藉 CS-2 晶圆级晶片辅助,Cerebras 宣布人工智慧 NLP 训练更低廉简便 AI与大数据 图2张

实际上,如果只讨论数字,OpenAI 所发展的 DALL.E 模型具有 120 亿个参数,而 DeepMind 于 2021 年年底推出的 Gopher 模型则具有惊人 2,800 亿个参数。因此,Cerebras 开发 NLP 模型内建 20 亿个参数量,在产业竞争者的眼中似乎显得平凡无奇。不过,一旦去除惊人的参数量条件后,Cerebras 所开发的 NLP 模型则有一项巨大的突破值得关注,那就是降低了 NLP 模型的开发困难度。

报道强调,依照传统流程,开发 NLP 模型需要开发者将巨大的 NLP 模型切分若干个小模型,并将他们的工作量分散到成百上千个的图形处理单元上。因为这工作需要这么多的图形处理单元,这就形成了高昂的成本门槛。另外,将工作量分散的处理,也让工程师们的工作异常困难。原因是每个神经网络、每个 GPU 的规格、以及将他们连接在一起的网络都是独一无二的,并且不能跨系统移植。这使得工程师在一开始时就必须要把相关的结构思考清楚,这过程就必须耗费几个月的时间才能完成。藉 CS-2 晶圆级晶片辅助,Cerebras 宣布人工智慧 NLP 训练更低廉简便 AI与大数据 图3张

对此,Cerebras 表示,这是 NLP 模型训练中最痛苦的准备工作之一,加上只有极少数企业或组织拥有开发 NLP 模型所必要的资源和专业知识,这使得许多希望运用人工智慧的的企业来说,NLP 模型的训练变得太昂贵、太复杂,而且太耗时间,甚至未来是否成功都还不一定。因此,如果单晶片就能够支援 20 亿个参数,则训练 NLP 模型之际,就代表着不需要使用大量的 GPU 来分散工作量。这架构不但可以为厂商节省数千个 GPU 的训练成本和相关的硬件的扩展要求,同时这也使厂商不必经历切分模型,并将其工作负载分配给数千个 GPU 繁杂准备工作的痛苦。因此,评论一个 NLP 模型的好坏,并非仅靠参数多寡来决定。

Cerebras 进一步强调,相较于 NLP 模型能在晶圆级晶片上运作,Cerebras 更希望借此建构的模型更加 “聪明”。Cerebras 在利用了权重分流技术之后,使得计算和记忆体的占用量分离,并允许将记忆体扩展到足以存储 人工智慧工作量中增加的任何数量的参数上。而透过了这项突破,建置模型的时间从几个月,到当前的几分钟就能完成。甚至,在有架构切换的情需求下,只需要按几个按键就可以完成切换,这使得 NLP 模型的开发变得更加简单。

(首图来源:Cerebras)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。