藉 CS-2 晶圆级晶片辅助,Cerebras 宣布人工智慧 NLP 训练更低廉简便

▼
以生产出世界上最大加速器晶片 CS-2 Wafer Scale Engine 闻名的公司 Cerebras 日前宣布,已经在利用该晶圆级晶片进行人工智慧训练,就是已经训练出在单晶片上全世界最大的自然语言处理(NLP)人工智慧模型,为公司的发展步出重要的一大里程。
根据国外媒体报道,CS-2 Wafer Scale Engine 晶圆级晶片,采用台积电 7 奈米制程技术,由一整块方形的晶圆刻蚀而成。它的大小数百倍于当前的主流晶片,具有 15KW 的功率,并且整合了 2.6 兆个电晶体,封装了 850,000 个核心和 40GB 记忆体。透过该晶片所建构的 NLP 模型,内建 20 亿个参数。
事实上,NLP 模型的开发是人工智慧中的一个相当重要领域。因为,利用 NLP 模型,可以训练人工智慧理解文字含义,并进行相应的动作。之前,OpenAI 所发展的 DALL.E 模型就是一个典型的 NLP 模型,这个模型可以将使用者的输入的文字资讯转化为图片输出。不过,达成这一模型的成功运作并不容易,NLP 模型的开发必须具有极高的算力成本和技术门槛。
实际上,如果只讨论数字,OpenAI 所发展的 DALL.E 模型具有 120 亿个参数,而 DeepMind 于 2021 年年底推出的 Gopher 模型则具有惊人 2,800 亿个参数。因此,Cerebras 开发 NLP 模型内建 20 亿个参数量,在产业竞争者的眼中似乎显得平凡无奇。不过,一旦去除惊人的参数量条件后,Cerebras 所开发的 NLP 模型则有一项巨大的突破值得关注,那就是降低了 NLP 模型的开发困难度。
报道强调,依照传统流程,开发 NLP 模型需要开发者将巨大的 NLP 模型切分若干个小模型,并将他们的工作量分散到成百上千个的图形处理单元上。因为这工作需要这么多的图形处理单元,这就形成了高昂的成本门槛。另外,将工作量分散的处理,也让工程师们的工作异常困难。原因是每个神经网络、每个 GPU 的规格、以及将他们连接在一起的网络都是独一无二的,并且不能跨系统移植。这使得工程师在一开始时就必须要把相关的结构思考清楚,这过程就必须耗费几个月的时间才能完成。
对此,Cerebras 表示,这是 NLP 模型训练中最痛苦的准备工作之一,加上只有极少数企业或组织拥有开发 NLP 模型所必要的资源和专业知识,这使得许多希望运用人工智慧的的企业来说,NLP 模型的训练变得太昂贵、太复杂,而且太耗时间,甚至未来是否成功都还不一定。因此,如果单晶片就能够支援 20 亿个参数,则训练 NLP 模型之际,就代表着不需要使用大量的 GPU 来分散工作量。这架构不但可以为厂商节省数千个 GPU 的训练成本和相关的硬件的扩展要求,同时这也使厂商不必经历切分模型,并将其工作负载分配给数千个 GPU 繁杂准备工作的痛苦。因此,评论一个 NLP 模型的好坏,并非仅靠参数多寡来决定。
Cerebras 进一步强调,相较于 NLP 模型能在晶圆级晶片上运作,Cerebras 更希望借此建构的模型更加 “聪明”。Cerebras 在利用了权重分流技术之后,使得计算和记忆体的占用量分离,并允许将记忆体扩展到足以存储 人工智慧工作量中增加的任何数量的参数上。而透过了这项突破,建置模型的时间从几个月,到当前的几分钟就能完成。甚至,在有架构切换的情需求下,只需要按几个按键就可以完成切换,这使得 NLP 模型的开发变得更加简单。
(首图来源:Cerebras)
▼

特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。