微软与 Nvidia 合作训练最大型语言模型

微软与 Nvidia 合作训练最大型语言模型

语言模型是科技公司争相开发的技术之一,最近微软Nvidia 宣布合作训练至今最强解码语言模型,比最大型 GPT-3 参数多 3 倍。

微软Nvidia 表示,名为 MT-NLG 的单体 Transformer 语言模型共有 5,300 亿参数,以 NvidiaDGX SuperPOD 为基础的 Selene 超级电脑混合精准度训练。训练运算极庞大,这台超级电脑拥有几千个 GPU 平行运算,再结合 Megatron-LM 和 PyTorch 深度学习最佳化函式库 DeepSpeed 提升效率,才在合理时间内训练出这规模的模型。

微软与 Nvidia 合作训练最大型语言模型 AI与大数据 图2张

(Source:微软

由于 MT-NLG 拥有极多参数,不同自然语言任务都有相当优秀的表现,且除了自然语言,也可做基本数学运算,不只使用记忆算数,未来发展令人期待。微软 Turing 团队主管 Ali Alvi 和 Nvidia 产品管理及行销高级主管 Paresh Kharya 表示,期待 MT-NLG 形塑未来产品,并鼓励开发者社群探索自然语言处理(NLP)的极限。

  • Microsoft and Nvidia team up to train one of the world’s largest language models

(本文由 Unwire Pro 授权转载;首图来源:shutterstock)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。