Nvidia 又发表最强 AI 超算联手 Hugging Face,黄仁勋开始收大模型税了

Nvidia 又发表最强 AI 超算联手 Hugging Face,黄仁勋开始收大模型税了

黄仁勋于 SIGGRAPH 2023 主题演讲表示 Nvidia 为降低生成式 AI 门槛非常努力。生成式 AI 是这次大会毋庸置疑的主角,黄仁勋透露软硬件及生态更新,总结就是尽力降低生成式 AI 门槛──让大模型更实用。

买越多省越多2.0

硬件方面,Nvidia推出GH200超级晶片更新,或称为HBM3E增强版,是世界第一款HBM3e处理器。由NVLink技术,互联Grace Hopper超级晶片平台提供1.2TB快速记忆体,HBM3e 记忆体比HBM3快50%,平台总共提供10TB/秒组合频宽,也就是说,记忆体容量增加3.5倍,频宽增加3倍,平台有一144个Arm Neoverse核心、8petaflops的AI性能和282GB最新HBM3e记忆体服务器,与台北电脑展公布的Nvidia MGX服务器完全相容。

资料中心硬件快速向加速计算转变,是黄仁勋一直强调的趋势。比起CPU,GPU能效有更大优势,黄仁勋举例同样1亿美元成本,比起x86架构CPU,GH200能提供超过20倍能效提升。于是又可听到黄仁勋名言:“The more you buy, the more you save.”买越多省越多,真是不忘初心。

Nvidia 又发表最强 AI 超算联手 Hugging Face,黄仁勋开始收大模型税了 AI与大数据 图2张

▲ 黄仁勋演讲PPT显示,2,500张GH200组成的资料中心比CPU高20倍能效。

除了资料中心还公布两套硬件,同样针对大模型。一款是桌面级RTX工作站,包括最多4个RTX 6000 Ada GPU,单桌面工作站提供高达5,828tflops的AI性能和192GB GPU记忆体。另一款是OVX服务器,有8个L40S GPU,每GPU搭配48GB记忆体,可提供超过1.45petaflops张量处理能力。

新RTX工作站执行8.6亿个token的GPT3-40B需15小时,OVX服务器只需7小时。OVX服务器比A100推理性能提高1.2倍,训练性能提高1.7倍,单精准度浮点(FP32)性能是A100近5倍。

Nvidia 又发表最强 AI 超算联手 Hugging Face,黄仁勋开始收大模型税了 AI与大数据 图3张

▲ L40S GPU。

硬件更新有阶段性,黄仁勋明白说:for everyone,Nvidia每个价格段都为潜在客户准备好产品。除了服务器和工作站,Nvidia还发表三款专业显卡:RTX 5000、 RTX 4500与RTX 4000,采Ada Lovelace架构,显存提升(RTX 4000有20GB GDDR6显存,RTX 4500为24GB,RTX 5000最高32GB ),是Nvidia显卡曾削弱的部分,现在显存对大模型无比重要。另使用第四代Tensor Core,AI训练性能比上一代快两倍,并扩展支援FP8数据格式。

硬件最终组成强大阵容,囊括企业级客户到个人使用者。但黄仁勋看来,想触及每个人,Nvidia还需要“软性工具”。

软硬兼施

距离黄仁勋推出DGX Cloud才短短几个月,降低使用者和开发者使用大模型门槛又有新动作。第一非常好猜,就是和Hugging Face合作。Hugging Face已和AMD、AWS等巨头紧密合作,大家都看中整合开放模型优势,Nvidia也不例外。

“点一下鼠标即可叫Nvidia AI运算”,黄仁勋说,几个月前发表的DGX Cloud和Hugging Face平台整合,用户可于自己电脑启动,然后扩展到工作站和资料中心。

二是Nvidia AI Workbench,开发人员可直接在PC和工作站创建、测试和客制预训练大模型,模型、框架和软件开发套件与资料库整合成统一开发人员工具包,AI Workbench直接调用Nvidia算力资源,且完整支援Nvidia硬件──之前工作站和服务器都支援AI Workbench终端测试微调。

Nvidia 又发表最强 AI 超算联手 Hugging Face,黄仁勋开始收大模型税了 AI与大数据 图4张

▲ 开发者原本分散各处的大模型开发工具与流程,现在Nvidia AI Workbench都可整合。

介面就是网站。截图可看到终端计算机是消费级4090行动版显卡。这简化大模型操作流程,只需一台电脑就够用。“每人都能做到”,黄仁勋说,某种意义讲像大模型民主化。

另一个降低生成式AI部署门槛的服务是名为AI Enterprise 4.0的企业软件平台,主要针对企业客户。AI Enterprise 4.0包括NeMo大模型云原生框架和集群管理软件,帮助企业客户管理从云端到资料中心再到边缘设备所有AI解决方案,整合至Google云端和微软Azure。

场景在哪里

大模型最近颇有争论的话题是,应用场景到底在哪里?

这对善于从第一性原理出发的老黄来说恐怕不是问题,一方面有硬件技术,一方面有软实力,Nvidia层次显然更高──不是找场景,而是打造生态。因Nvidia看来没什么“垂直场景”,一切都可用生成式AI介入,承载者是Omniverse。

元宇宙对黄仁勋不是过气名词,而是连接虚拟与物理世界,并大大开发生成式AI潜力的工具。虚拟与现实转换,Nvidia看中通用场景描述(Universal Scene Description,OpenUSD)的潜力。

黄仁勋把OpenUSD对虚拟世界的重要性与HTML之于2D网络相提并论。简单来说,可把OpenUSD理解成通用描述3D场景语言──过去需非常复杂流程和不同工具才能做到。有了通用语言,不同人就能基于同背景建构3D世界,也就是元宇宙。

Nvidia 又发表最强 AI 超算联手 Hugging Face,黄仁勋开始收大模型税了 AI与大数据 图5张

▲ 透过OpenUSD构建共同3D场景,尽管来自不同工具和平台。

显而易见,OpenUSD在Nvidia元宇宙愿景占重要地位,故Omniverse多重升级。

黄仁勋推出四个Omniverse Cloud API,方便开发人员无缝部署OpenUSD应用。最吸引人的是ChatUSD功能,顾名思义能用问答方式帮助开发者产生3D模型,现场示范为提出要求,ChatUSD就直接给你Python-USD程式码脚本,直接就能使用!

另外生成式AI技术的API名为DeepSearch,是大语言模型代理(LLM agent),可快速搜寻无标记资料库内容。另一方面,Omniverse本身大升级以支援OpenUSD,如少量程式码就能快速开发本机OpenUSD 应用及允许用户组建基于OpenUSD的大规模场景。

Nvidia看来,Omniverse因OpenUSD变强,能跨3D工具和应用虚拟这世界,代表生态搭建:既然大家都是用OpenUSD建构3D世界,那显然数位孪生互连操作可以此为基础达成。

故Nvidia元宇宙生态──被生成式AI和OpenUSD加持──更具规模,Adobe Firefly可为Omniverse的API提供给开发者,许多业界知名元宇宙和虚拟人开发者,Convai、Inworld AI和Wonder Dynamics都能够借助OpenUSD通用标准与Omniverse连结。

Nvidia 又发表最强 AI 超算联手 Hugging Face,黄仁勋开始收大模型税了 AI与大数据 图6张

Nvidia对元宇宙未来充满自信。波士顿动力使用Omniverse模拟机器人互动,更多工业自动化案例,Volvo、宾士和BMW都是Omniverse客户──实际投资建设高昂工厂前,可至Omniverse的虚拟世界检查和测试物理世界定律。

步入融合

生成式AI热度不退,Nvidia当然更有理由加柴添火,老黄是尽职尽责的商人,发表会说的最后一句话还“the more you buy, the more you save.”足见其不忘初心的商人本色。

想要硬件卖得好,股价再创新高,Nvidia不断反复改良产品,提升性能,打造更丰富的生成式AI产品阵容,另一方面还要降低大模型使用门槛:后者甚至只有Nvidia才能做到,因踩中绝佳方位:绘图处理。为了让机器文产图,人类花了几十年,最终Nvidia开发出显卡,现在事实证明,图形显示并行计算恰好适用生成式AI,而虚拟世界也需要更强大的图形技术和人工智慧帮助。

黄仁勋又举例:全球最大广告公司WPP艺术家透过Omniverse运用多种支援OpenUSD的工具,设计出比亚迪汽车数位孪生版──全球百余区行销活动都基于这些生成内容。五年前SIGGRAPH大会Nvidia发表支援光线关注的GPU,那时没人想得到,人工智慧、虚拟世界、加速计算、云端,会以如此迅猛的速度逐渐融合。

(本文由 品玩 授权转载;首图来源:NVIDIA)

延伸阅读:

  • 不满足只当“显卡一哥”,NVIDIA 推出 Perfusion 文生图模型
  • 3D 生态系标准化,苹果携手五大厂组 OpenUSD联盟
  • 辉达 GH200 登场,黄仁勋:AI 模型执行成本将大降

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。