【图解】GPU太难买,又想导入AI怎么办?软件技术助攻AI商机,三招优化GPU!

随着今年生成式AI爆发,企业纷纷想投入自家的机密资料训练“专属大脑”,但GPU已经是高价稀缺资源,即便是满手捧钱的大型企业,也难以支应庞大的GPU需求。该怎么办?

GPU现在比毒品还难买到,好像所有人、还有他们的的狗都在买GPU。”今年5月《华尔街日报》举办的执行长高峰会上,伊隆.马斯克(Elon Musk)用一贯的强烈风格形容GPU短缺的现况。

他不是唯一感到担忧的人,协助企业建立大型语言模型的Lamini执行长雪伦.周(Sharon Zhou)用的形容词是“和疫情期间疯抢的卫生纸一样”,并表示现在人脉变得异常重要,因为即使是全球最强大的科技创业者,也难以确保自己能获得充足的GPU。

所谓“最强大的科技创业者”,也包括借由ChatGPT掀起全球生成式AI热潮的OpenAI创办人山姆.奥特曼 (Sam Altman),他在5月于美国参议院作证时坦言:“我们的GPU非常短缺,现阶段使用ChatGPT的人越少越好。”甚至因此推延部分功能的开发计划。

极力发展生成式AI应用的微软,也在年报中首次将GPU短缺列为投资风险因素之一,甚至决定“反守为攻”。《The Information》 在报道中指出,面对AI晶片短缺、成本高昂的市况,微软从2019年就启动自研AI晶片专案“雅典娜Athena”,希望减缓成本压力和对NVIDIA的依赖。

为什么大家都在争夺GPU资源?且如果这些最大型的科技公司都抢不到,一般企业还有什么方法可以降低对GPU的需求?

AI运算的“心脏”,GPU到底有多缺?

GPU(图形处理器)是手机、笔电到服务器最重要的心脏,担负起运算处理的任务。过去5年却一直处于短缺状况,加密货币“挖矿”庞大需求和2020年疫情导致的供应链危机,都让GPU供不应求,从2022年底开始的生成式AI,更让需求如黑洞般越卷越大、深不见底。

AI商机

生成式AI需要的运算力更大、训练用参数更多。

图/ Unsplash

从2022年底开始的这波生成式AI热潮,对GPU需求量到底有多大?

目前还没有第三方机构进行全面性解析,不过匿名网站《GPU Utils》在7月发布了一篇文章:Nvidia H100 GPUs: Supply and Demand,揭露多家大型企业需求量,和NVIDIA高阶GPU H100的供应现况,在科技圈内迅速爆红,不只出现在《纽约时报》等媒体头版上,连OpenAI的联合创办人兼科学家安德烈.卡帕斯(Andrej Karpathy)也在自己的推特上分享、多家资产管理公司和AI公司创办人指出,文章中除了“谁拥有多少GPU”部分有待商榷外,其他数字都很精准掌握现况。

文章中估算,如果只是微调LLM模型,只需要数十张到数百张的NVIDIA H100,但若要“训练”出一个LLM模型,则需要千张以上。换算下来,粗估全球企业对H100 GPU需求量落在43.2万张,如果以每张3.5万美元的售价来算,对于GPU总需求耗资近150亿美元,这还不包括字节跳动、百度、腾讯等内地公司受到经济制裁而无法购买的需求量。

《GPU Utils》推估H100需求用量:
◆ OpenAI:5万张
◆ Meta:2.5到10万张。
◆ 微软Azure、Google Cloud、AWS、Oracle等公有云商:每家3万张
◆ 私有云(Private Cloud)运算提供商如Lambda和CoreWeave等:共需要约10万张

市场面临如此巨量的需求,加上NVIDIA在高阶AI GPU市场几乎是独霸的地位,短期内要接决解决GPU供应的短期限制变得困难。TrendForce资深分析师龚明德指出,上游公司台积电、三星、美光、SK海力士都在积极扩厂,需要6到9个月──也就是要到2024下半年,才有望开始减缓GPU供应链问题,但能否补上不断增长的需求缺口,仍有待观察。

NVIDIA-COMPUTEX-2023-Keynote-PR-1.jpg

NVIDIA几乎独霸AI GPU领域,需要支应来自全球的庞大需求。

图/ NVIDIA

买不到GPU又想导入AI?企业寻求软件解方支援

不只科技巨头面临困境,一般企业也在着急寻找解方。龚明德观察到,生成式AI让大量业者想建构自家的LLM(大型语言模型)的基础,无论是想建立可在公司系统运行的小型模型,还是能够想要能够自动思考的“推论”功能,需求都在短时间内往上挤。

中国台湾的需求爆发可以从一家新创公司“满拓科技”的业绩中看出端倪,满拓是一家专精于AI模型缩小技术的公司,当AI模型被缩小,就可以大幅降低企业所需的GPU用量。过去满拓只有10几家客户,到今年需求爆发,超过50家企业来主动接洽解决方案,远超出可以负荷的量,“我们甚至跟小公司说可以再等等,因为现在生成式AI刚发展起来,成本太高了,只有大公司才能有试错的空间。”满拓科技创办人吴昕益说。

其中一家积极切入的大公司,是中国台湾市值排名前20大的玉山金控,科技长张智星就坦言,GPU的缺货和涨价导致成本提升,“但还是得做”,因为生成式AI能提升工作效率和决策速度,而玉山金坐拥庞大数据,为了保障机密资料不外泄,以及活用资料的专业性,必须自己训练模型。例如能够推荐适合的金融产品的AI、回答公司专属问题的Chatbot、能够辨识文件内容转为数据的模型,都会用到第三方业者难以掌握的资料量。

企业有需求,但GPU处于短缺状态,加上过高的训练成本,企业开始转向靠软件技术来优化GPU运算能力、将闲置资源进行更有效率的分配运用。

优化使用效率:把难以拆分的GPU资源虚拟化,变成能自由调度、拆分或重组的虚拟GPU,就可以按照工作负载自由分配用量。

共享资源:订阅公有云/私有云公司的服务,依照公司需求量,和其他企业共享、调度大型资料中心资源。
缩小模型:把庞大的AI模型缩小成企业能负荷的小模型,因应专门需求使用。

企业AI怎么减少GPU?

“现在企业很多是捧着钱在观望或测试,最怕花下去了结果效率很差。”吴昕益分享观察,企业不只单纯要求导入,还希望效果快又好,一旦做了,就绝不能落后对手。当硬件资源有限,能靠软件力榨出多少AI能量,将会是短期内AI大战的关键武力。

延伸阅读:VMware携辉达、英特尔助攻企业级AI,拼“效率”打赢GPU资源战

责任编辑:林美欣

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。