AI 运算受限电力？微软工程师：同州部署超过 10 万片 H100，电网就会崩溃

AI与大数据 4小时前 0

▼

随着 AI 运算要求越来越快，能源也成为值得担忧的议题。虽然 Open AI 的GPT-5 尚未发布，但目前有消息称 OpenAI 似乎已着手训练 GPT-6，而外传 7 月发布 Llama 3 的 Meta，也有望提早至 6 月推出。

AI 新创 OpenPipe 联合创办人 Kyle Corbitt 在社群平台 X 上分享，GPT-5 有望 4 月下旬发布，Meta Llama 3 则是 6 月发布，以打败另一间法国小新创 Mistral。

GPT-5 AND LLAMA 3 TIMELINE LEAKS

Highest confidence rumors I’ve heard are late April for GPT-5 and early June for Llama 3 (expected to beat Mistral at all sizes).

Anyone hear something different? Reply in thread to confirm.

— Kyle Corbitt (@corbtt) March 25, 2024

接着 Corbitt 发布另篇文章，表示与微软工程师讨论有关 GPT-6 的训练集群项目及在新版本中遇到的问题。该位工程师抱怨对不同区域的 GPU 之间无限级别链接（infiniband-class links），实在非常痛苦。

Corbitt 续问“为何不将训练集群集中同一个区域？”对方回应有尝试过，但无法在同一州（a single state）下放置超过 10 万片 H100 GPU，否则会导致电网瘫痪。

Spoke to a Microsoft engineer on the GPT-6 training cluster project. He kvetched about the pain they’re having provisioning infiniband-class links between GPUs in different regions.

Me: “why not just colocate the cluster in one region?”
Him: “Oh yeah we tried that first. We…

— Kyle Corbitt (@corbtt) March 25, 2024

目前不确定微软工程师所提到的 a single state 是指同一州，还是指同一个状态，但据市调机构 Factorial Funds报告显示，OpenAI 的文字生成影片模型 Sora 一个月内使用 4,200 至 10,500 片 H100 GPU，其中单个 H100 能在约12 分钟内生成一个一分钟影片，或者每小时约 5 个一分钟影片。而在 Sora 高峰时期需要 72 万个 H100 GPU。换言之，Sora 高峰时期如果训练集群摆放在同个位置，可能是七个州的电网崩溃。

Corbitt 指出，不确定新 GPT 版本叫 GPT-5、GPT-4.5 还是带企业扩展的 GPT-4J。但不可否认的是，越强大的AI 出来，开发这些模型的成本也就越来越高，面临的环境问题也越大。

Open AI 刚刚免费发布 GPT-4 Turbo，目前已知 GPT-5 计划今年稍晚时发布。

GPT-5 and Llama 3 might be coming a lot sooner than expected. GPT-6 in the works!
OpenAI Sora video tool large-scale deployment uses 720,000 NVIDIA H100 GPUs worth $21.6 billion

（首图来源：shutterstock）

延伸阅读：

类似皮肤！史丹佛大学开发柔性、可拉伸 IC，成功驱动 Micro LED 萤幕
高通、英特尔、Google 组队打 Nvidia！拟靠 oneAPI 推翻 CUDA 势力

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

延伸阅读：

相关文章