高效训练 LLM,GaLore 登上 Hugging Face 整合 Transformers 程式库

▼
研究人员日前提出一种新的模型训练策略 GaLore(Gradient Low-Rank Projection),在大型语言模型高效训练方面向前迈出重要的一步,尤其可用消费级硬件,例如家用电脑的高阶显卡训练数十亿参数的模型,减少优化器状态下的记忆体占用,为无法取得高阶运算资源的研究人员开拓新视野。
GaLore 被提出后,目前开始与 Hugging Face 平台的 Transformers 程式库整合,以升级大型语言模型训练功效。
Hugging Face 近日部落格文章展示 Galore 整合 Transformers 程式库的完整运作范例,用在 imdb 资料组预训练 Mistral-7B 模型。GaLore 不久后将会纳入 BitsandBytes 程式库,BitsandBytes 则是 CUDA 自定义函数的轻量级封装。
日前发表的《GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection》论文显示,GaLore 在优化器状态下将记忆体使用量减少多达 65.5%,同时在 LLaMA 1B 和 7B 架构下使用最多 19.7B token 的 C4 资料组进行预训练,依然保持良好性能,及在 GLUE 任务上微调 RoBERTa 的效率和性能。与 BF16 基准相比,8 位元的 GaLore 进一步减少优化器记忆体多达 82.5%,总训练记忆体则减少 63.3%。
透过 GaLore 还能透过家用电脑的高阶显示卡(例如 NVIDIA RTX 4090)训练大型语言模型,研究人员已证明在具有 24GB 记忆体的 GPU 预训练 70 亿参数模型是可行的。
随着大型语言模型的规模越来越大,若对所有模型参数进行训练,成本势必非常高昂,研究人员设法减少记忆体使用量,于是 GaLore 这套方法获得高度期待。
- GaLore: Advancing Large Model Training on Consumer-grade Hardware
(首图来源:pixabay)
延伸阅读:
- 高阶显卡也能训练模型,AI 研究人员提出“GaLore”减少记忆体用量
▼

特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。