微软研究人员推出了名为ZeRO++的新体系,用于优化练习大型AI模型,以应对高数据传输开支和有限带宽的难题。
ZeRO++ 建立在现有的 ZeRO 优化的基础上,并供给增强的通讯战略,以进步练习功率,削减练习时刻和本钱。
像Turing-NLG、ChatGPT和GPT-4这样的大型模型的练习需求跨多个GPU设备占用很多内存和核算资源。DeepSpeed开发的ZeRO++引入了通讯优化战略,以战胜在每个GPU上批量巨细较小时或在低带宽集群上进行练习时ZeRO的约束。
ZeRO优化系列包含ZeRO-Inference,它运用GPU的团体内存和核算才能,将模型状况切割在多个GPU之间。但是,在练习进程中,ZeRO可能会发生较高的通讯开支。ZeRO++经过整合三组通讯优化来处理这个问题:量化权重通讯(qwZ)、分层权重切割(hpZ)和量化梯度通讯(qgZ)。
为了削减参数通讯量,ZeRO++对权重进行量化,运用根据块的量化方法来坚持练习精度。这种优化的量化进程比根本量化更快更精确。为了在反向传达进程中尽量削减通讯开支,ZeRO++经过在每台机器上坚持完好的模型副本,以 GPU 内存交换通讯。梯度通讯方面,ZeRO++引入了一种新的量化梯度通讯范式 qgZ,能够削减跨节点的流量和推迟。
这些通讯优化大大削减了通讯量。与ZeRO比较,ZeRO++完成了削减高达4倍的通讯量,进步了练习吞吐量和功率。当在每个GPU上运用小批量巨细时,在高带宽集群中,ZeRO++比较ZeRO-3的吞吐量进步了28%至36%。在低带宽集群中,与ZeRO-3比较,ZeRO++完成了均匀2倍的加速,使得大模型练习在更多品种的集群上更为可行。
ZeRO++不只限于练习场景,还可应用于对话模型中运用的人类反应强化学习(RLHF)练习。经过将ZeRO++与DeepSpeed-Chat集成,RLHF练习能够获得更好的生成和练习吞吐量,生成吞吐量进步了高达2.25倍,练习吞吐量进步了1.26倍,超过了ZeRO。
DeepSpeed现已发布了ZeRO++,以使大型模型的练习在AI社区愈加高效和可拜访。该体系旨在加速练习速度,削减通讯开支,并完成更大的批量巨细,然后节省时刻和资源。研究人员和实践者能够运用ZeRO++更有效地练习像ChatGPT这样的模型,并在AI范畴探究新的可能性。
来历:站长之家