基于Local SGD的部分同步通信策略

魏业鸣; 郑美光

doi:10.19734/j.issn.1001-3695.2023.04.0160

摘要

Local SGD训练方法用于分布式机器学习以缓解通信瓶颈，但其本地多轮迭代特性使异构集群节点计算时间差距增大，带来较大同步时延与参数陈旧问题。针对上述问题，基于Local SGD方法提出了一种动态部分同步通信策略(LPSP),该方法利用两层决策充分发挥Local SGD本地迭代优势。在节点每轮迭代计算结束后，基于本地训练情况判断通信可能性，并在全局划分同步集合以最小化同步等待时延，减少Local SGD通信开销并有效控制straggler负面影响。实验表明LPSP可以在不损失训练精确度的情况下实现最高0.75～1.26倍的加速，此外，最高还有5.14%的精确度提升，可以有效加速训练收敛。

出版日期2023
单位中南大学

全文

访问全文

收藏分享被引浏览

更新时间：2024-03-19 05:55

基于Local SGD的部分同步通信策略

摘要

全文

产品服务

站内浏览

服务支持

联系方式

科研之友