FleetX
ps_doc
分布式训练概述
整体介绍与内容概览
如何设计分布式训练的搭建方案
1. 公有云配置
2. K8S部署
3. 安装Paddle与FleetX
前置基础配置
1. 优化算法
配置分布式训练
Collective训练
1. 静态图分布式训练快速开始
2. 性能基准
3. 设计思想综述
4. 性能优化
4.1. OP融合(计算,通信)
4.2. 通信重叠
4.3. 通信拓扑优化
4.4. 通信频率优化
4.5. 自动混合精度
4.6. 减少显(内)存直接申请释放
4.7. NV Dali Reader
4.8. 其他(调节资源的配比、增大bs等)
超大Batch训练
5. 模型并行
6. 流水线并行
7. 二次开发
8. 整体示例
ParameterServer训练
高阶内容
1. 大规模蒸馏
2. 自监督训练
3. 弹性训练
4. FleetX扩展工具包
分布式训练FAQ
1. 用户FAQ
FleetX
»
Collective训练
»
4. 性能优化
»
4.2. 通信重叠
Edit on GitHub
4.2. 通信重叠
¶
TBA