FleetX
ps1

分布式训练概述

  • 整体介绍与内容概览

如何设计分布式训练的搭建方案

  • 公有云配置
  • K8S部署
  • 安装Paddle与FleetX

前置基础配置

  • 优化算法

配置分布式训练

  • Collective训练
    • 1. 静态图分布式训练快速开始
    • 2. 性能基准
    • 3. 设计思想综述
    • 4. 性能优化
    • 5. 超大Batch训练
    • 6. 模型并行
    • 7. 流水线并行
    • 8. 二次开发
    • 9. 整体示例
  • ParameterServer训练

高阶内容

  • 大规模蒸馏
  • 自监督训练
  • 弹性训练
  • FleetX扩展工具包

分布式训练FAQ

  • 用户FAQ
FleetX
  • »
  • Collective训练
  • Edit on GitHub

Collective训练¶

Collective多卡分布式训练¶

  • 1. 静态图分布式训练快速开始
    • 1.1. 版本要求
    • 1.2. 模型描述
    • 1.3. 单机单卡训练
    • 1.4. 单机多卡训练
  • 2. 性能基准
  • 3. 设计思想综述
  • 4. 性能优化
    • 4.1. OP融合(计算,通信)
    • 4.2. 通信重叠
    • 4.3. 通信拓扑优化
    • 4.4. 通信频率优化
    • 4.5. 自动混合精度
    • 4.6. 减少显(内)存直接申请释放
    • 4.7. NV Dali Reader
    • 4.8. 其他(调节资源的配比、增大bs等)
  • 5. 超大Batch训练
    • 5.1. Forward Recomputation Backpropagation
    • 5.2. Gradient Merge
    • 5.3. 使用LARS / LAMB 优化分布式超大batch 训练
  • 6. 模型并行
    • 6.1. PLSC
    • 6.2. 使用Sharding 训练超大模型
  • 7. 流水线并行
    • 7.1. 简介
    • 7.2. 原理介绍
    • 7.3. 功能效果
    • 7.4. 使用方法
    • 7.5. 注意事项
  • 8. 二次开发
  • 9. 整体示例
Next Previous

© Copyright 2020, PaddlePaddle. Revision 9b98cf17.

Built with Sphinx using a theme provided by Read the Docs.