6.2. 使用Sharding 训练超大模型

  • TBA