训练诸如GPT-3这样的超大规模模型需要模型并行、流水并行等现有通用深度学习框架TensorFlow和PyTorch官方版本尚不支持的功能,人们不得不转而寻求各种定制化方案。一个很自然的问题是,是否有可能令通用深度学习框架灵活而高效的支持这些大规模预训练模型所需要的这些技术?OneFlow作为完全从头全新开发的深度学习框架提供了一个答案。借助“一致性视角”的概念,OneFlow可以帮助开发者像单机编程一样方便地开发分布式深度学习训练程序。在这次交流中,我将介绍“一致性视角”背后的核心思想以及新的编程接口,并与定制方案InsightFace, HugeCTR和Megatron-LM进行对比。
[分布式学习, 深度学习, 大规模预训练]
袁进辉