Efficient Large-Scale Language Model Training on GPU ... preview / efficient-large-scale-language-model-training-on-gpu.pdf / PDF4PRO