本文旨在总结和梳理大模型开发过程中的经验性理论,从模型缩放(scaling)和模型演化(evolution)两个方面介绍大模型的开发原理。从模型缩放的角度,我们将介绍大模型的缩放法则和其中的涌现能力,以及如何合理利用缩放法则帮助模型由小到大的开发。从模型演化的角度,我们将介绍大规模预训练、指令微调、基于人类反馈的强化学习这一阶段性演化路线以及其中涉及的关键要素,包括如何配比预训练数据、模型大小和算力以达到最优训练效率,如何进行高效且有效的指令微调,如何与人类对齐等。
[大模型, 开发原理]
何俊贤
问答