对齐技术主要解决让大模型在后训练阶段满足有用、诚实、无害的要求。基于人类反馈的强化学习RLHF被证明是一种有效的对齐语言模型的方法。在本讲中,我将介绍RLHF方法的挑战,并阐述在安全对齐、价值对齐、超级对齐上的一些新方法,新思考。
大模型
杨耀东