通用智能的“智能-目标”正交性论题及“工具性目标收敛”猜想均要求通用智能的发展要智善结合。目前大模型在能力(智)方面发展迅速,但在更具挑战性的伦理安全、价值对齐等善方面的研究相对滞后。本报告将浅析大模型价值对齐存在的社会挑战和技术挑战,简述目前价值对齐的主要研究思路和议程,并以大模型存在的歧视偏见(伦理风险)为例讨论价值对齐的评测问题。
大模型
熊德意