大模型如何准确理解和反映人类基本价值观成为一个核心问题。本报告探讨在宏观层面对基本价值观进行对齐的路径,以及在微观层面通过神经元级控制实现精确对齐的可行性和技术方法。讲者发现精确的价值观对齐和神经元控制不仅提升了模型的行为一致性,还增强了模型的可解释性和安全性。
大模型安全
王希廷