当前,GPU云(GPU Clouds)已经成为用户使用GPU计算的一个流行的解决方案。为了保护用户隐私和应用安全,许多云安全架构采用虚拟机隔离方法来防护不可信的hypervisor对租户虚拟机潜在的攻击,以确保用户应用程序的安全执行环境。本文中,我们使用深度神经网络作为GPU云租户虚拟机应用,研究了GPU芯片的硬件故障对云的可信执行环境安全的影响。我们发现,通过软件调控芯片动态电压和频率(Dynamic Voltage and Frequency Scaling, DVFS),可以产生GPU的瞬态硬件故障,这些故障可能绕过目前的安全措施导致计算错误,但由于DNN模型具有一定的鲁棒性和容错性,随机的故障对DNN的推理准确性影响有限。为了充分利用这些瞬态硬件故障,我们提出了闪电(Lightning)攻击,通过基于梯度下降的模型搜索算法寻找最佳故障注入点,并提出基于遗传算法的最佳故障注入参数搜索策略提高故障注入效率,完成在DNN模型上的高精度故障注入。我们在三种商用GPU芯片和四种DNN模型上的实验表明,该攻击可以使模型的推理精度降低高达78.3%。并且可达到67.9%的成功率进行模型的定向攻击。这表明,GPU云需要更加安全的隔离架构以应对瞬态硬件故障带来的潜在安全挑战。
安全计算系统
吕勇强