随着移动互联网应用的不断深入,产生了大量个体数据,采集分布在不同终端上的数据进行聚类可以发现人群行为模式,支撑应用服务的深入开展.然而这些数据往往包含个体敏感信息,在缺少可信数据采集者的情况下,直接采集数据进行聚类存在泄露个体数据隐私的风险.近年来,本地化差分隐私(Local Differential Privacy,LDP)以其严谨的数学理论基础得到隐私保护领域研究者的持续关注.现有基于LDP的聚类研究多数采用基于划分的聚类方法,存在仅适用凸状分布数据以及聚类质量损失较大问题.针对该问题,聚焦网格聚类,提出基于LDP的隐私保护网格聚类方法.首先,设计网格划分评估指标,通过调节网格划分粒度调控网格密度估算误差和簇边缘信息损失,指导网格结构选取;然后,在服务器与终端间构建循环反馈机制,利用数据分布信息迭代优化扰动粒度,降低差分噪声注入量,在保护终端数据隐私安全的前提下,提升网格密度估算精度;最后,在服务器端,提出基于网格结构的自适应网格聚合方法,提升隐私保护聚类质量.理论分析和实验结果表明,所提方法在兼顾各终端个体数据隐私的同时,对不同分布数据有良好的聚类效果.
[隐私保护, 本地化差分隐私, 网格聚类, 网格划分评估指标, 循环反馈机制]
[张东月, 倪巍伟, 张森, 付楠, 候立贺]
随着移动互联网应用的不断深入,产生了大量个体数据,采集分布在不同终端上的数据进行聚类可以发现人群行为模式,支撑应用服务的深入开展.然而这些数据往往包含个体敏感信息,在缺少可信数据采集者的情况下,直接采集数据进行聚类存在泄露个体数据隐私的风险.近年来,本地化差分隐私(Local Differential Privacy,LDP)以其严谨的数学理论基础得到隐私保护领域研究者的持续关注.现有基于LDP的聚类研究多数采用基于划分的聚类方法,存在仅适用凸状分布数据以及聚类质量损失较大问题.针对该问题,聚焦网格聚类,提出基于LDP的隐私保护网格聚类方法.首先,设计网格划分评估指标,通过调节网格划分粒度调控网格密度估算误差和簇边缘信息损失,指导网格结构选取;然后,在服务器与终端间构建循环反馈机制,利用数据分布信息迭代优化扰动粒度,降低差分噪声注入量,在保护终端数据隐私安全的前提下,提升网格密度估算精度;最后,在服务器端,提出基于网格结构的自适应网格聚合方法,提升隐私保护聚类质量.理论分析和实验结果表明,所提方法在兼顾各终端个体数据隐私的同时,对不同分布数据有良好的聚类效果.
[隐私保护, 本地化差分隐私, 网格聚类, 网格划分评估指标, 循环反馈机制]
[张东月, 倪巍伟, 张森, 付楠, 候立贺]
132会员权益
随着移动互联网应用的不断深入,产生了大量个体数据,采集分布在不同终端上的数据进行聚类可以发现人群行为模式,支撑应用服务的深入开展.然而这些数据往往包含个体敏感信息,在缺少可信数据采集者的情况下,直接采集数据进行聚类存在泄露个体数据隐私的风险.近年来,本地化差分隐私(Local Differential Privacy,LDP)以其严谨的数学理论基础得到隐私保护领域研究者的持续关注.现有基于LDP的聚类研究多数采用基于划分的聚类方法,存在仅适用凸状分布数据以及聚类质量损失较大问题.针对该问题,聚焦网格聚类,提出基于LDP的隐私保护网格聚类方法.首先,设计网格划分评估指标,通过调节网格划分粒度调控网格密度估算误差和簇边缘信息损失,指导网格结构选取;然后,在服务器与终端间构建循环反馈机制,利用数据分布信息迭代优化扰动粒度,降低差分噪声注入量,在保护终端数据隐私安全的前提下,提升网格密度估算精度;最后,在服务器端,提出基于网格结构的自适应网格聚合方法,提升隐私保护聚类质量.理论分析和实验结果表明,所提方法在兼顾各终端个体数据隐私的同时,对不同分布数据有良好的聚类效果.
显示全部共0条评论
评论
共0条评论