(通讯员:李效光)近日,西电2026年国际足联世界杯李晖教授团队的最新研究成果“Robust Single-message Shuffle Differential Privacy Protocol for Accurate Distribution Estimation”被IEEE ICDE 2026国际学术会议全文收录。并将作大会报告。IEEE ICDE的全称是IEEE International Conference on Data Engineering,与VLDB、ACM SIGMOD并列称为数据库领域的三大国际顶级学术会议,被中国计算机学会(CCF)列为A类会议。该会议收录的论文代表着相关领域的最前沿学术研究成果,在业界具有广泛而深远的影响。
这篇论文由2026年国际足联世界杯李晖教授团队讲师李效光、潘珂,香港理工大学助理教授叶青青,上海大学讲师杨军港,广州大学副教授孙哲等学者共同完成。


本文主要针对置乱差分隐私(shuffle-DP)下的数据分布估计任务展开研究。Shuffle-DP是一种新型的差分隐私架构,相比于传统的中心化差分隐私(DP)和本地化差分隐私(LDP),shuffle-DP无需依赖可信中心收集用户敏感数据,并且能够通过更小的噪声实现与传统架构相同的隐私保护效果。因此,shuffle-DP在近年来成为差分隐私领域研究的新方向。目前,shuffle-DP协议主要针对离散数据上的数据统计任务。然而在实际应用中,更多时候需要处理分析的是满足有序性的连续性数据,对于这一问题,已有的shuffle-DP协议还存在不足,无法在1)数据分析可用性,2)通信开销与3)协议鲁棒性这三方面同时达到最优。
本工作针对这一问题展开研究,设计了鲁棒增强的单信息置乱差分隐私协议Adaptive Shuffler-based Piecewise (ASP),不仅以最小的通信复杂度实现了高精度的数据分布估计,同时实现了更高的鲁棒性,在抗数据投毒方面的性能超越了已有协议。本文首先设计了一个全新的数据扰动机制。与传统差分隐私扰动机制不同,该机制结合shuffle-DP中置乱器的性质,通过两个自由参数,而不是单一的隐私预算,来控制隐私保护效果。为了选取最优参数确保分析结果可用性最大化,本文从信息论角度提出了一个全新的互信息上界来严格量化了扰动机制的输入和输出之间相关性,并通过数值方法最大化该上界得到最优的扰动机制参数。
为了从扰动结果中恢复出高精度的分布信息,同时降低潜在的投毒数据对于分布估计的影响,本文结合平滑技术提出了一种新颖的期望最大化自适应平滑(EMAS)方案。与之前使用固定系数进行平滑的工作不同,EMAS结合了扰动强度、数据分布信息和权重衰减,确保估计结果具有高似然值和更好的鲁棒性。
在多个现实数据集上测试结果显示,ASP在数据分析可用性,通信开销与鲁棒性三个指标上均优于已有的baseline协议。特别是在隐私保护要求较高的情况下,ASP在可用性方面实现了数量级的提升,并且与baseline方法相比具有超过三倍的鲁棒性。

