作为21世纪最重要的资产,数据在全社会越来越受到关注。 数据共享是发挥数据价值的重要手段。 但是数据共享和隐私保护之间似乎存在着自然的矛盾,如何同时实现数据共享和隐私保护是一个挑战。 幸运的是,随着计算机技术和密码学的发展,现在通过一系列技术的融合已经可以实现这一主张。 本文分享——差分隐私,这是最常见的隐私计算技术之一。
差分隐私的概念
关于差分隐私的概念,维基百科解释说,差分隐私(英文: differential privacy )是数据共享手段,只共享可以记述数据库的统计特征,可以实现不向个人公开具体信息背后的直观想法是,如果随机修改数据库中的一条记录的影响足够小,则所需的统计特征不能用于颠倒一条记录的内容。 这个特性可以用来保护隐私。
差异隐私的核心是通过向数据库中添加噪声,使查询结果成为随机变量。 查询请求的数据越少,就越需要添加噪声以确保同样程度的隐私。
差分隐私的应用
在GoodData区块链中,差异隐私应用于GoodData机器学习(ML ) SDK,以保护数据所有者的数据隐私。 数据所有者共享的原始数据受差异隐私的加密保护,可确保数据所有者是拥有原始数据的唯一节点。
假设你有一个统计学历的数据库。 在该数据库中,10人有小学学历,20人有中学学历,30人有大学学历,各学历的人数结果可以查询。 现在在数据库里输入了另一个样本,再次检索后,检索结果是31人的大学学历。 那么,可以推测新输入样本的学历是大学学历。 在此示例中,我们发现,即使无法具体查询单个示例的信息,统计数据库中也可能会泄漏特定示例的信息。
差分隐私主要是解决这些情况造成的数据泄露问题。 在这个例子中应用差分隐私技术,通过在这个学历数据库中添加拉普拉斯噪声,用户查询的大学学历为29.5人左右,输入一个大学学历的样本也能得到29.5人左右的结果。 两次查询的结果非常接近,因此新输入的示例信息也会被隐藏。
以上从非技术的角度对差分隐私进行了说明并给出了示例,以使普通用户更加明确隐私计算的技术原理。 隐私计算是一个复杂而严密的过程,实现数据共享和隐私保护还需要很多其他技术的支持与合作。 这些技术也将在下一篇文章中介绍。 您可以订阅我们的帐户,并立即收到相关推送。