二、隐私计算技术流派
隐私计算技术是在保护数据本身不对外泄露的前提下,多个参与方通过协同对自有数据处理、联合建模运算、分析输出结果、挖掘数据价值的一类信息技术。作为跨学科技术,隐私计算涉及密码学、机器学习、神经网络、信息科学,同时可与人工智能、云计算、区块链分布式网络等前沿技术融合应用,为数据保护和价值融合提供技术可行性。
从技术实现原理来看,隐私计算有两种分类方式。
第一种是将隐私计算技术分为两个方向——可信硬件和密码学。可信硬件指可信执行环境,主要依靠硬件来解决隐私保护问题。密码学以多方计算、联邦学习为代表,主要通过数学方法来解决隐私保护问题。
第二种是将隐私计算分为三个方向。由于联邦学习是密码学、分布式计算、机器学习三个学科交叉的技术,目前更常见的是三分类法,即分为密码学、可信硬件和联邦学习三个流派。以密码学为核心技术的隐私计算以多方安全计算、同态加密为代表;可信硬件以可信执行环境(TEE)为主导;“联邦学习类”泛指国内外衍生出的联邦计算、共享学习、知识联邦等一系列名词,是指多个参与方联合数据源、共同建模、提升模型性能和输出结果准确性的分布式机器学习。
本书按照第二种分类方法的3个流派来进行介绍。
(一)密码学
1.多方安全计算
多方安全计算(Secure Muti-Party Computation,MPC)理论,是1982年清华大学教授姚期智为解决一组互不信任的参与方在保护隐私信息以及没有可信第三方的前提下的协同计算问题而提出的理论框架。后经Oded Goldreich、Shafi Goldwasser等学者的众多原始创新工作,多方安全计算逐渐发展为现代密码学的一个重要分支。多方安全计算能够同时确保输入的隐私性和计算的正确性,在没有可信第三方的前提下通过数学理论保证参与计算的各方输入信息不暴露,而且同时能够获得准确的运算结果。
多方安全计算通常借助多种底层密码框架完成,主要包括不经意传输(Oblivious Transfer,OT),混淆电路(Garbled Circuit,GC),秘密共享(Secret Sharing,SS)和同态加密(Homomorphic Encryption HE)等。
不经意传输是指数据传输方发出多条信息,而接收方只获取其中一条。由于传输方不确定最终到达的信息是哪一条,接收方也无法得知未获取的其他信息,从而双方的数据都处于隐私状态。
混淆电路是最接近“百万富翁”解决方式的思路。多方参与者利用计算机编程将输入的计算任务转化为布尔值,对输入的具体数值加密,因此多方在互相不掌握对方私人信息时,可共同完成计算。
秘密共享是对加密信息的随机切分过程,将信息的片段分散至多个参与方保管。因此除非超过一定门限数量的多方协同合作,否则无法还原完整的数据并进行解密。
由于多方安全计算通常使用前三种框架便能实现,同态加密也被部分人士认作独立于安全多方计算而基于密码学的技术。我们在后文中进行详细介绍。
多方安全计算技术通用性高、准确性高,行业内也肯定了算法的理论价值和应用前景。即使密码和开发的难度导致其性能中等,密码学领域也有一半以上的学者研究安全多方计算的相关话题。作为发展历史最长、相对更成熟的技术,多方安全计算技术成为各科技大厂和新秀的技术路径之一。
2.同态加密
同态加密允许在加密后的密文上对数据进行若干次加法和乘法运算,且计算结果解密后正好与直接对明文进行计算的结果一致。该概念最早在1978年由 Ron Rivest、Leonard Adleman和 Michael L.Dertouzo提出。后来于2009年由Gentry首次设计出第一个真正意义上的全同态加密体制,Gentry提出的全同态加密方案可以对加密数据进行任意多次的加法和乘法运算,可以对加密信息进行深入和无限的分析,且不影响其保密性。目前主流基于格密码体制构建的全同态加密算法主要有BGV、CKKS等。
在同态加密出现之前,处理和分析隐私数据时必须对加密数据进行解密,解密过程增加了数据泄露风险。同态加密的出现使数据处理可以不经过解密,直接在密文上进行相应的计算,且最后解密出来的结果与直接在明文上计算的结果相同,这样一来就避免了数据解密过程中与密文数据使用中所带来的隐私泄露风险,能够更好地保护数据全生命周期的安全。
同态加密常用于需要进行隐私保护的外包计算和存储场景中,在这些场景中用户首先对数据进行同态加密,然后将加密后的密文发给云服务器进行存储或者计算,云服务器直接在密态数据上进行运算,这样既不会泄露用户隐私又满足了用户的计算需求。
同态加密的优势在于,通过自身这一种技术的应用就能更好地保障数据全生命周期的安全。目前,在隐私计算领域,大多数方案是通过多种技术融合应用来保障数据全生命周期的安全,这会大大提高数据的复杂性,并影响整个系统的运行效率,相对而言,同态加密因其可以在密文上进行任意运算,其解决方案更加简洁。
同态加密技术又可以分为全同态加密(fully homomorphic encryption,FHE)、部分同态加密(partially homomorphic encryption,PHE)、类同态加密(somewhat homomorphic encryption,SHE)、层次型同态加密技术[leveled(threshold)homomorphic encryption,(TFHE)LHE]等。FHE可以计算无限深度的任意电路;PHE支持评估仅包含一种门类型的电路(如加法或者乘法);SHE可以计算加法和乘法电路,但只支持有限次的乘法;(TFHE)LHE支持对有界(预设)深度的任意电路进行计算。不同加密方案适用的场景不同。
同态加密需要消耗的计算资源巨大,因此在比较复杂的计算场景中其性能较低,所以第一要务就是改进同态加密算法以减少资源开销。目前业界在这方面有不少尝试。
(二)可信执行环境
可信执行环境(TEE)作为易开发、高性能的隐私计算技术,与硬件提供方存在强依赖关系。其实践路径表现为:在CPU内划分出独立于操作系统的、可信的、隔离的机密空间。由于数据处理在可信空间内进行,所以数据的隐私性依赖可信硬件的实现。目前较为成熟的可信执行环境方案有SGX、Trustzone、HyperEnclave等。
(三)联邦学习
联邦学习(Federated Learning)从技术层面上涉及隐私保护、机器学习和分布式领域,能有效地满足数据在不出本地的情况下,实现共同建模,提升模型的效果。
根据特征空间和样本ID空间的不同,联邦学习分为横向联邦、纵向联邦和联邦迁移学习。
横向联邦学习适用于特征重合较多、样本重合较少的联合计算场景。但通过构建联邦生态,参与者可以聚合更多的数据样本,从而解决单边建模数据不足的问题。例如,某银行在不同区域设立分行,由于商业模式相同,数据具有重合度较高的特征,但各行服务不同地区的客户,样本重合较少。
纵向联邦学习适用于样本重合较多、特征重合较少的联合计算场景。通过建立联邦生态,参与者可以丰富样本特征,实现更精准的样本描述。例如,服务同一群体的银行与电商平台偏向于采用纵向联邦。
联邦迁移学习是对横向联邦学习和纵向联邦学习的补充,适用于特征、样本重合均少的场景。例如,不同地区的银行和商场之间,用户空间交叉较少,并且特征空间基本无重叠。
联邦学习在国内隐私计算赛道得到了广泛的应用。在中国,微众银行是联邦学习应用的推动者,其推出的开源平台FATE在业界应用广泛。
另外,各类隐私计算技术的融合趋势愈加明显。比如可信密态计算(Trusted-Environment-Based Cryptographic Computing,简称TECC),是蚂蚁集团首创推进的新型隐私计算技术,它将可信计算技术和密码学技术有机地结合在一起,将数据以全密态形式在高速互联的可信节点集群中进行计算、存储、流转的一种可信隐私计算技术,可实现数据持有权有效保障、使用权出域可控,支撑任意多方大规模数据安全、可靠、高效地进行全密态的融合与流转。