上期回顾
数达安全专家团在上期解读中全面对比、分析了网络安全法和数据安全法在法律地位、范围、重要性、侧重点、依赖关系、处罚力度等十多个关键方面,得出网络安全法和数据安全法是互补的关系,我国大网络空间安全从此进入了双法时代。数据安全有关企业既要按照双法要求,不断提高网络安全能力也要将工作重点尽快转到数据安全能力建设上来,更好服务于数字经济发展,服务国计民生。
本期摘要
数据安全法已经正式施行,各方都非常关心支持该法落地的数据安全措施,尤其是技术措施中的新技术问题。数达安全专家团经过认真研究,认为有多项新技术将会给数据业务和数据安全带来巨大影响,各方应聚集力量加快研发、试点落地和应用推广。
这些新技术覆盖数据安全生命周期各个阶段,具体如下表所示:
同态加密
1●基本概念
在数据传输、数据存储过程中进行安全加密,而在数据处理和数据共享过程中安全地计算出所需结果,并同时保护好个人敏感数据防止隐私数据泄露,是数据安全的一个基本要求。同态加密就能满足上述要求,明文数据经同态加密后得到密文数据,在不解密情况下直接进行密文数据处理,敏感数据在数据处理等环节始终处于密文状态,在实现数据处理的同时又保障了数据的安全。
2●技术原理
同态加密可以形式化定义为:假设A和B是两个待加密的明文数据,❊和※是两种特定的数学运算,Enc()是其加密函数,如果存在以下关系:
Enc(A)❊Enc(B)= Enc(A※B),即对两个密文数据进行❊操作相当于对两个明文数据进行※操作的结果进行加密,则称Enc()为同态加密。这种性质可以实现对密文数据进行处理、分析与检索,因此对云计算具有重要价值。举例来说,在不可信的云计算环境中,甲方Y1将两个密文数据Enc(A)和Enc(B)上传到不可信的云计算平台中,乙方Y2提交对两个明文数据A、B进行※的计算任务,那么不可信的云计算平台接到乙方发送来的计算任务请求后直接对两个密文数据进行❊计算,并将结果也就是Enc(A)❊Enc(B)返回给乙方,乙方相当于收到Enc(A※B),解密后即可得到想要的结果A※B,整个过程中无论是云计算厂家还是攻击者都无法窃取明文数据A和B,从而保障了云平台上各方数据的安全。
根据同态加密能力的不同,同态加密分为加法同态、乘法同态和全同态加密:
☆加法同态:加密函数满足Enc(A)+ Enc(B)= Enc(A+B),可执行密文数据的加减运算。第一个加法同态加密方案由Pailer[6]提出。
☆乘法同态:加密函数满足Enc(A)× Enc(B)= Enc(A×B),可执行密文数据的乘除运算。第一个乘法同态加密方案由ElGamal[7]提出。
☆全同态加密:加密函数同时满足加法同态和乘法同态,则称为全同态加密。全同态加密可以完成各种运算,包括加减乘除、多项式、指数、对数、三角函数等。第一个完全同态加密方案由Gentry[8]于2009年提出,该方案基于格上困难问题,允许任意复杂的操作并且在量子时代也是安全的。Smart等人[9]利用中国剩余定理设计了一个密钥和消息长度都较小的完全同态加密方案。Van Dijk等人[10]在整数环上设计了一个容易理解的完全同态加密方案。Cheon等[11]设计了整数环上的批处理完全同态加密方案。
3●相关资源
同态加密具有如下成功应用:
☆微软在Github开源的同态加密库SEAL;
☆IBM公司开源工具—FHE Toolkit Linux;
☆Duality公司的SecurePlus™平台。
同态加密计算需要大量的计算资源和存储资源,因此成本很高,目前只应用在一些特定场景中,需要大力突破性能瓶颈,并在商业场景中大力推进应用。
安全多方计算
1●基本概念
安全多方计算是指一组互不信任的参与方,在不借助第三方的情况下,如何在保证各自输入数据的隐私性的同时,共同完成某种多输入计算,并确保输出结果的正确性。安全多方计算的思想是Yao[9]于1982年提出。
2●技术原理
安全多方计算可形式化定义为:n个计算参与方Pi各自持有自己一方的秘密数据x1, x2,..., xn,利用这些秘密数据计算出共识函数y1,y2,...,yn。yi=fi(x1 , x2 , ... , xn),任意一方Pi可以得到与自己对应的结果yi(在绝大多数情况下是相同的),但无法获得其他各方的任何输入和结果信息。
不难看出,安全多方计算可以满足如下要求:
☆隐私性:参与方仅能获得己方的输入和输出数据,不能获得其他方的任何数据;
☆正确性:联合计算之后所有参与方都能获得正确结果;
☆去中心化:各参与方地位平等,任何一方都没有特权。
实现多方安全计算主要有同态加密、混淆电路和秘密分享三种方式。
3●参考资源
安全多方计算具有如下成功案例:
☆Fairplay系统;
☆Google的PSI技术系统;
☆iCube金融区块链项目。
安全多方计算在一些特定场景下具有较好性能,但通用场景存在难以扩展和效率低下等问题需要研究和解决。
联邦学习
1●基本概念
多个参与方在不交换原始敏感数据的情况下实现联合机器学习的建模、训练和部署。
2●技术原理
联邦学习的基本思想是:在保证各方的原始数据不出本地的情况下,实现对多方数据的共享并联合起来进行建模:
☆首先对多方的原始数据进行转换,对其特征化、参数化,保证原始数据“不可见”; ☆其次,对特征向量、参数进行差分隐私、同态加密或安全多方计算,防止遭到训练重构攻击、模型反演攻击导致数据泄露。
联邦学习可以按照各方数据集的不同特性和场景分为如下三种类别:
☆横向学习:各方使用的数据集样本的维度基本上是相同的,但各方所提供的数据集样本ID是不同的。训练过程相当于将各方数据样本进行“累加”,相当于“虚拟的”样本扩展,以提高训练规模、改进机器学习模型;
☆纵向学习:各方数据集样本ID基本是相同的,但各方数据集样本维度不同,即各方分别持有同一个实体的不同维度的信息。训练过程将各方收集的数据样本按照ID进行纵向扩展,通过“虚拟的”样本维度的拓展来增强训练模型的预测性能;
☆迁移联邦学习:各方使用的数据集样本具有高度的差异性,即ID以及样本维度仅有少部分重叠,这就需要在特征维度缺失情况下进行标签预测与回归分析。
3●参考资源
近年来有多个落地案例,并形成了如下资源:
☆谷歌TensorFlow Federated联邦学习开源框架;
☆苹果“Hey Siri”的人声分类器应用;
☆Intel将TEE(可信任执行环境)技术与联邦学习进行结合。
联邦学习仍然处于初期阶段,面临参与方诚信、激励机制、高效通信、有效扩大应用场景等问题。
数据匿名
1●基本概念
在数据采集和共享等场景,对个人敏感信息采用泛化、屏蔽、随机化等处理措施,实现非授权人员无法识别出与敏感信息对应的个人主体,以达到“匿名”效果,保护个人隐私。
2●技术原理
数据匿名技术从发展历程先后顺序来看,主要包括K-匿名、L-多样性、T-近似性以及差分隐私四种:
☆K-匿名:除敏感数据外,对可以确定个人主体身份的数据项(如身份证号、手机号、地址等)采用屏蔽、泛化等处理措施,保证数据表中至少有K(K>=2)条记录具有相同的取值;
☆L-多样性:不仅保证处理后的数据表中少包含K个相同记录,而且通过修改敏感属性或添加伪记录来保证处理后所得的任意等价组的敏感属性至少包含L个不同的值;
☆T-近似性:不仅保证形成的等价组至少包含K个记录,而且通过修改敏感属性或添加伪造记录,保证任意的等价组的敏感属性的分布与全局的敏感属性分布之间的距离度量值小于T;
☆差分隐私:该技术安全性可以用数学模型来证明。在采集和共享数据时,在个人用户侧利用随机化算法等对采集到的个人敏感数据进行相应的处理,使得服务器无法获得个人用户的真实敏感信息,但服务器采集到足够多的加入噪声的数据后也能起到了解总体数据分布的业务需求。在共享数据前,利用随机化算法,进行集中批量处理。
可以看出,在隐私保护效果方面,差分隐私 > T-近似性 > L-多样性 > K-匿名,而从性能和数据可用性来考虑则完全相反,因此实际使用过程中要结合具体场景进行灵活选择。
3●成功案例
数据匿名具有下列成功案例:
☆ARX系统;
☆Immuta医疗和金融数据匿名系统;
☆微软利用差分隐私技术开发了PINQ;
☆Google利用差分隐私技术的Rappor;
☆Apple利用差分隐私技术的手机表情分布计算程序。
用户与实体行为分析
1●基本概念
对用户与实体的各种操作、行为进行持续画像和建模,建立正常行为基线,从收集的大量安全数据中发现数据泄露等异常行为。
2●技术原理
用户与实体行为分析采用的分析方法如下:
☆阈值分析:采用统计学方法,首先统计正常的历史流入流出流量作为阈值,然后对一段时间内的数据进行统计并和阈值进行比较,超出阈值范围则为异常;
☆序列分析:采用随机过程理论和数理统计学方法,研究随机数据序列所遵从的规律,按照这些规律判定是否异常;
☆关联分析:基于关联算法或者采用图数据库工具等,发现隐藏在大型数据集中的有意义的联系,或者提取数据之间的关联规则;
☆机器学习:利用大量历史数据不断学习,检测和识别异常或恶意行为,检测数据安全未知威胁。
用户与实体行为分析,以敏感数据为目的和出发点,通过采集和分析用户和实体对这些敏感数据的操作和行为的多个维度的综合信息,建立行为基线,找出严重偏离基线的行为,就能及时发现数据泄露等违规异常行为。
用户和实体行为分析通常采用5W1H 模型:Who、When、Where、What、Why、How,通过这6个维度的进行分析,及时发现安全隐患。
3●成功案例
用户和实体行为分析具有如下成功案例:
☆Exabeam、Splunk。
人工智能数据识别
1●基本概念基于关键词、正则匹配的数据识别传统方法存在出错率高、效率低下问题,尤其不适用于非结构化数据,从而需要引入相似度计算、聚类、监督学习等人工智能机器学习算法以提升识别效果与性能。
2●技术原理
人工智能数据识别主要采用三类算法,分别是基于相似度算法、基于非监督学习算法和基于监督的学习算法:☆基于相似度算法。该算法首先采用手工或感知算法提取数据指纹特征,然后进行敏感数据的学习和训练,提取需要学习和训练的敏感数据的指纹模型,然后提取出被检测数据的指纹并与学习过的模型进行比对,根据阈值确认是否为敏感数据;
☆基于非监督学习算法。首先,本算法无需人工打标签、人工特征设计与提取,直接选取某种聚类算法进行训练;然后,将需要的分类数作为聚类“簇”的个数,对样本数据进行聚类,形成不同“簇”的数据集合;最后,人工对这些“簇”的部分样本进行分析并确定相应“簇”的类别;
☆基于监督学习算法。该算法需要收集一定数量的训练数据,并由人工对数据打上标签,然后选择相应的监督学习算法比如神经网络等进行模型训练,最后将输出的模型应用在需要识别的数据、文档进行智能判断,输出数据的敏感类型。
3●成功案例
在实际应用中的成功案例如下:
☆BigID智能数据识别系统。
智能数据识别技术目前还存在识别效率低、识别精度差和可扩展性不高等问题。
数据脱敏风险评估
1●基本概念
数据脱敏已经得到广泛应用,但各种脱敏方法的安全效果并不相同,因此需要对脱敏数据的身份标识度和隐私泄露风险进行评估和风险管控。
2●技术原理
数据脱敏风险评估技术主要分为两类,即基于人工抽查的定性判定方法和自动评估技术:
☆人工评估方法。采用人工抽查方法,按照标准流程和表格进行专家检查和判定;
☆自动化评估技术。采用重标识风险度量方法,根据攻击者能力和攻击意图将攻击分为若干类场景(比如好奇者攻击、炫耀者攻击、商业利益相关者攻击等),分别对这些场景的风险指标(最大重标识概率、平均重标识概率等)进行定义和计算,最终得出风险级别。
3●成功案例
数据脱敏的成功案例:
☆Privacy Analytics医疗数据风险管理系统。
用户数据权利请求/响应自动化
1●基本概念
用户数据权利请求/响应是国外企业的隐私合规检查项,流程自动化技术可帮助数据安全团队从繁重的手工处理转为自动化的高效处理,既可降低人工成本又可减少因响应慢可能导致的违规罚款等风险。
2●技术原理
用户数据权利请求/响应自动化系统具有如下功能:
☆客户端功能:在网站网页、移动App等界面中为客户端增加醒目简洁的窗户与按钮,实现用户的个人数据查看、修改和删除等功能;
☆服务器端功能:服务器的后端系统收到请求后进行身份识别与确认,按照请求内容找到有关该用户的所有个人数据并在规定时间限度内对完成请求响应任务,最后将响应结果通过邮件、网页等形式反馈给发出请求的个人用户。
3●成功案例
用户数据权利请求/响应自动化的成功案例如下:
☆Securit.Ai;
☆BigID;
☆OneTrust。
知识图谱
1●基本概念知识图谱是一种基于图的数据结构,由节点和边组成,节点代表实体,边是两条实体之间的关系。由于个人敏感数据安全治理的关键是个人实体识别以及相关属性与处理流程的关联,因此引入知识图谱技术是合理的、必要的。通过知识图谱技术,可跟踪敏感数据的位置变动情况、使用情况和相关保护义务,满足个人敏感信息的可视化和安全应用的各项要求。
2●技术原理
个人数据图谱技术将个人数据主体的各种属性信息(包括姓名、出生年月、手机号和地区等)关联起来,构建这些敏感数据在各种存储中的分布地图,形成数据流动传输的映射图,这就为快速、精确查找、定位特定用户的个人数据提供了方便,满足快速响应用户请求的法律要求。个人数据图谱技术也可用于在数据泄露时通过查询个人数据图谱获得个人的联系方式做到短时间内通知到所有受影响的个人用户。个人数据图谱技术还可以用于评估针对个人敏感数据的安全保护措施是否足够。
个人数据图谱技术是围绕知识图谱综合集成了自动扫描器、正则匹配、图像识别、自然语言处理等一系列技术。
3●成功案例
知识图谱技术的成功案例如下:
☆Security.Ai个人数据图谱系统。
总结
数达安全专家团通过严密的调查研究,在本篇中选择了九项新技术进行了介绍,这些新技术可以覆盖数据采集、传输、存储、处理、交换、共享和销毁等各阶段的几乎全部要求,对促进数据业务与数据安全具有重要作用,应成为各方重点攻关的方向。
参考资料
1.《数据安全法》
2.《网络安全法》
3.《信息安全技术—数据安全能力成熟度模型》(GB/T 37988-2019)
4.《数据运营企业应该如何建立数据安全防护体系?——数达安全专家团数据安全法解读系列之二》
5. 《数据安全技能力范围分析--数达安全专家团数据安全法解读系列之四》
6.Pailer P. Public-Key cryptosystems based on composite degree residuosityclasses. In: Advances in cryptology-EURO-CRYPT’99. Berlin, Heidelberg: Springer-Verlag. 1999.223-238.
7.ElGamal T. A public key cryptosystem and a signature scheme based on discrete logarithms. IEEE Trans. on Information Theory, 1985,31(4):469−472.
8. Gentry C. Fully homomorphic encryption using ideal lattices. In: Proc. of the 41st Annual ACM Symp. on Theory of Computing(STOC). New York: ACM Press, 2009. 169-178.
9. Smart NP, Vercauteren F. Fully homomorphic encryption with relatively small key and ciphertext sizes. In: Proc. of the Public Key Cryptography (PKC). Berlin, Heidelberg: Springer-Verlag, 2010. 420-443. [doi: 10.1007/978-3-642-13013-7_25]
10.Van Dijk M, Gentry C, Halevi S, Vaikuntanathan V. Fully homomorphic encryption over the integers. In: Advances in Cryptology—EUROCRYPT 2010. Berlin, Heidelberg: Springer-Verlag, 2010. 24−43.
11.Cheon JH, Coron J, Kim J, Lee MS, Lepoint T, Tibouchi M, Yun A. Batch fully homomorphic encryption over the integers. In:Advances in Cryptology—EUROCRYPT 2013. Berlin, Heidelberg: Springer-Verlag, 2013. 315−335.
12. A.C.C. Yao. Protocols for secure computation. In: FOCS’82.1982: 80 -91.