大数据时代,挖掘并利用数据价值是不少企业发展的必然选择,这其中涉及到大量的用户个人信息。随着近期我国关于个人信息保护、数据安全相关法律法规及国家标准不断出台,及针对企业违法违规使用用户个人信息专项整治行动的频繁发生,督促着企业必须将个人信息保护、数据合规列入当下首要任务行列。
不少企业已开始逐步重视个人信息收集与处理的合规问题,作为律师我们也经常收到客户提出的“是否需要脱敏”“如何脱敏”等类似问题的需求。
“脱敏”这个词在相关的法律法规、规范、标准中通常作为保护数据安全的技术手段或技术措施出现,有时与“去标识化”及/或“匿名化”并列【1】,有时则包含了“去标识化”及/或“匿名化”【2】。结合《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》)对“去标识化”和“匿名化”的定义以及我们日常工作中遇到的咨询情况,本文所指的“脱敏”主要指“去标识化”和“匿名化”两种做法,是指根据一定规则对个人信息采用变形、转换或屏蔽等保护数据安全的方式或手段,降低数据与个人信息主体之间的关联程度,从而实现保护个人信息权益和促进数据价值挖掘的平衡。
“脱敏“的定性——
匿名化与去标识化的定义与区别
根据《个人信息保护法》的规定,“去标识化”是指个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程;“匿名化”是指个人信息经过处理无法识别特定自然人且不能复原的过程。《个人信息保护法》第四条第一款将经过匿名化处理后的信息排除在个人信息的范畴内。因此,匿名化处理后的信息不再属于个人信息,不受个人信息保护的相关原则及安全保障要求所约束,对该等信息的使用也因此不会涉及到数据安全问题。而去标识化后的信息因其仍可能结合其他信息识别或关联到特定自然人,仍属于个人信息的范畴。
基于《个人信息保护法》、《个人信息安全规范》的规定,匿名化与去标识化的区别表现在以下几个方面:
项目 |
匿名化 |
去标识化 |
仅从该信息本身无法识别或关联到特定的自然人 |
√ |
√ |
结合其他信息,也无法识别或关联到特定自然人 |
√ |
× |
处理后的信息不能被复原为个人信息 |
√ |
× |
“脱敏“的应用场景——
去标识化与匿名化的应用场景
(一)去标识化的应用场景
去标识化处理:根据《个人信息安全规范》6.2和《信息安全技术 个人信息去标识化指南》(GB/T 37964-2019,以下简称《去标识化指南》)的规定可知,去标识化处理的过程为收集个人信息后,个人信息处理者立即进行去标识化处理,并采取技术和管理方面的措施将去标识化的数据与可用于恢复识别个人的信息分开存储,并确保在后续的个人信息处理中不重新识别个人。对个人信息去标识化的过程中对于直接标识符【3】应予以删改,对于准标识符【4】是否需要删改及其删改程度等问题则根据后期应用场景及重标识【5】风险程度谨慎把握,尽量维护数据的经济价值与安全保护之间的平衡。
(二)匿名化的应用场景
匿名化处理:在《个人信息安全规范》中明确了企业应当采取匿名化处理的情形,包括:
当个人信息超出法律法规规定或者双方约定的存储期限;
个人信息处理者的产品和服务停止运营;
个人信息主体注销账号后以及个人信息主体在注销账户过程中提交用以核验身份的个人敏感信息,在目的实现后,个人信息处理者应当立即删除相关个人信息或作出匿名化处理。
“脱敏“的技术措施——
去标识化技术与模型
在一定的场景下,当信息经去标识化处理后无法重新识别或者关联到个人信息主体,即达到了匿名化处理后的效果。从《去标识化指南》的规定可见,去标识化和匿名化所采用的技术和模型是具有共通性的,故我们遵循其表述,统称为“去标识化技术/模型”。
(一)常见的去标识化技术与模型
《去标识化指南》列举了七种去标识化技术,包括统计技术、密码技术、抑制技术、假名化技术、泛化技术、随机化技术和数据合成技术。如抑制技术中的屏蔽技术,通俗来讲,屏蔽就是删除或隐藏数据里一些项目,例如我们快递盒上的姓名和联系电话使用“*”来代替其中一部分字体或数字,这是一种比较常用的去标识化技术。再如泛化技术,它实际上就是使用概括、抽象的方法去表达原来的数据项目,例如对于“1.747” 取整泛化处理为“1”。泛化技术中还有一种技术叫做“顶层与底层编码”,它其实就是为某个属性设定一个可能的最大或最小阈值,如对某个人的高薪资,我们可以设置该个人的薪水值为“高于X元”,这种做法就能够有效避免记录准确数值以实现保护个人信息安全,但它更适用于连续或分类有序的数据。同样适用连续数据的还有随机化技术中的噪音添加技术,它通常是指添加随机值到所选的连续属性值中来修改数据集的一种去标识化技术,如对于身高“1.80m”,产生随机数值“-0.33m”,把它加入原始数值后就变成了“1.47m”,在计算如分布、平均值、相关性等统计特性的场景中,这种去标识化技术能够在保护个人信息安全的同时尽可能地保持该属性在数据集中的原始统计特性。
因去标识化技术各有特点,在实践中可能会混合多种技术方法对个人信息进行去标识化处理方能达到目的。具体去标识化技术子类、适用数据类型及降低重标识风险等比较情况如下表:
因攻击者仍可能借助其他外部信息对采用去标识化技术的数据进行重标识以识别或关联到个人,因此除了选择合适的去标识化技术外还需要选择适当的去标识化模型。《去标识化指南》中介绍了两种模型:K-匿名模型和差分隐私模型。简单而言:
K-匿名模型用于隐藏一群相似人员中各个个人的身份,其中K是一个数字,表示相应群组内的总人数。对于数据集中的任何人,如果有至少(K-1)个人具有相同的属性,即表示该数据集已实现K匿名效果。举个例子,一个数据集对应的K是100,属性是邮政编码。如果我们查看该数据集中任何个人的相关数据,一定会发现另外99个人也有着相同的邮政编码。因此,仅根据邮政编码,我们无法辨识该数据集中任何人的身份。
差分隐私模型是一种向数据中添加数学噪声的技术。如果使用了这种技术,就无法确定任何个人是否属于某数据集,因为给定算法的输出结果看起来基本都一样,无论是否包含相应个人的信息。例如,假设我们正在衡量某地理区域的整体流感检索趋势,我们可增加或减少某个社区中搜索流感相关内容的人数,这样做不会影响我们在该地理区域这个大范围内衡量这一趋势,但会导致攻击者无法确认该社区的具体情况。但这种模型技术可能会导致数据变得不那么实用。
类型 |
数据记录级保真性 |
使用数据 类型 |
降低 分离风险 |
降低 关联风险 |
降低 推导风险 |
|
|
|
|
|
|
|
|
|
|
|
|
(二)去标识化的效果
根据《信息安全技术 个人信息去标识化效果分级评估规范(征求意见稿)(2021年4月2日)》(以下简称《分级评估规范意见稿》)规定,评定个人信息去标识化处理后的效果分为4级,等级越高,重识别风险就越低。具体如下:
级别 |
数据记录级保真性 |
降低 关联风险 |
4级 |
聚合数据 |
对数据汇总分析所得,如总计数、最大值、最小值、平均值等。 |
3级 |
重标识风险可接受数据 |
消除直接标识符,且重标识风险地域设定阈值。 |
2级 |
消除直接标识符的数据 |
删除直接标识符或将直接标识符处理至无法单独(直接)识别到个人身份,但包含准标识符,重标识风险高于设定阈值。 |
1级 |
能直接识别主体的数据 |
包含直接标识符,在特定环境下能够直接识别个人信息主体。 |
目前实践中更多对应的是2级,比如我们常见的快递信息、外卖订单上的手机号。但这种程度的去标识化,仍有比较大的几率通过大数据的对比、数据库撞库等方式来重新识别或关联到个人信息主体,属于“重标识风险较高”的信息数据。它和3级其实仅差距了一个阈值,这种定量性质的标准虽然在技术层面具备了一定的实操指导价值,但是仍然未能考虑不同的去标识化技术和模型的适用对基础算法逻辑的偏离影响及如何量化这些影响来适用不同行业不同业务下的不同场景。就当前立法对于匿名化处理后的个人信息豁免“知情同意”等原则要求的情况看,未来针对前述3-4级的去标识化处理后的数据有可能会适用匿名化处理的法律效果,允许个人信息处理者对相应的数据进行更加便捷的开发和利用,而1-2级则可能仍需受到个人信息保护相关原则及规范的约束【6】。未来规范标准显然都是需要不断细化和不断释义的。
(三)去标识化场景示例
当前我国对于个人信息去标识化处理的规定尚处于比较宽泛的阶段,一般是在特定场景下的数据安全指南之中举例说明典型情景下某一种数据类型的去标识化处理方法,并阐明去标识化处理所需要的达到的结果,并不要求企业选择特定的去标识化技术和模型。
以声纹为例,根据《信息安全技术 声纹识别数据安全要求(征求意见稿)(2021年4月28日)》(以下简称《声纹识别意见稿》)的规定,若用户所使用的软件仅为录制声音的工具,无需用户提供也不会自动采集用户声音的,不存在回传服务器,则该用户的录音音频不需要进行去标识化处理,《信息安全技术 个人信息告知同意指南(征求意见稿)(2020年1月12日)》附录G中亦有类似表述。若该软件需要传输、存储,则要求在存储、传输声纹识别数据时不在文件名中出现能识别用户的信息,通过人工监督的方式确保语音内容不包含用户完整的身份证号码、姓名、手机号码、账号口令等个人信息;若确需存储数据主体的身份信息、声纹特征和声纹模型时,应采用物理或逻辑隔离的方式分别存储这三类信息。在声纹并非用于身份识别的场景中(如智能音箱语音唤醒、自动语音翻译等),企业应通过语音转换等技术手段消除或破坏语音样本中的声纹信息后再进行处理。
例如,在网约车行程录音录像的场景下,根据《信息安全技术 网络预约汽车服务数据安全指南(征求意见稿)(2020年10月30日)》规定,驾驶员APP生成的行程录音文件应在上传完成后删除,不应在移动终端留存。网约车运营者需要对行程录音采取技术措施使录音可识别录音内容但无法识别用户身份,如对音频信息的基频进行改变等;同时,还需要对行程录像采取技术措施对乘客和驾驶员面部识别特征模糊化处理,如采取检测技术在视频中定位乘客面部位置,对面部识别特征遮挡处理等,但当涉及投诉处理必须使用行程录音录像中的原始音频基频和面部识别特征除外。若涉及共享,网约车经营者还需按照国家标准对录音录像进行加密等保护措施。当涉及委托第三方对行程录音进行处理时,网约车经营者需要将行程录音中的描述的个人身份信息内容提取并删除,随后将录音分割为最小听音分片并打散,并使之无法重新组装还原成原始文件。
END