CN English中文ItalianoFrançais

个保法颁布后企业数据“脱敏”处理的探讨

发布日期:2021-09-23 17:25:23浏览:




大数据时代,挖掘并利用数据价值是不少企业发展的必然选择,这其中涉及到大量的用户个人信息。随着近期我国关于个人信息保护、数据安全相关法律法规及国家标准不断出台,及针对企业违法违规使用用户个人信息专项整治行动的频繁发生,督促着企业必须将个人信息保护、数据合规列入当下首要任务行列。


不少企业已开始逐步重视个人信息收集与处理的合规问题,作为律师我们也经常收到客户提出的“是否需要脱敏”“如何脱敏”等类似问题的需求。


“脱敏”这个词在相关的法律法规、规范、标准中通常作为保护数据安全的技术手段或技术措施出现,有时与“去标识化”及/或“匿名化”并列【1】,有时则包含了“去标识化”及/或“匿名化”【2】结合《中华人民共和国个人信息保护法》(以下简称《个人信息保护法》)对“去标识化”和“匿名化”的定义以及我们日常工作中遇到的咨询情况,本文所指的“脱敏”主要指“去标识化”和“匿名化”两种做法,是指根据一定规则对个人信息采用变形、转换或屏蔽等保护数据安全的方式或手段,降低数据与个人信息主体之间的关联程度,从而实现保护个人信息权益和促进数据价值挖掘的平衡。






“脱敏“的定性——

匿名化与去标识化的定义与区别



根据《个人信息保护法》的规定,“去标识化”是指个人信息经过处理,使其在不借助额外信息的情况下无法识别特定自然人的过程;“匿名化”是指个人信息经过处理无法识别特定自然人且不能复原的过程。《个人信息保护法》第四条第一款将经过匿名化处理后的信息排除在个人信息的范畴内。因此,匿名化处理的信息不再属于个人信息,不受个人信息保护的相关原则及安全保障要求所约束,对该等信息的使用也因此不会涉及到数据安全问题。而去标识化后的信息因其仍可能结合其他信息识别或关联到特定自然人,仍属于个人信息的范畴。


基于《个人信息保护法》、《个人信息安全规范》的规定,匿名化与去标识化的区别表现在以下几个方面:


项目

匿名化

去标识化

仅从该信息本身无法识别或关联到特定的自然人

结合其他信息,也无法识别或关联到特定自然人

×

处理后的信息不能被复原为个人信息

×



“脱敏“的应用场景——

去标识化与匿名化的应用场景


(一)去标识化的应用场景

去标识化处理:根据《个人信息安全规范》6.2和《信息安全技术 个人信息去标识化指南》(GB/T 37964-2019,以下简称《去标识化指南》)的规定可知,去标识化处理的过程为收集个人信息后,个人信息处理者立即进行去标识化处理,并采取技术和管理方面的措施将去标识化的数据与可用于恢复识别个人的信息分开存储,并确保在后续的个人信息处理中不重新识别个人。对个人信息去标识化的过程中对于直接标识符【3】应予以删改,对于准标识符【4】是否需要删改及其删改程度等问题则根据后期应用场景及重标识【5】风险程度谨慎把握,尽量维护数据的经济价值与安全保护之间的平衡。

除6.2规定了收集后存储应进行去标识化处理外,《个人信息安全规范》还规范了去标识化处理涉及的其他场景,包括:
1、对外公开作为学术研究机构的个人信息处理者,出于公共利益开展统计或学术研究所必要,其对外提供学术研究或描述的结果时,须对结果中所包含的个人信息进行去标识化处理;个人信息处理者在对外提供学术研究或得出对自然、科学、社会、经济等现象总体状态的描述的结果时,需对结果中所包含的个人信息进行去标识化处理;
2、展示:涉及通过界面展示个人信息的(如显示屏幕、纸面),个人信息处理者宜对需展示的个人信息采取去标识化处理等措施,降低个人信息在展示环节的泄露风险;
3、共享、转让:个人信息处理者共享、转让经去标识化处理的个人信息,且确保数据接收方无法重新识别或者关联个人信息主体的,不需要向个人信息主体告知共享、转让个人信息的目的、数据接收方的类型以及可能产生的后果,不需要事先征得个人信息主体的授权同意。同时,个人信息处理者应对去标识化处理后的数据集重新识别出个人信息主体或与其他数据集汇聚后重新识别出个人信息主体的风险进行个人信息安全影响评估。

(二)匿名化的应用场景

匿名化处理:在《个人信息安全规范》中明确了企业应当采取匿名化处理的情形,包括:

1

当个人信息超出法律法规规定或者双方约定的存储期限;

2

个人信息处理者的产品和服务停止运营;

3

个人信息主体注销账号后以及个人信息主体在注销账户过程中提交用以核验身份的个人敏感信息,在目的实现后,个人信息处理者应当立即删除相关个人信息或作出匿名化处理。


除上述场景外,《个人信息安全规范》7.5还明确要求了当个人信息主体选择退出或关闭个性化展示模式时,个人信息处理者应当提供删除或匿名化定向推送活动所基于的个人信息的选项。
匿名化处理后的信息不属于《个人信息保护法》所规范的“个人信息”范畴,不受其原则及要求约束。但即便是匿名化后的数据,随着技术的发展其仍然有被重标识的风险,因此个人信息处理者仍需对匿名化后的信息进行定期评估。
由此不难看出,匿名化对个人信息的处理更加彻底,匿名化处理后的效果等同于删除的效果,对个人信息的保护程度也相对更高,数据经过匿名化处理之后可以直接对外提供,而去标识化处理后的数据则仍需满足知情同意规则或其他个人信息处理的合法性要求,如最小必要原则。


“脱敏“的技术措施——

去标识化技术与模型


在一定的场景下,当信息经去标识化处理后无法重新识别或者关联到个人信息主体,即达到了匿名化处理后的效果。从《去标识化指南》的规定可见,去标识化和匿名化所采用的技术和模型是具有共通性的,故我们遵循其表述,统称为“去标识化技术/模型”。


(一)常见的去标识化技术与模型

《去标识化指南》列举了七种去标识化技术,包括统计技术、密码技术、抑制技术、假名化技术、泛化技术、随机化技术和数据合成技术。如抑制技术中的屏蔽技术,通俗来讲,屏蔽就是删除或隐藏数据里一些项目,例如我们快递盒上的姓名和联系电话使用“*”来代替其中一部分字体或数字,这是一种比较常用的去标识化技术。再如泛化技术,它实际上就是使用概括、抽象的方法去表达原来的数据项目,例如对于“1.747” 取整泛化处理为“1”。泛化技术中还有一种技术叫做“顶层与底层编码”,它其实就是为某个属性设定一个可能的最大或最小阈值,如对某个人的高薪资,我们可以设置该个人的薪水值为“高于X元”,这种做法就能够有效避免记录准确数值以实现保护个人信息安全,但它更适用于连续或分类有序的数据。同样适用连续数据的还有随机化技术中的噪音添加技术,它通常是指添加随机值到所选的连续属性值中来修改数据集的一种去标识化技术,如对于身高“1.80m”,产生随机数值“-0.33m”,把它加入原始数值后就变成了“1.47m”,在计算如分布、平均值、相关性等统计特性的场景中,这种去标识化技术能够在保护个人信息安全的同时尽可能地保持该属性在数据集中的原始统计特性。


因去标识化技术各有特点,在实践中可能会混合多种技术方法对个人信息进行去标识化处理方能达到目的。具体去标识化技术子类、适用数据类型及降低重标识风险等比较情况如下表:



因攻击者仍可能借助其他外部信息对采用去标识化技术的数据进行重标识以识别或关联到个人,因此除了选择合适的去标识化技术外还需要选择适当的去标识化模型。《去标识化指南》中介绍了两种模型:K-匿名模型和差分隐私模型。简单而言:


K-匿名模型用于隐藏一群相似人员中各个个人的身份,其中K是一个数字,表示相应群组内的总人数。对于数据集中的任何人,如果有至少(K-1)个人具有相同的属性,即表示该数据集已实现K匿名效果。举个例子,一个数据集对应的K是100,属性是邮政编码。如果我们查看该数据集中任何个人的相关数据,一定会发现另外99个人也有着相同的邮政编码。因此,仅根据邮政编码,我们无法辨识该数据集中任何人的身份。


差分隐私模型是一种向数据中添加数学噪声的技术。如果使用了这种技术,就无法确定任何个人是否属于某数据集,因为给定算法的输出结果看起来基本都一样,无论是否包含相应个人的信息。例如,假设我们正在衡量某地理区域的整体流感检索趋势,我们可增加或减少某个社区中搜索流感相关内容的人数,这样做不会影响我们在该地理区域这个大范围内衡量这一趋势,但会导致攻击者无法确认该社区的具体情况。但这种模型技术可能会导致数据变得不那么实用。


类型

数据记录级保真性

使用数据

类型

降低

分离风险

降低

关联风险

降低

推导风险

K-匿名模型
满足
所有
满足
部分
不满足
差分隐私模型
不满足
所有
满足
满足
部分


根据《去标识化指南》,去标识化强调对标识内容的处理,其目标在于对直接标识符和准标识符进行删除或变换,控制重标识的风险,在此前提下结合业务目标和数据特性选择合适的去标识化模型和技术。又因数据的公开共享程度越高,数据中包含的个人信息被重标识的风险就越高,对相应数据的去标识化要求程度也就越高。因此,在评估是否采取去标识化处理措施及采取何种措施时,除遵守法律法规的规定外,企业还需综合考虑数据类型、公开共享范围、重标识风险及数据有用性等。


(二)去标识化的效果

根据《信息安全技术 个人信息去标识化效果分级评估规范(征求意见稿)(2021年4月2日)》(以下简称《分级评估规范意见稿》)规定,评定个人信息去标识化处理后的效果分为4级,等级越高,重识别风险就越低。具体如下:


级别

数据记录级保真性

降低
关联风险

4级

聚合数据

对数据汇总分析所得,如总计数、最大值、最小值、平均值等。

3级

重标识风险可接受数据

消除直接标识符,且重标识风险地域设定阈值。

2级

消除直接标识符的数据

删除直接标识符或将直接标识符处理至无法单独(直接)识别到个人身份,但包含准标识符,重标识风险高于设定阈值。

1级

能直接识别主体的数据

包含直接标识符,在特定环境下能够直接识别个人信息主体。


目前实践中更多对应的是2级,比如我们常见的快递信息、外卖订单上的手机号。但这种程度的去标识化,仍有比较大的几率通过大数据的对比、数据库撞库等方式来重新识别或关联到个人信息主体,属于“重标识风险较高”的信息数据。它和3级其实仅差距了一个阈值,这种定量性质的标准虽然在技术层面具备了一定的实操指导价值,但是仍然未能考虑不同的去标识化技术和模型的适用对基础算法逻辑的偏离影响及如何量化这些影响来适用不同行业不同业务下的不同场景。就当前立法对于匿名化处理后的个人信息豁免“知情同意”等原则要求的情况看,未来针对前述3-4级的去标识化处理后的数据有可能会适用匿名化处理的法律效果,允许个人信息处理者对相应的数据进行更加便捷的开发和利用,而1-2级则可能仍需受到个人信息保护相关原则及规范的约束【6】。未来规范标准显然都是需要不断细化和不断释义的。


(三)去标识化场景示例

当前我国对于个人信息去标识化处理的规定尚处于比较宽泛的阶段,一般是在特定场景下的数据安全指南之中举例说明典型情景下某一种数据类型的去标识化处理方法,并阐明去标识化处理所需要的达到的结果,并不要求企业选择特定的去标识化技术和模型。


以声纹为例,根据《信息安全技术 声纹识别数据安全要求(征求意见稿)(2021年4月28日)》(以下简称《声纹识别意见稿》)的规定,若用户所使用的软件仅为录制声音的工具,无需用户提供也不会自动采集用户声音的,不存在回传服务器,则该用户的录音音频不需要进行去标识化处理,《信息安全技术 个人信息告知同意指南(征求意见稿)(2020年1月12日)》附录G中亦有类似表述。若该软件需要传输、存储,则要求在存储、传输声纹识别数据时不在文件名中出现能识别用户的信息,通过人工监督的方式确保语音内容不包含用户完整的身份证号码、姓名、手机号码、账号口令等个人信息;若确需存储数据主体的身份信息、声纹特征和声纹模型时,应采用物理或逻辑隔离的方式分别存储这三类信息。在声纹并非用于身份识别的场景中(如智能音箱语音唤醒、自动语音翻译等),企业应通过语音转换等技术手段消除或破坏语音样本中的声纹信息后再进行处理。


例如,在网约车行程录音录像的场景下,根据《信息安全技术 网络预约汽车服务数据安全指南(征求意见稿)(2020年10月30日)》规定,驾驶员APP生成的行程录音文件应在上传完成后删除,不应在移动终端留存。网约车运营者需要对行程录音采取技术措施使录音可识别录音内容但无法识别用户身份,如对音频信息的基频进行改变等;同时,还需要对行程录像采取技术措施对乘客和驾驶员面部识别特征模糊化处理,如采取检测技术在视频中定位乘客面部位置,对面部识别特征遮挡处理等,但当涉及投诉处理必须使用行程录音录像中的原始音频基频和面部识别特征除外。若涉及共享,网约车经营者还需按照国家标准对录音录像进行加密等保护措施。当涉及委托第三方对行程录音进行处理时,网约车经营者需要将行程录音中的描述的个人身份信息内容提取并删除,随后将录音分割为最小听音分片并打散,并使之无法重新组装还原成原始文件。


注释:

[1]如在《互联网个人信息安全保护指引(征求意见稿)》第6.3(a)项“经过匿名化或脱敏的方式处理的个人信息数据可用于历史、统计或科学目的……”。

[2]如JR/T 0171—2020《个人金融信息保护技术规范》7.2.1(e) “建立个人金融信息脱敏(如屏蔽、去标识、匿名化等)管理规范和制度……”。

[3]在特定环境下可以单独识别个人信息主体。特定环境指个人信息使用的具体场景,常见的直接标识符有:姓名、身份证号、护照号、驾照号、地址、电子邮件地址、电话号码、传真号码、银行卡号、车牌号、车辆识别号码、社保号、健康卡号、病历号、设备标识符、生物识别码、互联网协议IP地址和网络通用资源定位符(URL)等。例如,在一个具体的学校,通过学号可以直接识别出一个具体的学生。

[4]结合其他属性可唯一识别个人信息主体。常见的准标识符有:性别、出生日期或年龄、事件日期(例如入院、手术、出院、访问)、地点(例如邮政编码、建筑名称、地区)、族裔血统、出生国、语言、原住民身份、可见的少数民族地位、职业、婚姻状况、受教育水平、上学年限、犯罪历史、总收入和宗教信仰等。

[5]把去标识化的数据集重新关联到原始个人信息主体或一组个人信息主体的过程。

[6]熊定中,张宇涵:《个人信息去标识化的法律效果 | 基于<个人信息去标识化效果分级评估规范(征求意见稿)>的技术趋势》,载微信公众号“中国法律评论”,2021年4月15日


END

声明:本微信文章仅为交流探讨之目的,不得视为广悦数据合规研究院或其律师出具的正式法律意见,任何仅依照本文的全部或部分内容而做出的行为及因此带来的后果均由行为人自行负责。如果您需要法律意见或有意就相关议题进一步交流,可以通过电子邮件与我们联系,E-mail:hlw@wjngh.cn 。

分享到:

  • 免责声明
  • 隐私保护
  • 网站地图

Copyright 2020 广东广悦律师事务所. All Rights Reserved. 粤ICP备13002423号-2 Designed by Wanhu