CN English中文ItalianoFrançais

数据爬虫的是与非:一文读懂运用爬虫技术的合规边界

发布日期:2022-02-17 18:25:58浏览:



身处数据时代,企业对“爬虫”并不陌生。从新浪微博诉脉脉不正当获取用户信息案,到LinkedIn和hiQ Labs旷日持久的数据之争,从摩羯科技、新颜科技等诸多大数据公司因“爬虫业务”被查,到合合信息申报上市爬虫技术被审核问询……实务案例不断出现,让数据爬取成为数据合规领域广受关注的问题。

“爬虫”也被称为网络蜘蛛、蜘蛛爬虫或网络机器人,其本质是一种能自动获取网页信息并按照指定规则提取相应内容的程序1。基于《数据安全法》第七条【2】规定可知,我国鼓励数据依法合理有效利用与依法有序自由流动,爬虫的运用将有效促进据流通与开发利用、增进社会福祉,因此爬虫作为一种中性的计算机技术,其本身在法律上并不被禁止,但其运用亦非毫无限制。
当前阶段,我国关于爬虫运用的法律法规或政策要求尚不明确。在此情况下,企业运用爬虫技术获取数据,仍面临诸多法律风险。结合我们办理的数据爬虫相关项目,本文梳理企业运用爬虫技术面临的主要法律风险,并提出合规操作建议以供参考。


一、 企业运用爬虫技术面临的主要法律风险


一)构成不正当竞争的法律风险

利用爬虫技术,企业可以更加便捷与有针对性地从各个政府机构等公开信息披露的平台与网站采集可为己所用的公共数据,如启信宝、企查查、天眼查等网站便汇聚了大量来自全国各工商网站、各省社会组织信息网、各级人民银行官网等的企业信息与资讯,而这些信息与资讯经企业汇聚、整合与加工处理,形成企业的重要财富。但企业在使用公共数据进行商业化利用的过程中,如未尽必要注意义务导致原始数据主体合法权益受损的,将承担相应的法律责任。

正如蚂蚁金服等诉朗动科技商业诋毁及不正当竞争纠纷一案【3】判决所述,公共数据的使用需遵循“合法、必要、正当”原则,注重信息时效、保障信息质量和敏感信息校验等,否则将可能因不当利用而构成不正当竞争,该案中朗动科技运营的企查查正是因为发布和向特定用户推送了存在数据瑕疵的蚂蚁金服等的清算信息,对其收集利用的数据未尽必要注意义务,经法院审理认为其行为构成不正当竞争,最终被依法判决赔付蚂蚁金服等经济损失及合理费用60万元。


(如“启信宝”曾因公开个人手机号码错误引发个人投诉)

为限制第三方采用爬虫技术获取自身平台数据,不少网站会设置爬虫协议(又称“Robots协议”)。爬虫协议的核心功能在于声明网站上哪些内容可以爬取、哪些不可以,其并非法律意义上的协议,不具有强制力,可视为一种约定俗成的惯例和声明,技术突破并不困难但不遵守有可能承担法律责任。

如“新浪微博”诉“超级星饭团”不正当竞争纠纷【4】一案中,法院认为云智联公司(“超级星饭团”运营方)在明知微梦公司(“新浪微博”运营方)限制除白名单以外的机器人抓取相关数据的情况下,仍实施通过伪装成用户登录或模拟用户行为向“新浪微博”后台服务器发送请求,并按照浏览器规则进行解析等技术手段,已破坏了微梦公司对相关数据设置的展示规则,具有明显的主观恶意,且其抓取规模较大,故其抓取行为不具有正当性。

(中国裁判文书网网站根目录项下的爬虫协议,图片内容为节选)
企业采用爬虫技术获取网站数据,尤其是抓取竞争对手的数据时,即便其获取数据的行为并未违反网站设置的爬虫协议,亦可能因违背最小必要原则,对被抓取网站形成实质性替代等而被认定构成不正当竞争。

如“大众点评”诉“百度地图”不正当竞争纠纷案【5】,法院认为汉涛公司(“大众点评”运营方)为了积累点评信息付出了巨额成本,点评信息是其核心竞争优势之一,用户在使用百度地图查阅商户信息和点评信息后已经无需再跳转至大众点评,故百度地图已对大众点评形成实质性替代,对汉涛公司造成了实质损害,最终判决百度公司停止不正当竞争行为,赔偿汉涛公司经济损失和合理损失323万元。

另外,不少企业选择以定期检查被抓取网站的规定是否变化作为其数据合规保证措施,但该做法具有滞后性,可能会因监测或更新不及时而产生被诉不正当竞争的风险。


二)构成刑事犯罪的法律风险

除了爬虫协议以外,网站还可能采取相应的反爬虫技术措施。绕行或强行突破网站设置的反爬虫技术措施亦将可能承担相应的法律责任,特别是刑事责任。


(验证信息属于最常见的反爬虫措施之一)
如上海某网络科技有限公司非法获取计算机信息系统数据案,系全国首例利用爬虫技术非法侵入其他公司服务器抓取数据,进而实施复制被害单位视频资源的案件,该案中法院将反爬虫措施认定为与用户身份信息认证机制同态的计算机信息系统安全措施,并将与之对抗的技术行为认定为“侵入”行为,最终认定被告单位构成非法获取计算机信息系统数据罪,判处罚金20万元【6】
“启信宝”运营方合合信息公司在其对上交所首轮问询函的回复中,特别提出其采用Alexa数据评估被抓取网站一天的总访问量,以此计算访问频率与限制要求,进而作为保证其自动化访问获取数据合规性的手段之一。这是因为,采用爬虫技术获取数据的频次并非可由企业随心所欲,一旦超过一定限制造成被抓取网站无法正常运行的,将可能构成犯罪。如“深圳市居住证系统”就曾因被爬虫软件短时间内高频率大量访问至服务器阻塞,停止运行超过2小时,最终行为人被依法认定构成破坏计算机信息系统罪并判处有期徒刑【7】
此外,不当使用爬虫技术,绕行或强行突破被抓取网站的反爬虫措施,还可能构成非法获取计算机信息系统数据罪;提供侵入、非法控制计算机信息系统程序、工具罪;侵犯商业秘密罪【8】等。

三)构成侵犯个人信息的法律风险

数据的商业化发展带来的不仅仅是便利,还有对个人信息与隐私的侵害。《网络安全法》《数据安全法》《个人信息保护法》中均严格要求企业依法依规处理个人数据。如《个人信息保护法》第66条中明确规定,如企业未能依照规定履行个人信息保护义务的,将面临警告、没收违法所得、责令暂停或终止提供服务、罚款、停业整顿、吊销相关业务许可或营业执照等处罚,企业的直接负责主管人员及其他指直接责任人员也将面临罚款、限期从业禁止等处罚。

如果企业通过绕行或强行突破反爬虫措施抓取个人数据,可能构成“窃取或以其他非法方式获取个人信息的违法行为”,情节严重的,可能构成侵犯公民个人信息罪;若未经数据主体同意向第三方提供的,还可能构成“提供公民个人信息”。

如魔蝎科技侵犯公民个人信息案【9】,魔蝎科技经用户授权利用爬虫技术抓取了用户在多个平台网站上的通话记录、社保、公积金等数据,将该等数据依照用户要求提供至网贷平台的同时,未经用户许可将相关账号密码保留在自己租用的云服务器中。最终,法院认为魔蝎科技明确告知不会保存用户各类账号密码,却未经许可非法留存用户信息,是以其他方法非法获取公民个人信息,构成侵犯公民个人信息罪,最终判处罚金3000万元,其法定代表人被判有期徒刑3年、缓刑4年,技术总监被判有期徒刑3年、缓刑3年。


(四)构成侵犯著作权的法律风险

企业采用爬虫技术获取的数据形式多样,可能包括文字、图片、音频、视频等。而当抓取的数据内容落入我国著作权法的保护范畴,属于著作权法所保护的作品时,则企业采用爬虫技术获取相应数据的行为将可能侵犯相关权利人的著作权。

如针对部分数据设置了访问权限,仅有特定用户有权访问相关页面的情况下,企业采用的爬虫技术绕行或突破了该等限制即有可能构成侵权或违法犯罪行为。如进一步将前述访问限制数据进行存储、抹除署名信息或进行删改的,则还可能侵犯权利人的复制权、署名权、修改权。

根据《信息网络传播权保护条例(2013修订)》第4条规定,“为了保护信息网络传播权,权利人可以采取技术措施。任何组织或者个人不得故意避开或者破坏技术措施,不得故意制造、进口或者向公众提供主要用于避开或者破坏技术措施的装置或者部件,不得故意为他人避开或者破坏技术措施提供技术服务。但是,法律、行政法规规定可以避开的除外。”

如果企业采用爬虫技术获取相关数据后在自有平台上或与他人合作进行公开传播,还可能构成侵犯信息网络传播权。“大众点评”诉“爱帮网”著作权侵权纠纷案件【10】中,法院认为具有独创性的点评内容可构成《著作权法》保护的作品,爱帮公司未经汉涛公司授权擅自将构成作品的点评内容刊登在“爱帮网”上,且使用比例较大,并构成了对“大众点评”的实质性替代,因而违反了著作权法的规定。

此外,企业采用爬虫技术获取的数据属于著作权法所保护的作品时,还可能构成侵犯著作权罪。如北京鼎阅文学信息技术有限公司等侵犯著作权罪案【11】中,被告单位未经权利人许可,利用爬虫技术爬取正版电子图书后在其运营推广的多个APP中展示供他人访问并下载阅读,通过广告收入、付费阅读等方式牟利。法院经审理认为被告单位采取爬虫技术抓取涉案电子图书行为非法,认定被告单位及其相关责任人以营利为目的,未经著作权人许可,复制发行他人享有著作权的文字作品,情节特别严重,其行为均已构成侵犯著作权罪,依法判处公司罚金150万元并判处被告人有期徒刑和罚金。


二、 企业运用爬虫技术获取数据的合规建议


(一)进行事前综合评估与定期检查、评估

《网络数据安全管理条例(征求意见稿)》第17条第1款规定,“数据处理者在采用网络爬虫等自动化工具访问、收集数据时,应当评估对网络服务的性能、功能带来的影响,不得干扰网络服务的正常功能。”上海颁布实施的《企业数据合规指引》亦有相同规定。针对爬虫技术获取数据的手段,企业不仅需要事前开展,还需要定期检查和评估,并组织各业务部门、技术部门等,在外部的专业技术与法律团队的支持下协力完成。评估的内容包括:

拟抓取的数据类型、数量、频次

拟抓取对象网站性质、类型

拟抓取对象网站是否具备Robots协议或反爬措施等

评估围绕着是否采用爬虫技术访问、收集相关数据可能对拟抓取对象网站的性能、功能带来的影响及其程度进行。例如,针对频次问题,参考《数据安全管理办法(征求意见稿)》第16条规定,如当采用爬虫技术访问收集流量超过网站日均流量三分之一时,可能会被认为“严重影响网站运行”。

在我们办理的相关项目中,有的企业会在开展业务之前设计“合规替代方案”。例如,考虑将采取爬虫技术获取数据这一项工作“外包”给第三方企业或个人,认为此种方式可有效隔离法律风险。

事实上,基于企业是爬虫技术获取数据的最终使用者,当数据主体或权利人拟维护自身相关权益时,作为最终使用者的企业始终是数据主体或权利人的第一目标,“主体隔离”并不会降低企业可能面临的法律风险。同样地,采集其他国家网站数据也难以通过地域实现“风险隔离”;相反,当相关网站运营者依法维权时,企业还可能面临更加复杂的域外法律程序与更加高昂的诉讼支出。


二)尽量抓取公开数据,遵循网站爬虫协议

如“新浪微博”诉“超级星饭团”不正当竞争纠纷判决所述,“对于公开数据,平台经营者应在一定程度上容忍他人合法收集或利用,否则将有违互联互通之精神,在此情况下,真实用户浏览或是使用中立技术手段获取,只要是遵守通用的技术规则并无不同,平台经营者不应对此区别对待。”
司法实践中并非对采用爬虫技术获取数据采取全盘否认的态度,尤其是针对公开数据,即便是商业性网站,也并非全然不可为,但应当注意遵循“合法、正当、必要”原则,避免对被抓取网站的正常运行造成干扰。但对于需要利用技术手段突破或绕行反爬虫措施才能获取的非公开数据,则不应抓取。
同时应当提前设置抓取内容的限制策略,注意审查抓取内容,避免因抓取著作权法保护的作品、个人信息、商业秘密等而构成违法犯罪。已经抓取的,则应当及时停止抓取行为并进行删除。如《网络数据安全管理条例(征求意见稿)》第17条第2款对此明确要求“停止访问、收集数据行为并采取相应补救措施”。


(三)重点防范抓取商业模式相同或相似主体的主营业务数据

从众多相关的不正当竞争纠纷案例可见,法院主要从以下几个方面认定采用爬虫技术获取数据的企业(以下简称“抓取企业”)构成不正当竞争:

抓取企业与被抓企业之间是否存在竞争关系

被抓企业是否因抓取企业的竞争行为而受到损害在此项上,法院将着重考虑涉案数据是否为被抓企业享有合法权益的数据(如被抓企业对此投入了大量的人力、物力、财力成本,可为法律所保护),抓取企业抓取的数据类型、数量、频率和完整度等,是否对被抓企业产生实质性替代进而对被抓企业造成实际损害(违反商业道德、诚实信用原则)

抓取企业采用爬虫技术获取数据的行为与被抓企业遭受的损害存在因果关系

因此,企业应当尽量避免采用爬虫技术获取竞争对手所运营平台网站的主营业务商业数据,降低不正当竞争的风险。

注释:

【1】李慧敏、孙佳亮:《论爬虫抓取数据行为的法律边界》,载《电子知识产权》2018年第12期。

【2】《数据安全法》第七条,“国家保护个人、组织与数据有关的权益,鼓励数据依法合理有效利用,保障数据依法有序自由流动,促进以数据为关键要素的数字经济发展。”

【3】参见杭州互联网法院2020年度知识产权司法保护十大案例之二:浙江蚂蚁小微金融服务集团股份有限公司等诉苏州朗动网络科技有限公司商业诋毁及不正当竞争纠纷案。本案一审案号为(2019)浙8601民初1594号,二审案号为(2020)浙01民终4847号。

【4】参见北京微梦创科网络技术有限公司与云智联网络科技(北京)有限公司不正当竞争纠纷案。本案案号为(2017)京0108民初24512号。

【5】参见上海汉涛信息咨询有限公司与被告北京百度网讯科技有限公司、上海杰图软件技术有限公司其他不正当竞争纠纷案。本案一审案号(2015)浦民三(知)初字第528号,二审案号为(2016)沪73民终242号。

【6】参见2019年度人民法院十大刑事案件之十:上海某网络科技有限公司非法获取计算机信息系统数据案——全国首例“爬虫”技术侵入计算机系统犯罪案。转引自《全国首例“爬虫”技术 侵入计算机系统犯罪案》,载《人民法院报》2020年1月12日,http://rmfyb.chinacourt.org/paper/html/2020-01/12/content_164332.htm?div=-1。

【7】参见杨杰明、张国栋破坏计算机信息系统案。本案案号为 (2019)粤0305刑初193号。

【8】如企业在采用爬虫技术获取数据的过程中规避了被抓取网站所设置的技术措施,接触、保存或者披露了被爬取平台中一般用户所不能访问的信息,而该等信息又构成商业秘密,则企业运用爬虫抓取相关数据的行为可能构成侵犯他人商业秘密,且可能构成侵犯商业秘密罪。

【9】参见杭州魔蝎数据科技有限公司、周江翔、袁冬侵犯公民个人信息案。本案案号为(2020)浙0106刑初437号。

【10】参见上海汉涛信息咨询有限公司与爱帮聚信(北京)科技有限公司著作权侵权纠纷案。本案一审案号为(2010)海民初字第4253号,二审案号为(2011)一中民终字第7512号。

【11】参见2020年度北京法院知识产权司法保护十大案例之十:北京鼎阅文学信息技术有限公司等侵犯著作权罪案——“网络爬虫非法抓取电子书”犯侵犯著作权罪案。本案案号为(2020)京0108刑初237号。

END

声明:本微信文章仅为交流探讨之目的,不得视为广悦数据合规研究院或其律师出具的正式法律意见,任何仅依照本文的全部或部分内容而做出的行为及因此带来的后果均由行为人自行负责。如果您需要法律意见或有意就相关议题进一步交流,可以通过电子邮件与我们联系,E-mail:hlw@wjngh.cn 。

分享到:

  • 免责声明
  • 隐私保护
  • 网站地图

Copyright 2020 广东广悦律师事务所. All Rights Reserved. 粤ICP备13002423号-2 Designed by Wanhu