广东广悦律师事务所

前言

“爬虫写得好，牢饭吃得早”。在一场面向科技企业的法律讲座中，我曾意外发现到场的听众里，程序员比法务多。那一期我主讲爬虫数据合规的边界。互动环节，提问热情高涨。听众的注意力，普遍集中在如下三点：第一，使用爬虫是否违法，会不会坐牢（承担刑事责任）。第二，员工可否以职务行为之名甩锅给公司（承担责任的主体）。第三，企业基于爬虫技术的商业模式是否合规。

爬虫出现的语境和业务场景，容易让人误以为这是一种违法技术，实则不然。作为数据流通的一种机制，数据爬取的历史和争议，伴随着互联网技术一路发展。正如美国 Sandvig v. Sessions 案的判决书所言：爬取只是数字时代更便利的信息收集工具，它与使用录音机而不是记笔记，或者使用智能手机的全景摄像而不是用传统相机别无二致。

本次网络爬虫的数据合规专题，我们将对如下问题进行分析探讨，并提供实务操作建议：

1.爬虫协议和数据爬取行为的法律性质为何？

2.现行法律法规对网络爬虫的监管规制有哪些?

3.如何平衡竞争性利益保护和开放互联网之公共利益？

4.企业使用爬虫技术的行为合规边界为何？

本文为第三篇，首先探讨在爬虫的法律规制中，如何平衡竞争性利益保护和开放互联网之公共利益，其后总结实务领域企业使用爬虫技术的合规边界。

前期回顾：

网络爬虫的数据合规丨爬虫协议及数据爬取行为的法律性质

网络爬虫的数据合规丨现行法律制度对爬虫行为的监管规制

一、竞争性利益保护与开放互联网之公共利益

实践中，很多企业运用爬虫技术时，存在一个认知误区，即认为自身所处的行业或商业模式与被爬取企业不属于同一行业，因而不存在竞争关系。比如，在本专题前述点评网一案中，北京某科技公司曾辩称，上海某信息咨询公司的点评网系城市生活消费平台，自己则是搜索引擎服务商，两者没有直接竞争关系。

对此，法院明确了对于“竞争关系”的如下判断逻辑，即对于竞争关系的判定，不应局限于相同行业、相同领域或相同业态模式等固化的要素范围，而应从经营主体具体实施的经营行为出发加以考量。竞争本质上是对客户即交易对象的争夺。在互联网行业，将网络用户吸引到自己的网站是经营者开展经营活动的基础。即使双方的经营模式存在不同，只要双方在争夺相同的网络用户群体，即可认定为存在竞争关系。

此后，企业使用爬虫技术涉不正当竞争的一系列案件裁判中，法院均对此裁判逻辑存有共识，司法实践中已普遍认可互联网竞争具有鲜明的跨界竞争和流量竞争的特性，故而认定不正当竞争行为，并不局限于经营者之间存在直接的竞争关系或处于同一行业，而应聚焦于“竞争性利益”的保护。

除了对“竞争性利益”保护之外，不当设置爬虫协议可能构成反不正当竞争的情形同样值得关注。《自律公约》第八条约定，互联网所有者设置机器人协议应遵循公平、开放和促进信息自由流动的原则。爬虫协议的初衷是为了指引搜索引擎的网络机器人更有效的抓取对网络用户有用的信息，从而更好地促进信息共享，而不应将爬虫协议作为限制信息流通的工具。

曾有法院在判决中指出：此种行为——通过爬虫协议针对性地、歧视性地设置——与互联网发展普遍遵循的开放、平等、协作、分享原则不符，使原本遵循互联、互通、共享、开放精神的互联网变成信息相互隔绝、无法自由流动的信息“孤岛”，将有碍互联网功能的正常发挥，对互联网竞争秩序造成破坏，从而有损社会公共利益。法院进一步指出：如果把网站比作一个对公众开放的博物馆，爬虫协议就相当于在博物馆入口处悬挂的提示牌，告知游客哪些区域不对外开放，如：“本馆三楼301-302室正在装修、四楼为办公区，谢绝参观”。

提示牌的目的并不是限制游客的正常参观活动，而是通过提示游客哪些区域为非参观区，从而引导游客更有效的参观游览。提示牌的内容对所有游客应一视同仁，如果要禁止某一类人进入参观，则需要有合理、正当的理由，如可基于安全的考虑，禁止无民事行为能力人进入参观。在缺乏合理、正当理由的情况下，禁止某一类人进入一个对公众开放的博物馆参观显然是不合理的。因此，以设置爬虫协议的方式限制通用搜索引擎的抓取应当具有合理、正当的理由。

以下理由属于合理、正当的理由：

1.出于保护受访网站的内部信息或敏感信息的需要。由于这些信息属于隐私信息，且对于网络用户而言没有使用价值，故不应被抓取。

2.出于维护受访网站正常运行的需要。如果抓取会导致受访网站无法正常运行，则有必要对其进行限制。

3.出于保护社会公共利益的需要。如果抓取会损害社会公共利益，则理应对其加以限制。^【1】

综上所述，从被爬取方的单方授权，到综合考虑各方的权益权衡，数据爬取行为的合法性边界和爬虫协议的合理正当边界，依据不同的个案情况和法益立场，有着更为丰富——同时意味着更为复杂且更具可争辩性——的思考维度。

二、企业使用网络爬虫的合规边界

对网络爬虫的观察视野不限于纠纷裁判领域，在IPO、股权投融资等资本市场领域，有丰富案例可以进一步明晰“合法爬虫”的行为边界。当前，数据密集、技术密集行业是新经济下的投资热土。一方面，数据是企业资产价值的评估要素；另一方面，数据合规是股权投融资或上市申报的审核关卡。数据安全、用户个人信息保护的风险披露已成为非诉交易中法律尽职调查的必选项。^【2】结合司法裁判实践和资本市场实践，以下从数据对象、采集手段和行为目的三个方面，总结企业使用网络爬虫的合规边界。

（一）

数据对象：限于对开放数据的获取

数据爬取行为所针对的数据性质，是衡量爬虫行为合规性的首要判断标准。基于当前对爬虫的违法性构成要件缺乏明确规定，结合裁判案例和监管理念，合法爬虫的行为对象应当限于对开放数据的获取，避免抓取涉及公民个人信息、隐私或企业商业秘密、著作权法所保护的作品等数据。

针对开放数据，有学者提出可以分为政府开放数据、开放的研究数据以及商业机构的开放数据三类。^【3】开放的政府数据是政府各部门、研究机构以及商业机构获取数据的重要来源之一，比如为人们所熟知的启信宝、企查查、天眼查等产品，便汇聚了巨量来自全国各市场监督管理局网站、各省社会组织信息网、各级人民银行官网的商事主体数据。同时各类网站的研究数据、学术资源以及商业机构公开的部分数据，也是开放数据的范围。

如果爬虫获取的是非开放数据，不仅在数据获取对象上有非法性，技术手段也会有明显的侵入性。若发现抓取的数据属性为非公开数据，应及时停止爬取，并完整删除已经爬取的信息。

（二）

采集手段：未突破技术防护措施并遵守robots协议

一方面，爬虫技术不应有绕过或突破被爬取网站反爬虫技术防护措施的功能，否则极易被认定为系侵入计算机信息系统的程序。同时，应考量平台对于数据的保护措施，避免破解或规避平台为保护数据而采取的加密算法、技术保护措施；考量平台设定的获取数据的措施（如需要实名认证、账号密码登录、内部权限），避免伪造实名认证或窃取账号密码、内部权限的形式获取平台的数据。

在合合信息对其于科创板上市的首轮和第二轮审核问询函回复中，针对发审委关注的自动化访问获取数据来源合法性问题，其回复确保合法性的具体方式之一，便是“数据采集前，完成合规评估”。

比如，在爬虫技术数据采集前对采集网站做综合评估，包括获取数据的主要类型、被采集网站是否为政府公开信息网站或商业性网站、被采集网站是否具备robots协议或公示条款限制自动化采集等核心因素。在评估数据采集合规之后，发行人才会正式开始数据采集。

此外，脚本运行前，数据技术人员结合Alexa数据评估目标网站一天的总访问量，以此计算自动化访问程序每秒的访问频率上限，并在自动化访问程序配置阶段对并发数和访问频率进行适当的限制。^【4】

另一方面，虽然robots协议不是法律意义上的协议或合同，但作为被普遍接受的商业道德和行业惯例，以及互联网行业普遍通行和遵守的技术规范，企业违反被抓取网站的robots协议，承担相应不利后果的可能性更高。实务中，企业可以通过了解目标网站的robots协议内容，确认其所记载的禁止爬取范围并进行规避，同时可以查看目标网站平台自身的设计逻辑（如账号密码、验证机制等），综合评估目标网站对拟爬取数据的公开程度及平台意愿。

（三）

行为目的：基于正当目的或合理使用

对开放数据的获取或遵守robots协议，也可能因使用目的不当使数据爬取行为具备违规性。在目的限制上，有学者提出对非商业性数据的爬取应符合公共利益之根本目的，对商业性数据的爬取应基于合理利用的目的。^【5】

在法律规范层面，目的正当一般要求行为遵循合法、正当、必要原则。《数据安全法》第三十二条规定，“任何组织、个人收集数据，应当采取合法、正当的方式”，《网络安全法》第四十一条规定，“网络运营者收集、使用个人信息，应当遵循合法、正当、必要的原则，公开收集、使用规则，明示收集、使用信息的目的、方式和范围，并经被收集者同意”，《个人信息保护法》第五条和第六条规定，“处理个人信息应当遵循合法、正当、必要和诚信原则”，并“应当具有明确、合理的目的，并应当与处理目的直接相关，采取对个人权益影响最小的方式”。

企业使用爬虫技术获取目标网站数据，尤其抓取竞争对手的数据时，可能因对被爬取网站形成实质性替代进而被认定构成不正当竞争。此处“实质性替代”，即为商业性数据爬取“非合理使用”的行为目的。在实务操作层面，法院主要从以下几个方面综合分析采用爬虫技术获取数据的企业，是否构成不正当竞争：

1.数据爬取企业与被爬取企业之间是否存在竞争关系；

2.被爬取企业是否因爬取企业的竞争行为而受到损害，着重考虑涉案数据是否为被爬取企业享有合法权益的数据（如被爬取企业对此投入了大量的人力、物力、财力成本，可为法律所保护），爬取的数据类型、数量、频率和完整度等，是否对被爬取企业产生实质性替代进而对被抓企业造成实际损害（违反商业道德、诚实信用原则）；

3.爬取企业采用爬虫技术获取数据的行为与被爬取企业遭受的损害存在因果关系。

综上所述，实务中可以从数据对象、采集手段和行为目的三个方面进行约束限定，分析并划出爬虫技术的行为合规边界。

注释：

【1】参见百度在线网络技术（北京）有限公司等与北京奇虎科技有限公司不正当竞争纠纷二审民事判决书（2017）京民终487号。

【2】2021年12月和2022年5月，旗下拥有名片全能王、扫描全能王等多款工具类APP的上海合合信息科技股份有限公司（以下简称合合信息），在科创板上市申请的过程中，分别对其上市的首轮和第二轮审核问询函予以回复。在回复中，合合信息对发审委就其采用自动化访问技术的合规性问题，作出了多项回答，部分措施企业可作为实务中使用爬虫技术合规的参考。参见《关于上海合合信息科技股份有限公司首次公开发行股票并在科创板上市申请文件的首轮审核问询函的回复》《关于上海合合信息科技股份有限公司首次公开发行股票并在科创板上市申请文件的第二轮审核问询函的回复》。

【3】参见苏青：《网络爬虫的演变及其合法性限定》，载《比较法研究》2021年第3期。

【4】参见《关于上海合合信息科技股份有限公司首次公开发行股票并在科创板上市申请文件的第二轮审核问询函的回复》。

【5】参见苏青：《网络爬虫的演变及其合法性限定》，载《比较法研究》2021年第3期。

推荐阅读

2022年度广悦数据合规代表性业绩大盘点 | 奋楫扬帆赓续前行

2021年度广悦数据合规代表性业绩大盘点｜行而不辍，未来可期

声明

本文仅为交流探讨之目的，不代表广悦律师事务所或其律师出具的任何形式之法律意见或建议。如需转载或引用本文的任何内容，请与本所沟通授权事宜，并于转载或引用时注明出处。如您有意就相关议题进一步交流或探讨，欢迎与本所联系。

作者简介

冯清清

高级合伙人

互联网与数字经济

业务领域

互联网、公司股权、数据合规、私募基金与创业投资

职务及荣誉

中南财经政法大学合作硕士研究生导师

《亚洲法律杂志》ALB2023华南区律师新星

粤港澳全面合作法律事务专家咨询委员会科技创新组专家成员

广东省律师协会青年律师工作委员会委员

广州市律师协会文化传媒与体育娱乐法律专业委员会副主任

厦门大学广东校友会法律分会理事

邮箱

fengqq@wjngh.cn

个人简介

冯清清律师为广悦律师事务所高级合伙人，中南财经政法大学数字法学方向硕士研究生导师，获《亚洲法律杂志》“ALB 2023华南区域律师新星”。其带领团队主办数十个数据治理体系搭建及数据合规项目，覆盖新能源汽车、金融、医疗、科技、消费等行业；先后发表专业文章和实务指引120余篇，于威科法律数据库发布《科创板上市审核对企业数据合规的启示系列专题》等多个专业成果；主办《数字产品海外数据合规项目案例成果》获广州市律协“维护中方海外权益，广州律师在行动”表彰；参与编写出版实务专著《大数据时代企业数据合规之路》（法律出版社，2022）《数字经济时代企业股权实用指南》（机械工业出版社，2022）；个人专著《新律师进阶之路——非诉业务的思维与方法》（中国法制出版社，2019）获广州市律协理论成果一等奖。

作者丨冯清清

编辑丨何雪雯

审核丨欧阳进潼

审定丨品牌宣传与市场拓展委