前言
在数字化时代,数据已成为企业最宝贵的资产之一。随着互联网技术的发展,网络爬虫技术作为信息收集的重要手段,其合法性问题日益受到关注。2024年9月12日,一则关于腾讯与字节跳动之间的法律裁决引起业界广泛讨论。本案中,腾讯公司指控字节跳动违反Robots协议抓取其微信公众平台数据信息并用于“今日头条”平台的行为,最终,经法院审理判定字节跳动该行为构成不正当竞争判赔300万元。
通过中国裁判文书网等案例数据库,以“爬虫”“不正当竞争”作为关键词展开检索,截至2024年9月共检索到与网络爬虫不正当竞争相关案件78件,其中法院在审理过程中提及“Robots协议”(即“爬虫协议”)有25件。
本文将从法律实务的角度,重点分析在爬虫抓取行为引发的不正当竞争案件中,司法机关对爬虫协议的认定,并探讨企业应如何在法律允许的范围内合理设置“爬虫协议”以规范数据抓取以及合理地利用“爬虫技术”获取资源。
一、爬虫协议的概念
网络爬虫,亦称之为“网络蜘蛛”或网络机器人,它是一种自动化浏览网络程序,其按照设置的规则通过模拟人工点击来自动地抓取互联网数据和信息,从而自动、高效地读取或收集互联网数据。[1]网络爬虫技术广泛应用于企业日常实践中,其在内容聚合、搜索引擎构建、大数据分析预测、舆情监控等多个领域都展现出其无可比拟的实用价值。而爬虫协议也正是随着互联网发展和网络爬虫技术愈发广泛应用应运而生[2]。
爬虫协议(Robots Exclusion Protocol)又称为Robots协议,指的是网站所有者(以下或称“被抓取方”)通过在网站根目录下设置的robots.txt文件向网络机器人(以下或称“抓取方”)给出网站指令的协议,用于提示网络机器人哪些网页内容不应被抓取,哪些可以抓取。
例如下图为微信公众平台在其网站设置的爬虫协议(https://mp.weixin.qq.com/robots.txt),其中设置的“User-agent:*”代表针对所有网络机器人,“Allow:/[ ]/”中[ ]内列举的如“debug(微信公众平台接口调试工具页面)”、“qa(微信公众平台开发文档页面)”、“wiki(维基百科)”等表示允许所有网络机器人访问的界面,同时搭配设置“Disallow:/”表示除了前述允许访问的页面外,禁止任何网络机器人访问该网站的其他所有信息内容。
下图为“快手”在其网站设置的爬虫协议(https://www.kuaishou.com/robots.txt),其中设置的“User-agent:[ ] Allow:/”代表[ ]内列举的Baiduspider、Sogou web spider等特定的搜索引擎网络机器人,被纳入爬虫白名单,允许访问该网站内容;同时搭配设置“User-agent:* Disallow:/”表示除前述白名单中被允许访问的网络机器人外,其他网络机器人禁止访问该网站的任何信息内容。
下图为“抖音”在其网站设置的爬虫协议(https://www.douyin.com/robots.txt),其中设置了“User-agent:[ ]”中[ ]内列举的Baiduspider、Googlebot等特定的搜索引擎网站机器人,被纳入网站的白名单,允许访问网站内容,但需遵守规则,即不得访问在“Disallow:/follow”下明确禁止访问的内容。同时搭配设置“User-agent:* Disallow:/”表示除前述白名单中被允许访问的网络机器人外,其他网络机器人禁止访问该网站的所有信息内容。
“爬虫协议”是国际互联网界通行的行业道德规范,一般由网站所有者自行设置,仅是一种“软法”,不具备强制执行力。在司法实践中,在被抓取方起诉抓取方非法抓取信息这一类不正当竞争纠纷案件中,被抓取方通常会以抓取方的网络爬虫行为违反了原告已经设置的爬虫协议为由来主张其违反公认的商业道德,抓取方的网络爬虫行为具备不正当性。而抓取方通常会以被抓取方设置的爬虫协议不存在合理性及正当性,不应认定其属于公认的商业道德作为辩驳理由。
因此,对于网站所有者自行设置的“爬虫协议”是否有效,违反“爬虫协议”抓取是否属于不正当竞争行为往往是此类案件的争议焦点之一。
二、不同场景下设置“爬虫协议”的认定
(一)“爬虫协议”对不正当竞争行为认定的作用
司法实践中对于网络爬虫类不正当竞争案件中被告方的抓取或限制抓取行为是否属于不正当竞争行为,人民法院审理核心在于判断该行为是否违反了《反不正当竞争法》第二条规定的诚实信用原则和公认的商业道德。
2012年11月1日,中国互联网协会牵头组织百度、腾讯、网易、新浪、奇虎360等十二家互联网企业签署发布了《互联网搜索引擎服务自律公约》(以下简称《自律公约》)。根据相关法律法规[3]及现行司法实践,法院审理时通常认可“爬虫协议”是国际互联网界已经形成并被普遍遵守的行业规范,《自律公约》系对“爬虫协议”作为公认商业道德的承认。
“爬虫协议”作为公认的行业规范与行为准则,对于判断爬取与限制爬取行为是否违反商业道德而具有不正当性有着重要意义,然而,司法实践中并非所有“爬虫协议”都属于公认的商业道德。
(二)司法实践中对“爬虫协议”的认定
1.被抓取方设置“爬虫协议”限制爬取行为应具备合理性及正当性,否则将不被视为公认的商业道德
对于被抓取方而言,尽管被抓取方对于自己所有的网站享有一定的权益,可以自由决定爬虫协议中是否对某些或某一具体的网络机器人开放数据的抓取,如果抓取方违反被抓取方设置的爬虫协议,原则上应视为违背公认的商业道德从而构成不正当竞争行为。
但基于互联网领域公平、开放、共享和促进信息自由流动的原则并结合《自律公约》第八条,被抓取方在利用爬虫协议限制网络机器人抓取行为时,应具备行业公认的正当、合理的理由。
当被抓取方设置“爬虫协议”限制网络机器人抓取行为不具备正当、合理理由时,该“爬虫协议”将不属于公认的商业道德,这种情况下,网络机器人违反该“爬虫协议”的抓取行为可能不构成不正当竞争,而网站所有者设置“爬虫协议”限制抓取可能构成不正当竞争行为。
2.抓取方违反具备合理性及正当性的“爬虫协议”的爬取行为,应属于违背公认的商业道德
如果被抓取方未设置“爬虫协议”或未在“爬虫协议”中明确限制网络机器人抓取内容,法院可能会认为对于抓取方而言,该网站是开放的、该网站上信息允许互联互通和共享,抓取方的抓取行为未违反商业道德且不具备不正当性,从而导致被抓取方在诉讼中面临败诉的风险。例如乐视网诉“今日头条”不正当竞争案中[5],法院认为乐视网公司无法证明其在今日头条链接的域名为“m.le.com”网站中设置了Robots协议禁止爬虫抓取,据此主张字节跳动公司实施了非法盗链行为缺乏事实和法律依据。
如果被抓取方设置了“爬虫协议”限制网络机器人抓取内容,当被抓取方设置的“爬虫协议”具备合理性及正当性时,法院通常会将抓取方违反该“爬虫协议”作为判断其违反商业道德、存在主观恶意、行为具备不正当性的重要依据:
综上所述,具备合理性及正当性的“爬虫协议”应属于判断商业道德的重要依据。但《自律公约》并未明确何种Robots协议设置才是正当的商业道德,仅笼统要求利用Robots协议限制抓取要有行业公认的正当、合理的理由。公司应如何设置具备合理性及正当性的“爬虫协议”,还应回归到司法实践中来判断。
(三)“爬虫协议”在不同应用场景下的设置要求
1.针对搜索引擎场景设置的“爬虫协议”——应以开放为原则,限制为例外
搜索引擎场景是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统作用,例如微软、百度、360搜索等传统搜索引擎均属于该场景。搜索引擎便于公众搜索,降低搜索成本,搜索引擎网络机器人进入对公众开放的网站抓取信息通常并不会损害该网站的利益,反而有利于该网站宣传推广,符合互联网互联、互通、共享、开放的精神。
根据《自律公约》第8条及司法实践,对搜索引擎场景设置的“爬虫协议”应遵循公平、开放和促进信息自由流动的原则,应以开放为原则,限制为例外。法院在认定搜索引擎场景设置“爬虫协议”是否具备合理性、正当性时,主要考虑因素如下:
-
从限制抓取主体来看,网站所有者是否在“爬虫协议”中对被限制的搜索引擎主体与其他同类型搜索引擎进行了无合理正当理由的区分对待。
【案例】北京奇虎360诉百度不正当竞争案[4]中,百度在设置“爬虫协议”白名单时在允许其他同类型搜索引擎抓取百度信息时将360搜索引擎排除在外,被法院认为该限制对360而言是针对性和歧视性,阻碍信息的自由流动,且百度在明确知晓360希望提出希望抓取数据的请求,仍未提出拒绝抓取合理、正当理由。
-
从限制抓取内容来看,对爬虫协议中限制通用搜索引擎抓取的特定信息如需被认定为具备合理、正当理由,应符合以下特点:
(1)出于保护受访网站的内部信息或敏感信息的需要。由于这些信息属于隐私信息,且对于网络用户而言没有使用价值,故不应被抓取。
(2)出于维护受访网站正常运行的需要。如果抓取会导致受访网站无法正常运行,则有必要对其进行限制。
(3)出于保护社会公共利益的需要。如果抓取会损害社会公共利益,则理应对其加以限制。
2.针对非搜索引擎场景设置的“爬虫协议”——应尊重被抓取方自主经营权
而在非搜索引擎场景下,数据抓取行为通常并未给受访网站带来流量和利益,反而可能直接用于抓取方自身的商业行为中,并非作为实现互联网互联互通的环节存在。因此,在非搜索引擎的场景下,互联网行业中信息的自由流动应控制在合理范围内,在尊重被抓取方主体版权、保护隐私及数据安全、维护被抓取方商业利益等有限框架内进行,否则将不利于鼓励商业投入与创新。
对于非搜索引擎场景设置的“爬虫协议”是否具备合理性及正当性,目前司法实践中通常选择尊重企业经营自主权,在不损害消费者利益、不损害公共利益、不损害竞争秩序的情况下,应认为网站所有者通过“爬虫协议”对其他非搜索引擎网络机器人的抓取进行限制具备合理、正当性。
【案例】在微梦诉字节跳动不正当竞争纠纷案[8]中,字节跳动起诉微梦设置的Robots协议限制字节跳动抓取数据不具备合理、正当性,一审法院判定该行为违反公认的商业道德,构成不正当竞争行为;但二审法院改判并认为微梦公司设置“爬虫协议”中限制的“ToutiaoSpider”网络机器人的应用场景并非搜索引擎服务,而是“微头条”等非搜索引擎应用场景,本案中微梦公司在“爬虫协议”中针对“微头条”的非搜索引擎场景设置限制,应被认定为行使企业自主经营权的表现,具有正当性。
综上所述,对于“爬虫协议”的设置是否具有合理、正当性,应结合爬虫协议设置方与被限制方所处的经营领域和经营内容、被限制的网络机器人应用场景等多种因素进行综合判断。在不同的应用场景下,“爬虫协议”被视为正当的商业道德的评判标准也会随之流动变化。
当然,“爬虫协议”仅系判断抓取或限制抓取行为不正当性的重要参考因素之一,并非唯一因素,且“爬虫协议”仅能判断信息抓取阶段是否具备正当性,不能解决抓取信息后的使用行为是否合法的问题。对抓取方而言,即使抓取行为未违反“爬虫协议”,如果抓取后的展示、使用等后续行为存在不正当性的,也可能构成不正当竞争。
三、关于“爬虫协议”抓取方及被抓取方的建议
(一)对于被抓取方而言
-
网站所有者均可以设定“爬虫协议”,对于其所设置的“爬虫协议”,在司法实践中一般予以认可。
-
在爬虫协议中添加限制抓取信息时应符合不同应用场景下相应商业道德和行业规范的要求,对于搜索引擎场景下同类型主体的限制不宜存在区别歧视性对待,对于抓取信息的限制应基于保护被抓取方网站内部信息或敏感信息、维护网站正常运营、保护社会公共利益需要等合理、正当理由进行设置。
-
应开放抓取方反馈爬虫协议修改意见的合理途径,对于抓取方认为“爬虫协议”中限制抓取的数据信息应及时提供该限制具备合理正当性的说明解释。
(二)对于抓取方而言
-
注意遵守被抓取平台公开明确设置的包括爬虫协议、用户协议、隐私政策等协议,应避免抓取其协议中明令限制抓取的数据,不应采取侵入、绕开、破解、破坏被抓取网站技术等不正当措施进行数据抓取。
-
对于爬虫协议中明确限制抓取的数据信息,如果抓取方认为该限制不具备合理正当性的,应及时向被抓取方发出希望对方向其开放相关数据的意思表示。否则抓取方在明知爬虫协议存在限制的情况下仍抓取受限数据的,将大大增加抓取行为被认定存在主观恶意、构成不正当竞争的风险。
-
除遵循被爬取方设置的爬虫协议外,抓取方抓取数据行为的频次、数量等均应限制在合理范围内,不宜妨碍被抓取方的正常运营;且数据抓取后的使用过程中,也应注意不得违背诚实信用原则、公认的商业道德及《反不正当竞争法》第二章规定。
四、结语
随着互联网技术的飞速发展,网络爬虫技术在数据收集和信息共享方面发挥着重要作用,然而,随之而来的法律风险也不容忽视。在网络爬虫案件界定不正当竞争行为的法律框架内,爬虫协议发挥着重要作用。对于被抓取企业而言,合理设置爬虫协议,既要保护自身的数据权益,也要符合公认的商业道德和法律规定。同时,抓取方也应尊重爬虫协议,避免采取不正当手段获取数据。通过双方的共同努力,促进互联网环境的公平竞争,推动爬虫技术应用健康发展。
注释:
[1]张一献《从技术到犯罪:恶意网络爬虫行为入罪的类型认定与裁判思路探索》.时代法学, 2020, 18(4):11.
[2]曹丽萍《爬虫协议作为商业道德评判行为正当性的考量维度-评北京字节跳动科技有限公司与北京微梦创科网络技术有限公司不正当竞争纠纷案》.法律适用, 2023(5):95-104.
[3]最高人民法院关于适用《中华人民共和国反不正当竞争法》若干问题的解释(法释〔2022〕9号)第3条
[4]详见(2017)京民终487号
[5]详见(2017)京0105民初69425号
[6]详见(2017)京0108民初24512号
[7]详见(2022)川知民终1939号
[8]详见(2017)京73民初2020号、(2021)京民终281号
[9]详见(2016)沪73民终242号
[10]详见(2019)川01民初5468号
声明
本文仅为交流探讨之目的,不代表广悦律师事务所或其律师出具的任何形式之法律意见或建议。如需转载或引用本文的任何内容,请与本所沟通授权事宜,并于转载或引用时注明出处。如您有意就相关议题进一步交流或探讨,欢迎与本所联系。
本文作者
互联网与数字经济领域
互联网与数字经济领域为广悦律师事务所组建的,专注在数字经济领域提供法律服务的律师团队。团队由广悦主任杨杰律师带领多名资深律师和专业人员共计20余人组成。
团队自成立以来,为国内外超过100家上市公司、互联网企业、科技企业以及传统行业向数字化转型的企业提供包括数据合规、数据治理、个人信息保护、股权设计、股权投融资、数字产品合规评估以及争议解决在内的创新型法律服务。
团队多次荣获钱伯斯、ALB、《商法》、The Legal 500、Asialaw 、Legalband等国内外法律评级机构的青睐与推荐。现服务客户包括腾讯微信、阿里巴巴、广汽埃安、维他奶、视源股份、华泰期货、蓝月亮等。客户行业覆盖人工智能、智能制造、金融、医疗、汽车、消费、媒体、科技等领域。
作者丨张昌倩、郭嘉琪
编辑丨何雪雯
审核丨欧阳进潼
审定丨品牌宣传与市场拓展委