数日前,国家数据局印发了《关于推进行业高质量数据集建设行动的实施方案》,明确指出行业高质量数据集是推动“人工智能+”赋能千行百业、实现产业落地的基础性、关键性资源。可见,训练数据的知识密度与专业价值已成为影响AI大模型竞争力的核心要素之一。海内外模型开发者均需争夺更优质的数据资源。
在此背景下,据相关媒体报道,部分平台却正通过要求付费、升级技术手段等方式限制数据被用于AI训练,例如社交平台Reddit提出“我们的数据语料库非常有价值,不想免费提供给科技巨头们”并成为首批公开表态要求科技巨头(如AI公司)付费使用数据的企业;全球知名软件开发者论坛Stack Overflow提出面向AI公司实行数据授权许可的付费机制;知乎被指升级风控策略,使用乱码技术干扰搜索引擎和AI爬虫等。此时,AI模型训练环节常用的免责理由——“合理使用”,是否还有适用空间,可能需要被重新审视。
我国法律框架下的“合理使用”可指向肖像权的合理使用、其他人格利益(如姓名、个人信息等)的合理使用、著作权的合理使用等,但从实务来看,AI训练环节争议较为集中在是否构成著作权的合理使用。故我们主要在著作权法的框架下作进一步探讨。
《著作权法》第二十四条就“合理使用”进行了明确界定,要求该等使用不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益,具体使用行为包括:
-
为个人学习、研究或者欣赏,使用他人已经发表的作品
-
为介绍、评论某一作品或者说明某一问题,在作品中适当引用他人已经发表的作品
-
为报道新闻,在报纸、期刊、广播电台、电视台等媒体中不可避免地再现或者引用已经发表的作品
-
报纸、期刊、广播电台、电视台等媒体刊登或者播放其他报纸、期刊、广播电台、电视台等媒体已经发表的关于政治、经济、宗教问题的时事性文章,但著作权人声明不许刊登、播放的除外
-
报纸、期刊、广播电台、电视台等媒体刊登或者播放在公众集会上发表的讲话,但作者声明不许刊登、播放的除外
-
为学校课堂教学或者科学研究,翻译、改编、汇编、播放或者少量复制已经发表的作品,供教学或者科研人员使用,但不得出版发行
-
国家机关为执行公务在合理范围内使用已经发表的作品
-
图书馆、档案馆、纪念馆、博物馆、美术馆、文化馆等为陈列或者保存版本的需要,复制本馆收藏的作品
-
免费表演已经发表的作品,该表演未向公众收取费用,也未向表演者支付报酬,且不以营利为目的
-
对设置或者陈列在公共场所的艺术作品进行临摹、绘画、摄影、录像
-
将中国公民、法人或者非法人组织已经发表的以国家通用语言文字创作的作品翻译成少数民族语言文字作品在国内出版发行
-
以阅读障碍者能够感知的无障碍方式向其提供已经发表的作品
-
法律、行政法规规定的其他情形
在构成合理使用的情况下,法律允许使用者不经著作权人许可,不向其支付报酬。因此,“AI训练”如构成法定合理使用行为,原则上权利人无权通过声明禁止等方式限制使用。然而,从上述列明的合理使用行为来看,“AI训练”一非个人学习、研究、欣赏之用,二非为介绍、评论某一作品或者说明某一问题的适当引用,而就其他适用于特殊主体、特定场景的情形则更加不符,似乎尚无法归入其中任意一项。此时,若权利人已有限制声明,模型开发者还故意绕开相关要求使用数据进行训练,不排除被认为“不合理”地损害著作权人的合法权益,从而使得适用“合理使用”的边界更具争议。鉴于法律规定尚未明晰,需借助当前司法实践进一步厘清。
(一)中国境内
从当前维权动态来看,AI模型训练数据的合法性问题已逐渐引起社会关注。据媒体报道,视频平台爱奇艺因认为“海螺AI”未经授权使用了其享有版权的素材进行模型训练,向上海市徐汇区人民法院提起诉讼。该案为境内首起“视频平台针对AI视频大模型侵权”提起的诉讼,目前尚在审理中。此前,Trik AI也曾被多名画师指控未经授权使用其作品训练AI模型,该案已在北京互联网法院公开审理,不过同样尚未有公开判决。
虽然目前针对平台使用他人作品用于模型训练是否构成合理使用暂无明确定论,但已有个案对模型训练的素材使用问题进行了初步回应。在首例涉生成式人工智能平台侵害信息网络传播权案(又简称“奥特曼”案)中,原告将删除与奥特曼有关的训练数据作为诉请之一,法院对此认为:“在无证据证明生成式人工智能是为使用权利作品的独创性表达为目的、已影响到权利作品正常使用或者不合理地损害相关著作权人的合法利益等情形下,可以被认为是合理使用”;而近日完成二审宣判的上海首例人工智能大模型著作权侵权案(又简称“美杜莎”案)中,二审法院也指出“而其将图包输入LoRA模型的行为,则只有在LoRA模型用户(本案中即为上诉人李某本人)的指令下再次生成了与A公司及B公司作品实质性相似的作品之时,才构成对复制权的侵害”。可见,境内司法实践目前对于AI数据训练的规制主要集中在“输出端”。
(二)境外地区
区别于境内,境外有关模型训练的合理使用问题已有法院作出明确回应,不过,仍尚未形成稳定、统一的裁判共识,我们就部分典型案例整理如下:

虽然目前美国已有部分法院认定使用他人作品训练AI模型可构成合理使用,但整体上仍存在特定条件,包括公司产品形态与权利人作品之间不构成可替代性、获取原作品的方式不能为盗版网站等非法渠道、训练模型的行为不能对权利人作品产生不利影响等。
(三)小结
综合而言,从当前境内外的司法实践来看,AI训练数据被认定构成合理使用,需满足如下条件:
-
使用目的发生转换,并非以使用权利作品的独创性表达为目的
-
数据来源应当合法,而非盗版
-
输出内容不构成侵权
-
不会对权利作品产生实质性替代的效果或影响其正常使用
-
不存在其他不合理损害相关著作权人合法利益的行为
结合现行法律规定与境内外司法实践来看,使用数据训练AI模型存在一定合规边界,尤其在数据持有方已通过声明、技术手段等方式限制数据用于AI训练的情形下,AI模型开发者对数据的使用应更加谨慎:
其一,尊重权利限制,避免违规抓取。AI模型开发者在数据采集时,应当严格遵守平台规则与权利人公示的使用禁令,不得采用破解风控、伪装身份、多节点分流爬虫、抓取加密内容等方式绕开技术防护获取受限数据,否则可能因采集行为不当,影响权利人平台的正常使用。尤其在第三方平台也是AI大模型的情况下,如抓取、分析、利用对方模型参数等数据进行自我训练,极大可能因与第三方平台在功能、用途和目标用户上高度重合,产生现实的市场替代可能性,无法适用合理使用,从而引发侵权风险。
其二,优先协商授权,规范数据来源。从当前司法实践来看,“数据来源合法而非盗版”也成为了法院判定是否构成合理使用的重要影响因素,若第三方已设置付费获取的限制,AI模型开发者仍通过非官方授权渠道获取盗版资源并进行训练,不排除被认定具有侵权主观故意的风险。即便训练行为本身具备转化属性,数据源本身存在权利瑕疵也会大幅削弱合理使用的抗辩效力。因此,面对要求训练数据付费的第三方,建议优先协商授权,在协议中明确数据使用范围、使用期限、付费标准、生成内容的权利归属等,并妥善保管沟通记录、授权文书、付费凭证等材料,以备潜在的法律争议。
其三,优化模型算法,确保输出合规。虽然当前对于“AI训练”是否属于合理使用尚无统一认定,但AI生成内容不应侵权应已成为全球共识。司法实践中普遍采用“在先接触+实质性相似”标准判定输出内容侵权与否,一旦AI生成的文本、图片、音视频等内容与在先权利作品构成实质性近似,即便训练环节存在适用合理使用的空间,开发者仍有可能需就输出环节承担侵权责任(何种情况下开发者需承担侵权责任,可见我们此前专栏文章《明责而后笃行:浅析AI生成内容平台责任边界》)。因此,建议开发者一方面优化底层算法与模型结构,强化内容差异化生成能力,降低模型复刻原作独创性表达的概率;另一方面则是搭建更完善的内容审核机制,采用技术手段拦截高风险内容,同时配以人工复核,尽可能降低输出内容侵权的风险。
声明
本文仅为交流探讨之目的,不代表广悦律师事务所或其律师出具的任何形式之法律意见或建议。如需转载或引用本文的任何内容,请与本所沟通授权事宜,并于转载或引用时注明出处。如您有意就相关议题进一步交流或探讨,欢迎与本所联系。
本期作者
数字经济与人工智能领域介绍
数字经济与人工智能领域由杨杰主任牵头组建,是专注于互联网及数字经济行业的专业律师团队。团队规模超过20人,由在数字经济与人工智能法律服务方面具备丰富实践经验和深入研究的资深律师组成。
自成立以来,我们已为国内外超过100家上市公司、互联网企业、科技企业以及传统行业数字化转型企业提供创新型法律服务,涵盖数据合规、数据治理、人工智能监管、个人信息保护、股权架构与投融资、知识产权及争议解决等多个领域。
团队多次获得钱伯斯(Chambers)、ALB、《商法》、The Legal 500、Asialaw、Legalband等国内外权威法律评级机构的认可与推荐。服务客户包括腾讯微信、阿里巴巴、广汽埃安、维他奶、视源股份、华泰期货、蓝月亮等,客户行业覆盖人工智能、智能制造、金融、医疗、汽车、消费、电信媒体及科技等多个领域。
作者丨杨杰、罗楚健
编辑丨吴宝渲
审核丨苏 冰
审定丨品牌宣传与市场拓展委


