随着人工智能行业飞速发展,数据标注行业也备受关注。国家数据局数据显示,我国7个数据标注基地数据标注规模再创新高。近日,由智合标准中心组织编制的《面向人工智能的数据标注合规指南》编制工作已经启动。广悦律师事务所高级合伙人冯清清律师作为编制组专家代表,接受了中央广播电视总台中国之声的独家专访,围绕编制背景、标准核心内容等进行了介绍。
以下为中央广播电视总台中国之声记者周尧的报道:
一、当前数据标注产业的发展如何?
2024年5月,国家数据局公布成都、沈阳、合肥、长沙、海口、保定、大同等7个城市作为全国数据标注基地,数据标注也从此上升至国家战略。10个月时间过去了,截至目前,这7个基地数据标注总规模达到17282TB,相当于中国国家图书馆数字资源总量的6倍左右。目前已形成医疗、工业、教育等行业的高质量数据集335个;赋能121个国产人工智能大模型研发;引进和培育标注企业223家;标注从业人员达5.8万人;带动数据标注行业相关产值超过83亿元。
冯清清表示,目前,数据标注行业的现状是政策利好,产业狂奔,但规则仍在路上。
冯清清:我们现在要回应人工智能行业当前面临的几大痛点。
第一个是在企业层面,面临着合规标准缺失,数据标注行业缺乏统一的合规标准。
第二个是数据的权属不清,就像大家都在投喂,都在训练模型,不断的升级迭代,但是投喂给模型的语料或者数据,就像借书不登记一样,你都用完了,训练完了,你不知道是谁的。
第三个问题是隐私保护的薄弱,就像日记本没上锁一样。
第四个是标注的质量不稳定,模型学到的很可能是一个错题集,这会导致最后模型它生成的东西,容易偏科或者是出现幻觉。
第五个是标注的成本和效率的问题,比如说高质量的标注其实是需要大量的人力和时间的,但是市场竞争又要求大家都能够快速的迭代模型,而行业又没有一个合规的标准指引,那么大家往往都会因为推效率赶进度,最后是会漠视行为的合规性的。
二、标准编制将指向哪些问题?
国家层面,2025年初,国家发展改革委等部门发布《关于促进数据标注产业高质量发展的实施意见》,为促进产业发展指明方向,也为行业发展构建了顶层设计。而正在编制的合规指南,则是帮助企业厘清什么数据能“投喂”AI、怎么“投喂”才健康。
冯清清表示,本次标准编制,是智合标准中心邀请了人工智能厂商、数据标注企业、合规专业服务机构等加入标准起草编制组,共解数据标注合规之困。
冯清清:编制中的标准,就像是为数据标注行业来量身定制的一个法律说明书或者是合规说明书,它涵盖了数据标注的全流程,包括数据来源、人员管理以及隐私保护的合规要求。
冯清清表示,指南围绕“业务场景、人员管理和企业经营”三个核心展开,聚焦从数据“出生”到“成长”的关键合规议题展开编制。
冯清清:合规议题方面,主要是数据来源,标注的内容和流程,标注的人员管理,数据安全和隐私保护,企业的监督和合规审计。
三、数据标注工作合规化,需要哪些主体的参与?
纵观数据标注产业链,可以划分为三个核心环节,分别是上游——数据资源供给方,主要包括政府机构、企业和科研院所等。它们提供原始数据,相当于AI大模型的“原材料”。中游——数据标注服务方,主要包括技术公司、平台运营方、数据交易所、人力资源企业等。下游——配套支持方,包括标注人才培训机构、第三方合规评估机构、数据安全服务商等。以上链条形成了一个完整的数据标注生态。
冯清清表示,促进数据标注行业合规发展,不仅需要人工智能行业共同努力,还需要跨部门联动,才能确保数据标注行业高效、理性发展。
冯清清:我们在为企业做辅导的时候,经常说合规要横向联动和纵向贯通,建立多元共治的体系。在横向协同的部分,强调的是跨职能的治理,比如监管部门网信办、工信部等会联合制定数据合规相关监管规则。在纵向贯通的部分,它更多强调的是从国家到地方的分层治理。总而言之,合规不是一家一口的事儿,它是一个众人拾柴,政府管方向,技术提效率,企业守规矩,第三方促规范。

END
律师简介
互联网与数字经济领域介绍
互联网与数字经济领域为广悦律师事务所组建的,专注在数字经济领域提供法律服务的律师团队。团队由广悦主任杨杰律师以及多名资深律师和专业人员共计20余人组成。
团队自成立以来,为国内外超过100家上市公司、互联网企业、科技企业以及传统行业向数字化转型的企业提供包括数据合规、数据治理、个人信息保护、股权设计、股权投融资、数字产品合规评估以及争议解决在内的创新型法律服务。
团队荣获《商法》2024年度“隐私及数据保护”“传媒、娱乐及体育”领域榜单推荐,2023年度ALB华南华中地区科技、媒体与电信领域大奖,服务客户包括腾讯微信、阿里巴巴、广汽埃安、维他奶、视源股份、华泰期货、蓝月亮等。客户行业覆盖人工智能、智能制造、金融、医疗、汽车、消费、媒体、科技等领域。
供稿 | 霍雨佳
编辑丨苏韵
审核丨欧阳进潼
审定丨品牌宣传与市场拓展委