治理之智 |《大模型数据训练中的著作权侵权风险及制度回应》中央财经大学杜颖教授分享|复制权|著作权法|知识产权

分享至

以下文章来源于阿里巴巴人工智能治理研究中心

导语：

过去的一年里，生成式人工智能和版权相互关系被反复讨论，技术和法律的持续对话让更多人理解到版权内容对模型发展的重要意义，也认识到模型发展对文化艺术创作带来的增量效果，避免二分和对立，推动建立共识形成，逐渐成为各界共同努力的方向。面向未来，版权法律制度将更细致地穿行于大模型研发、部署、应用阶段，通过制度构建和法律解释实现各方利益的平衡，在降低模型对版权人短期影响的同时，通过促进技术进步共享长期发展带来的收益。而选择制度建设的“合适时点”，可以让法律和技术进一步共同努力，为人工智能技术的发展提供更加负责任、安全且创新的环境。

近日，——【大模型技术发展与治理创新研讨会】在北京成功举办。本次会议由北京市互联网信息办公室指导，阿里巴巴集团主办，邀请了中国电子技术标准化研究院、中国社会科学院、北京大学等多家研究机构的专家，共同探讨人工智能技术发展的机遇与治理创新的路径。

会议围绕多个主题展开分享，现陆续分享，以下为中央财经大学法学院教授、知识产权研究中心主任杜颖的主题分享《大模型数据训练中的著作权侵权风险及制度回应》。

今天会议的主题可以归纳为两个关键词——“安全”与“发展”。在我看来，“安全”是分层次的，具有不同的位阶。

1.首先，安全是人类生存与发展的安全。从技术角度而言，这一层次要求我们深入思考人工智能是否对人类的生存与发展构成威胁。

2.其次，是军事和国防安全，也即主权国家的安全。

3.第三，涉及伦理与隐私安全。

4.最后，则与人工智能发展过程中的知识产权风险和安全治理相关，例如在数据训练过程中涉及的著作权等问题。

相较于前述提到的三个，最后的安全问题似乎显得不那么重要。毕竟，如果人类的生存与发展都已岌岌可危，探讨著作权乃至知识产权问题似乎就没有意义了。然而，我认为著作权侵权的风险恰恰值得关注。因为它与语料供给的质量和数量息息相关，而语料的供给又可能是决定人工智能发展命脉的关键所在。因此，第四层次的安全问题具有其特殊的重要性。

今天我所讨论的主题是《大模型数据训练中的著作权侵权风险及制度回应》。在我的分享中，我将重点放在训练过程中，而对后端输出端的关系暂不深入探讨，尽管两者之间事实上有紧密联系。此外，数据的收集、处理、训练以及后端输出往往是不可完全割裂的。但为了更清晰地阐明问题，我对其进行了人为的切割和界分。

需要说明的是，我今天的报告内容并非我的原创性思考，而是结合目前法学界，尤其是知识产权领域学者们的研究成果，给大家提供一些分析思路。从国内外学者的讨论来看，关于这一问题的主要观点已经基本成形，也许我的检索有局限，但是目前似乎并没有出现更新的理论或分析视角。

今天的分享围绕两个核心问题展开：第一，大模型数据训练中的著作权侵权风险是什么？第二，针对这些风险，我们从制度层面应当采取怎样的回应策略？在此基础上，我将从以下几个方面进行深入分析：数据训练过程中的问题不仅影响人工智能技术的质量和性能，还引发了伦理、安全及法律等多层次的思考。现有的著作权法律制度能否有效规范技术现象？如果不能，我们需要怎样的制度调整来应对技术发展带来的新问题？这些问题都是我们必须重点讨论的内容。

如今无论是学界还是实务中，引发巨大争议的是大模型数据训练的版权侵权问题。明确大模型数据训练的著作权侵权风险有必要回归到大模型、数据训练和版权法的语境中，明确为什么是数据？数据引发了什么问题？以及这些问题在现有制度框架内是被如何解释和解决的？

首先，关于为什么是数据引发了如此巨大的问题，也就是为什么发展人工智能大模型就必须开辟数据沃土呢？这是认识大模型数据训练与版权法发生冲突的基础。人工智能（Artificial Intelligence, AI）可被简言为“机器应用算法进行数据学习和使用所学进行如同人类进行决策的能力”。而大数据模型是人工智能的一类，整合大数据技术与人工智能算法，旨在从大规模、复杂的数据集中挖掘有价值的信息，并构建出能够模拟人类智能行为的模型。

从大模型的发展来看，数据的必要性与人工智能怎么进行决策或生成，在本体论上从“知识”到“数据”、方法论上从“规则”到“涌现”的不彻底的转向密切相关。尤其是2010年以来随着人工神经网络和深度学习技术的发展，人工智能和大模型的训练与生产已经基本建立起一种联结主义和“涌现”的技术路径。

涌现其实是一种隐喻，这个喻体的本体是“在复杂系统自组织过程中产生的新颖而连贯的结构、模式和性质”。人工智能语境下的本体可以从复杂自适应系统理论提出者约翰·霍兰关于生成系统的模型和还原思想研究中去挖掘。也就是说在这个系统中，规则本身是不需要被提前编写好的，但是可以在神经元与大量数据的激活、抑制与连接中被表征，从而“浮现性”地将规则表征出来——这也是常讨论的算法黑箱的由来。因此，在事实上，面对基于知识的人工智能和基于数据的人工智能两类方法论，“大力出奇迹”式的海量数据投喂已经是当下AI大模型发展无法脱离的快车道。

其次是数据引发了什么问题，因为AI发展需要数据，数据可能含有版权保护的作品，所以事实上大模型的发展陷入了这样一个版权保护的两难之中，也就是说直接放弃海量数据对大模型发展来说是不可行的，但是继续使用海量数据在版权侵权风险上也面临不可控的问题。

关于不可行，如果人工智能放弃使用可能含有版权作品的海量数据会发生什么？

第一点就是性能的直接下降，这里我们需要介绍著名的Scaling Law。Scaling Law最早由Open AI在2020年一篇文章中提出，其指出随着模型大小、数据集大小、计算量的增加，模型的性能会提高。当不受其他两个因素的制约时，模型性能与每个单独的因素都有幂律关系。根据Scaling Law，人工智能对数据的需求呈现出一种指数级增长的趋势。更高质量、更丰富的数据是以GPT为例的生成式大模型成功的驱动力。

第二点是可能招致的隐形偏见，如果机器学习所使用的数据本身不够完整，或者存在一定的价值倾向，那么机器学习的结果也会存在价值倾向，从而导致人工智能创作的作品存在一定的偏见。这在当下可能只是一个性能问题，但是当智能生产进一步融入社会生产和分配，智能革命走入下半场时，人工智能生成内容的偏见问题可能就是致命的。

第三点是放弃版权保护之内的数据必然会带来数据耗尽的问题。这进一步地可以被拆解为三方面的内容。一是专业领域和场景化的使用是需要特殊的数据的，比如金融、生物、法律领域，但是这些领域的文献资料通常是受到版权保护的。

二是AI训练模型实际上是需要不断更新的，公有领域的内容重要来源之一就是脱离了版权保护期限，甚至是版权保护制度尚未建立、建立不完善时的产物，而人类70%的知识是在不断实践和交流中更新的，对AI来说如何根据实时多元证据，对机器生成的不准确内容进行修正，使系统生成准确内容的能力持续提升，将具有重要的理论和应用价值；三是公开领域的资料本身是非常有限的，有车万翔等计算机学者直接指出公开数据必将耗尽的预言。

回到AI关于数据的版权两难，放弃海量的数据不可行，那么使用海量数据呢？这又会引发相当的著作权侵权风险。人工智能大模型对数据的使用过程可以大致归结为“输入－学习－输出”三个阶段，具体而言可能包括问题建构、数据收集、数据清理、数据标注、模型训练、模型评估、模型部署与推理以及数据分发。大模型获取、输入、学习直至模型形成过程中的数据使用，在我国《著作权法》上主要存在以下两类著作权侵权风险：一是复制权侵权风险，主要发生在数据收集和储存阶段。

《著作权法》意义上的复制行为要求将作品从一个有形载体转移到另一个有形载体，且作品能在该载体上相对稳定、持久地固定。该权利规制的是在未经权利人许可且无《著作权法》第二十四条规定的法定抗辩事由的前提下，在有形载体上再现作品的行为，即增加作品复印件的行为。

而对于大模型而言，数据获取的方式大致可以分为三类：一是自己经营累积形成，经或未经权利人允许加工处理或商业转让的数据；二是通过购买或者通过接入获得许可的数据；三是直接通过互联网抓取网站或数据库获得的数据。其中第三类，也就是通过爬取的方式广泛获取数据是大模型发展很难避免的数据收集方式之一。

利用爬虫等技术从互联网中收集海量作品并建立作品数据库，将其存储在硬盘等物质载体上，借此对人工智能进行训练，则该行为无疑形成了诸多作品的复制件，在解释意义上应属于受复制权规制的复制行为。尤其是2021年6月1日开始施行的现行《著作权法》在原有的7种复制类型后专门增加了“数字化”复制方式，人工智能和大模型的数据使用似乎不可避免于复制权的限制。

复制权侵权是目前大模型数据训练问题讨论最多、争议最大，也是最不可避免的一个话题，有相当多的学者在复制权侵权的解释上做了努力，主要应当包括借助临时复制以解释复制权、出于对过度泛化的复制权与数字时代不相适配的反思以图重构复制权共两种主要方向。但是总的来说目前两种方案的可行性仍在探讨中。大模型的数据训练仍然面临着“训练即侵权”的问题。

二是改编权侵权风险，从数据训练的角度来说主要发生在数据清理、数据标注等环节。

作为一种版权侵权行为，要免除其责任大致有两条路径，一条是通过解释，否定其构成侵权，也就是有学者提到的“排除在专有领域之外”，另一条是先认为其构成侵权，再通过著作权权利的限制制度予以豁免，也就是有的学者提到的“先进后出”。

那么是否可以使用第一类思路，针对现有规范的解释，将数据引发的版权风险排除在版权专有保护范围之外？可能非常困难。讨论得比较多的是复制权，我们也暂以复制权为焦点讨论。

一类是大模型数据训练是否可以构成临时复制，以认定属于复制权规制范围之外的行为。所谓临时复制，是作品内容数据不会固定在物质载体上进行储存，最经典的场景就是用户在互联网传播中欣赏数字作品时，机器会自动将数据调入内存或硬盘中的缓存区，形成持续时间极为短暂的复制件。

但是大模型的数据训练是否能够被临时复制的外延所包括？临时复制提出的要求主要包括在时间上要是“短暂的”，但对于大模型的数据训练来说，数据的使用恐怕不会是“短暂的”。有学者提出了反对，认为只要对作品的保存没有超出为完成相关自动技术过程所需要的时间，且被保存的作品在技术过程完成后即被自动删除无需人工介入，这种保存就符合对临时性的要求，主要援引的是欧盟法院关于临时复制的释义。

但一方面，这种解释仅能解释“实时爬取”的大模型数据获取方式一类情形，但是对于大部分大模型来说，数据集可能不是以实时训练的方式进行的，必须建立在海量作品保存在硬盘等物质载体形成数据库这一前提之下；另一方面，根据深度学习的技术逻辑，大模型对数据甚至是需要反复运用的，以实现预训练和微调优化的技术路径，这都需要以原有数据的储存为基础，不太可能自动删除数据并不形成复制件。

另一类是对复制权本身的概念内涵进行反思。复制权作为工业时代的制度产物，历经数字时代和智能时代体现出了一定的不适应性，故而有学者提倡在权利法的视角下，重塑复制权应对复制权的功能进行重新定位，以“固定性+传播性”的构成要件定义侵犯复制权的行为。

第二类思路使用的是“先出后进”的方式，在我国著作权法上，可行之途包括合理使用和法定许可模式。其中法定许可模式在大模型数据训练的语境下具有诸多不适应之处。这种以特定方式发表作品、不经许可但支付费用的方式，主要面对着以下几个方面的问题：

其一是如何准确溯源并确定著作权人，大模型数据训练中数据的权利来源人群体庞大，如果以爬取的方式获取作品数据其权利人和权利归属更是难以理清，想要切实地梳理清楚每一份作品的权利状态、权利人，并找到确切的权利人依次与其商讨谈判，这个工作量恐怕是不可负担的；其二是如何进行协商并合理定价？大模型使用作品的方式多样，形式复杂，每一份作品对模型生成的贡献更是难以计算，这种情况下如何计算版税设定合理的费用标准，恐怕也是难以实现的。

其三是如何承担海量授权费用？如果采用法定许可的模式就势必要为每一份著作权保护范围内的作品缴纳费用，但是大模型所使用的作品系万亿级参数，如果要求大模型开发方真的为每一份作品付费，这个成本恐怕少有公司能够负担。

最后是合理使用，也就是不需支付费用而直接使用作品的模式。但是囿于我国著作权法对合理使用的封闭列举式的适用模式，也难以直接适用合理使用。合理使用规定在我国著作权法的第二十四条，必须符合所列明的十三项情形之一才可认定为合理使用。与大模型数据训练相关的合理使用情形包括第二十四条第一项“个人学习、研究”，第二项“适当引用”和第六项“科学研究”。这些情形适用于大模型数据训练的可能性都比较低。

可以说在当下我国著作权法上，大模型数据训练面临的著作权侵权风险难以得到解决，因此在制度上如何予以进一步回应呢？

从域外实践来看，合理使用似乎是一种可能的工具。例如美国，其运用合理使用的四要素认定和转换性使用的方法，予以认定大模型数据训练得到版权豁免的可能。在美国最新的判决中，驳回了Raw Story等数字新闻媒体机构对OpenAI未经同意使用其版权作品进行人工智能训练的指控，虽然其主要依据的是原告诉讼资格问题，但判决中法官也提到拒绝承认原告遭受了事实上的损害，因为原告并未直接指出其所述被告违反DMCA（数字千年版权法）第1202条的行为造成了任何具体的、实际的损害后果。

但是这个案子不是针对版权作品本身的使用问题，权利主张针对的版权管理信息，关于内容使用的司法判决给出的回答还在等待中。日本著作权法则创设了广泛的对计算机分析的例外，但同时强调该复制和向公众提供不得不合理损害权利人的利益，将计算机分析例外适用于大模型数据训练还存在争论。

欧盟则在《单一数字市场版权指令》中规定了“文本数据与挖掘的例外”，明确增加教育机构和文化遗产机构可以使用文本与数据挖掘例外的主体，并且在选择性例外中允许成员国选择不限制适用文本与数据挖掘例外的主体。欧盟的文本数据与挖掘的例外规定具有强限制性。

在我国，《生成式人工智能服务管理暂行办法》对数据使用的合法性提出了明确要求，规定训练数据处理需遵循合法来源，不得侵害他人依法享有的知识产权。然而，关于合法来源的具体定义尚不明确：是否必须购买或授权？不侵权即合法吗？何为侵权？这些都具有探讨的空间。

针对人工智能引发的著作权问题，必须从顶层设计的层面进行系统规划。在这一过程中，需要重点考虑以下几个方面：产业需求、国际竞争、技术实现的可能性与成本以及人类福祉。科技伦理问题应成为顶层设计的重要考量因素。人工智能技术的发展可能对人类福祉产生长期和短期的双重影响，如何权衡技术发展速度与社会福祉之间的关系，是顶层设计需要解决的核心问题。人工智能发展的快与慢，对人类福利的实际影响尚无定论，但这一因素不可忽视。

关于规则的制定时机，存在不同的观点：

1. 立即制定具体规则

当前已有不少人工智能相关案件进入司法程序，法官需要依据现有法律作出裁判。在这种情况下，规则的缺失可能导致司法裁判的混乱或不公。因此，立即制定规则为司法实践提供明确指引显得尤为紧迫。

2. 延缓制定具体规则

从另一个角度看，人工智能技术尚在快速发展之中，规则制定得过早可能会制约技术创新。因此，有学者建议暂缓规则的最终确定，先通过试行的方式探索更合适的规制路径。一种方案是借鉴《信息网络传播权保护条例》为互联网服务提供商（ISP）设立避风港原则的经验，暂时为人工智能技术的应用设定缓冲期。在试行一至三年后，通过评估其实施效果，进一步优化规则。另一种方案是用旧瓶装新酒，要么采用严格责任，要么采用过错责任的宽松政策。

在解决人工智能技术与法律规则冲突的过程中，法律与技术的对话正逐渐趋于深入和顺畅。从早期双方“话语不通”的局面，到如今法律与技术能够逐步理解彼此的立场和需求，标志着这一领域的沟通与磨合正在加速。这一融合表明，法律与技术的共同努力将为人工智能技术的发展提供更加负责任、安全且创新的环境。通过法律规则的完善与技术发展的自律，我们有理由相信人工智能能够为社会带来更多福祉，让我们的时代更加美好❤️

版块介绍 — 治理之智

在全球化背景下，科技的快速发展也带来了前所未有的治理挑战。本板块内容依托阿里巴巴集团先进的AI科技能力、丰富的应用场景与负责任的技术生态，聚焦于AI风险、AI大模型安全、AI大模型开闭源生态、AI大模型出海等AI治理政策研究，基于技术理性的风险观，为大模型发展与安全平衡与取舍提供独到见解。同时，我们致力于收集和分享海内外AI治理先进理论与经验，为构建合理的科技治理体系提供智慧与灵感。

Reading

3、

4、

5、

6、

7、

8、

9、

10、

11、

12、

13、

14、

15、

17、

18、

19、

20、

21、

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.