认定AI模型训练过程中数据使用构成著作权侵权的司法裁判出炉——美国法院就汤森路透诉罗斯智能案作出简易判决

2025年2月11日，美国特拉华州地区法院就汤森路透（Thomson Reuters Enterprise Center GMBH and West Publishing Corp.）诉罗斯智能（Ross Intelligence Inc.）一案（案件编号：1:20-cv-613-SB，以下简称“汤森路透诉罗斯智能案”）作出简易判决（即summary judgment），认为部分涉案作品的侵权事实明确，不需要进行陪审团审理，可认定罗斯智能公司未经授权使用汤森路透公司Westlaw数据库中的法律批注（Headnotes）训练其AI法律研究工具构成直接著作权侵权，并驳回罗斯智能的合理使用（fair use）抗辩。

值得注意的是，本案法官曾经在2023年9月25日作出过简易判决，拒绝了原告关于认定侵权成立的简易判决。这是因为当时的证据不足以证明存在不容争辩的侵权事实，需要进一步的庭审和裁判才能得出结论。后经过庭审和更多证据的引入，法院决定修正其此前的观点，认为部分侵权事实确凿，可以直接作出侵权判定。

本案是AI产业著作权侵权风险司法实践的重要进展。案件聚焦于AI模型训练过程中使用的数据，即非生成式AI（Non-Generative AI）的中间复制行为，并不涉及生成式AI（Gen-AI）模型输出结果的著作权侵权风险问题。本案中，法院明确认定AI模型训练过程中存在侵犯著作权的复制行为并且不能适用合理使用抗辩。在中国司法实践中，关于AI模型训练过程中的数据使用是否构成著作权侵权仍无明确认定，通常不能仅凭输出结果反推训练过程中的侵权行为（广州互联网法院（2024）粤0192民初113号“AI生成奥特曼图片侵权案”）。原告需要对被告在AI模型训练中使用了其受著作权保护的作品进行单独举证。

一、案件背景

原告汤森路透是全球领先的法律信息服务商，其旗下知名法律检索数据库Westlaw拥有海量判例、法规，以及独创的“法律批注”与“关键号码系统”（Key Number System），实现对司法判决的总结与分类。被告罗斯智能是一家新兴法律科技公司，致力于开发基于AI的法律检索搜索引擎，与Westlaw形成直接竞争关系。为了训练其AI模型，罗斯智能曾经向汤森路透提出授权许可使用Westlaw数据的请求，但因其竞争对手身份遭拒。随后，罗斯智能转向第三方服务商LegalEase，购买了25,000份“批量备忘录”（Bulk Memos）作为替代训练数据。这些批量备忘录是律师对特征法律问题的好答案与坏答案的汇编，根据Westlaw的法律批注编写。LegalEase在给律师的操作指南中还明确要求不得直接复制粘贴Westlaw法律批注。

为方便读者理解案件事实，法院还特别对批量备忘录问题、法律批注、判决原文的比对进行了如下的举例（注意：下表内容并非是案件中的客观事实，而是法官为说明问题而编纂的示例）：

被告使用批量备忘录问题

著作权意义上的原创性是否意味着作品是独立创作的并且具有最低限度的创造性？

原告的法律批注内容

著作权意义上的原创性指的是作品是独立创作的并且具有最低限度的创造性。

未处理过的司法判决原文

“原创”作为著作权中使用的术语，仅意味着作品是由作者独立创作的（而非从其他作品复制），并且至少具备最低限度的创造性。

汤森路透遂以著作权侵权为由提起诉讼，指控罗斯智能侵权了21,787项法律批注、500项判例的编辑内容及关键号码系统。

二、裁判焦点与法院分析

在此次的简易判决中，法院针对其中的2,830项法律批注作出裁判，认定有2,243项法律批注构成侵权，即罗斯智能实施了复制行为，并且合理使用的抗辩并不成立。

案件核心争议焦点包括以下三个方面：

法律批注、关键号码系统等案涉作品是否具备原创性，即权利基础问题。
罗斯智能是否存在复制作品中具有原创性的组成部分的行为，即侵权行为问题。
罗斯智能对AI模型训练数据的使用行为是否构成合理使用抗辩。

为方便读者理解，我们认为有必要对简易判决进行介绍。简易判决并非是一审裁判决定，而是在案件审理初期，假如一方可以证明针对某一焦点问题“不存在对任何关键事实的真实争议”，法院就可以在没有陪审团审理的情况下，直接对该问题进行裁判。也就是说，当前的简易判决仅仅对部分涉案侵权事实进行了裁判，针对本案中的剩余18,957项法律批注、500项判例编辑内容及关键号码系统是否构成侵权，还有待案件的进一步审理。

但是，该份简易判决的启示意义在于，其基于AI领域的特定技术事实，对侵权行为和合理使用抗辩行了分析和认定，奠定了该案后续裁判的基本法律框架。也正因如此，我们将首先在本章的第1、2小节对这两个焦点问题的分析进行介绍。原创性问题属于著作权侵权案件中的传统经典问题，本案中的相关分析也并没有因为AI背景而对传统方法进行特别修正。因此，我们将放在本章最后的第3小节进行介绍。

1. 侵权行为的分析

为认定罗斯智能是否复制了作品中具有原创性的组成部分，法院需要判断汤森路透是否已经证明（1）存在复制行为，以及（2）具备实质性相似。

法院阐明复制行为的认定以“接触”加“实质性相似”为标准。特别的是，法院考虑了相关专家报告的内容，其中显示，这2,830项法律批注所对应的批量备忘录问题与法律批注文本高度相似，并且法律批注文本与司法判决的原文存在显著差异。相关专家报告指出，这些批量备忘录问题就是基于“复制”Westlaw法律批注产生的，并非是对司法判决原文的总结。同时，双方对于LegalEase接触了Westlaw数据库并基于数据库内容准备了涉案批量备忘录的事实不存在任何争议。经过对2,830项法律批注与相应批量备忘录问题的逐一文本比对，法院认为其中的2,243项法律批注涉及的侵权事实确凿，陪审团不会做出相反认定，因此在简易判决中确认被告罗斯智能存在复制行为。

针对实质性相似问题，法院认为需要评估涉案侵权作品是否实质性挪用了原告作品。虽然具体比对的2,830项文本内容作为判决附件并未对公众公开，但法院在判决中提出，当前作出决定的2,243项法律批注，其语言与批量备忘录问题的语言高度相似，并且备忘录问题语言与法院判决内容存在高度差异。其余存在模糊性的法律批注内容，将经由进一步庭审确认是否侵权。

2. 合理使用抗辩的否定：商业目的与技术必要性的严格界分

合理使用（fair use）是著作权法中的一个重要抗辩机制，旨在平衡著作权保护与社会利益。本案中罗斯智能提出的合理使用抗辩没有被法院接受。

在本案中，法院基于四个要素考虑了合理使用抗辩，包括：1、使用的目的和性质：包括使用行为是否具有商业性质，以及是否构成转换性使用（transformative use）。2、受著作权保护的作品的性质：涉及作品固有的原创性和创造性程度。3、使用的数量和质量：包括使用的部分相对于整个作品的比例，以及所使用部分的质量和重要性。4、市场影响：考虑使用行为对原作品市场或潜在市场的替代效应。

经过分析后，法院最终认定汤森路透在最重要的两个要素（第一要素和第四要素）中均占据优势，在整体权衡中获胜，最终驳回了罗斯智能的合理使用抗辩。

第一要素：使用目的与性质

如果罗斯智能和汤森路透使用法律批注用于非常相似的目的，并且罗斯智能的使用行为是商业性的，那么这一要素倾向于不支持合理使用。法院指出，罗斯智能使用法律批注的目的是用作AI模型训练数据来开发法律检索工具，与Westlaw构成直接竞争关系，具有明显的商业属性。同时，罗斯智能的AI工具输出功能与Westlaw高度类似——用户输入法律问题后，系统返回相关司法判例的检索逻辑与Westlaw基于法律批注和关键号码系统的检索机制基本无异。这一商业性、非转化性使用未能赋予法律批注“进一步的目的或不同的性质”，显著削弱了合理使用的正当性。

尽管罗斯智能辩称作为训练数据的法律批注未直接以最终产品的形式呈现给终端用户，复制行为出现在中间步骤，该中间复制数据的行为属于合理使用，并援引Google v. Oracle（2021）、Sony v. Connectix（2000）和Sega v. Accolade（1992）等计算机代码领域的经典判例，但在最终判决中，法院否认了上述案例的类比，并区分了AI模型训练数据与计算机代码的不同。法院指出，上述计算机程序的中间复制案件依赖于一个本案中不存在的因素：复制对竞争者创新是必要的。计算机代码的中间复制是为了突破技术壁垒、实现程序的相互通信，其核心是访问功能性元素；而本案中，Westlaw法律批注不涉及任何计算机代码，其基本思想只能通过复制其表达形式来获得，罗斯智能完全可以通过自主编写或合法授权获取等效训练数据，其复制行为不是实现用户新目的的合理必要手段。因此，法院否定了先前对Sony案和Sega案的援引，进而认定罗斯智能复制了法律批注，以便更容易地开发出竞争性的法律研究工具，所以不构成转化性使用。这一立场否定了AI开发中“技术必要性”对合理使用的泛化适用，强调商业竞争目的的核心影响。

因此，法院认为第一要素倾向于支持汤森路透。

第二要素：原创性作品的性质

针对第二要素，法院认为，Westlaw法律批注虽然具有“最低限度的创造性”，但其有限的创造性低于小说家或艺术家从零开始创作的文学或艺术作品，因此第二要素偏向罗斯智能。但法院也同时强调，第二要素“在合理使用争议的判定中很少起到重要作用”。

第三要素：使用的数量和质量比例

针对第三要素，法院在先前的判决中并未做出决定，但暗示倾向于支持罗斯智能，因为其提供给终端用户的输出是司法意见，而不是Westlaw法律批注，因此它“传达了很少原始内容的感觉”。法院在最新的判决中仍坚持这一观点，并且进一步论证，重要的不是在复制过程中使用的部分的数量和实质性，而是通过复制所使公众能够接触到的内容的数量和实质性，这些内容可能成为其竞争替代品。因为罗斯智能并没有将Westlaw法律批注公开提供给用户，所以第三要素有利于罗斯智能。

第四要素：市场影响

法院首先强调了第四要素在合理使用判断中的重要权重，并指出该要素需要考虑的市场不仅是Westlaw现有市场，即法律研究平台，还包括法律AI模型训练数据的潜在衍生市场。在先前的判决中，法院认为罗斯智能的使用行为可能是转化性的，因此将这个要素留给陪审团判断。但法院修正了自己的观点，认为罗斯智能打算通过开发市场替代品来与Westlaw竞争，并且汤森路透是否已将数据用于训练自己的法律搜索工具并不重要，对潜在的AI模型训练数据市场会造成影响就足够了。因此，罗斯智能的行为直接冲击Westlaw现有市场及潜在AI模型训练数据市场，构成替代性竞争。

此外，法院明确指出，即使公众可能从罗斯智能的行为中受益，这也不足以构成合理使用。虽然公众对获取法律信息确实有利益需求，但法律意见本身是公开可获取的，而公众对某一主题内容的利益需求并不能成为侵犯著作权的正当理由。法院强调，公众并没有权利要求免费获取汤森路透对法律的解析成果。著作权制度旨在鼓励人们开发对社会有益的工具，如优质的法律研究工具，而这些工具的开发者有权获得相应的经济回报。法院也将本案与Google案进行了区分。在Google案中，API的价值在于用户已经习惯使用它，而本案中汤森路透所创造的内容，罗斯智能完全可以自行创造，或者聘请LegalEase为其创造，而无需侵犯汤森路透的著作权。这意味着罗斯智能有能力在不侵权的情况下独立开发或获取所需的内容，因此其行为不能以合理使用为由免责。

综上所述，第一和第四要素倾向于支持汤森路透，而第二和第三要素则倾向于支持罗斯智能。然而，第二要素相较于其他因素的重要性较低，而第四要素的重要性则相对较高。因此，法院在综合权衡上述合理使用的四个要素后，最终裁定驳回了罗斯智能的合理使用抗辩。

3. 法律批注的原创性认定：从“文本重叠”到“雕塑式创作”的转变

在2023年的初步简易判决中，法院认为法律批注的原创性需结合其与司法意见的文本重叠程度判断，并将部分问题留待陪审团裁决。然而，随着案件深入，法院在本次判决中主动修正其观点，认定法律批注符合原创性的要求。法院认为，法律批注可以通过提炼、综合或解释司法意见的一部分来展现创造性，因此可以获得著作权的保护。

关于原创性的判断，法院分开讨论了法律批注整体与单个法律批注的原创性。法院认为法律批注的集合构成汇编作品。法院援引了Feist案中的标准，即“如果编纂者在选择和排列时使用了最低限度的创造性，则事实汇编具有原创性”，认为汤森路透对法律批注的选择和排列轻松达到了这一较低标准。对于单个法律批注，法院也认为每个法律批注都是一个独立的、可受著作权保护的作品。法院以雕塑艺术为喻来解释这一立场的转变：司法判决犹如大理石原石，是不能获得著作权保护的。然而，雕塑家通过选择对原石的切割、保留，从而创造出一件雕塑，这件雕塑是可以被著作权保护的。同理，法律批注是对司法意见的提炼与编排，即使是从司法意见中逐字摘录，其筛选与编排过程仍表达了编辑对司法意见中重要法律焦点的理解和选择，体现了“最低限度的创造性”，构成受著作权保护的原创性作品。

原创性问题在不同的法域存在不同的判断标准。法院在本案中选择了最低限度创造性标准，并将司法判决文本与未经任何雕刻的大理石原石进行类比。但是，大理石原石在未经艺术家雕刻之前仅是大自然鬼斧神工的结果，而法院判决文书的原文已经是法官经过逻辑思考和组织后的语言输出。法院将艺术家的雕刻过程与基于判决编纂法律批注进行类比是否恰当，可能会引起进一步的讨论。

三、启示与展望

根据汤森路透诉罗斯智能案的判决思路，在AI模型训练过程中，即使数据仅用于模型的训练，而非最终产品的直接展示，未经授权使用受著作权保护的数据仍然可能构成侵权。法院在合理使用的分析中，考虑了对“原创市场的影响”。虽然在本案中法院得出的结论是罗斯智能的涉案行为并不适用合理使用抗辩，但分析过程似乎暗示，假如涉案的行为对市场创新、自由竞争和公共利益有重大影响或者积极意义时，合理使用抗辩是可以成立的。这可能暗示，根据不同的市场性质，后续其他案件的裁判结果并非一定与本案一致。在美国，知名的ChatGPT也正面对纽约时报等的著作权侵权诉讼，其大语言模型的训练过程是否构成著作权侵权、合理使用是否可以适用等前沿问题正在经历司法实践的检验。在生成式AI的语境下，涉案事实可能更加复杂，这会对著作权侵权的传统分析框架产生什么影响，值得进一步关注。

在AI技术快速发展的背景下，已经形成了复杂的产业链。以AI模型公司为中心，其上游存在专门为其提供训练数据的公司。在下游则是基于AI模型进行实际应用的各产业以及个人用户。

中国司法实践目前主要关注AI模型最终输出结果的著作权侵权问题，关于AI模型训练过程中的数据使用行为是否构成著作权侵权的问题仍无明确认定。如在广州互联网法院审理的“AI生成奥特曼图片侵权案”（（2024）粤0192民初113号）中，被告广州年光网络科技有限公司运营的AI平台可根据用户指令生成与原告“奥特曼”形象实质性相似的图片，法院明确了生成式AI服务提供者的著作权侵权责任，认定被告侵犯了原告对“奥特曼”作品的复制权与改编权，责令被告采取技术性措施停止生成侵权图片。但法院并未支持原告要求将案涉奥特曼物料从被告训练数据集中删除的诉请，原因是缺乏直接证据证明被告实际使用了原告的作品进行模型训练行为。这凸显了中国司法实践中关于AI模型训练过程中数据使用行为的举证困难。由于AI的输出结果一般可以直接验证和观察，而AI输入的训练数据的具体内容往往需要专业的技术分析才能确定，这使得在著作权侵权诉讼中，原告需要提供充分的证据来证明被告在AI模型训练过程中实际使用了其受著作权保护的作品。

此外，据公开信息披露，视频平台爱奇艺近日针对稀宇科技旗下的海螺AI提起诉讼，称其大模型训练使用了爱奇艺享有版权的素材内容。在春节期间DeepSeek引起关注后，ChatGPT宣称DeepSeek模型训练过程中的数据蒸馏存在侵权问题，又再次引发了关于AI大模型训练中数据使用的著作权侵权问题的关注。

技术创新与著作权保护的平衡是AI时代的重要命题。中国在AI和科技创新领域的快速发展，离不开对知识产权的保护和合规管理。经过越来越多的司法实践，我们认为相关产业对著作权侵权风险的评估问题会更加深入和完善。著作权保护与合理使用抗辩的边界问题也会越来越清晰。司法实践确定性的提高也会进一步推动技术创新与产业进步。

作者

孙牧然

王思菲