关于使用版权作品训练AI侵权认定及合理使用问题分析

本文主要讨论ROSS公司使用版权作品训练AI所涉侵权和合理使用问题，对原告“侵权性干扰合同”诉请和ROSS公司反诉不做分析。

（一）原告的诉请和主张

长久以来，WEST公司聘请律师编辑总结法律关键点，撰写和原创性的判例摘要。同时，通过WKNS独有的层次结构顺序和分类编码方法，把法律问题、判例摘要及判例、法律规定组织链接起来，在Westlaw平台输入检索法律问题的关键词，相关法律主题、判例信息等以结构化形式呈显。起诉状附图并举例：“遗弃和丢失的财产”主题中关键编码是“性质和要素”“供陪审团参考的证据和问题”及“实施和效力”；而“性质和要素”主题关键编码又包括“概述”“意图”及“作为与不作为”等法律问题和原则相关子主题；其中“概述”关键编码为1k1.1，当前共收录了603个相关判例，每个判例又有一个关键编码。点击关键编码可显示相同判例列表，点击判例摘要可显示在判例文书中对应段落。WKNS可使案例、主题、法律问题等无限组合排列，给用户提供精准法律导航，让法律研究变得高效轻松，是Westlaw搜索工具的支柱。Westlaw平台每天增加无数新判例，编辑律师定期审查判例摘要和 WKNS以确保准确性，原告为此投入大量人力、时间、金钱，TR公司每三个月向美国版权局注册一次数据库。因此，Westlaw内容具有原创性和创造性，是受版权保护作品。

LegalEasel因只提供法律研究和写作支持服务，与Westlaw不形成竞争，从2008年起就获得Westlaw访问许可。双方服务协议明确禁止LegalEase在WEST产品或网络上运行或安装任何计算机软件，禁止向第三方批量销售、再许可、分发、显示、存储或传输Westlaw信息。ROSS公司训练其创建的法律服务AI需要获取大量法律内容、内容描述和组织法律内容的方法，在没有访问权限情况下，明知和故意诱使LegalEase下载储存Westlaw内容。根据美国版权法（1976）/美国法典第17卷第101条规定，ROSS公司未经授权复制和使用Westlaw内容创建竞品系故意、恶意，且全然无视原告权利，应承担版权侵权直接责任（Direct liability）、帮助责任（Contributory liability）和替代责任（Vicarious liability）；对诱使LegalEase侵权承担替代责任；损失赔偿包括律师费、ROSS公司因侵权而获得的任何收益、利润、优势及法定赔偿，其中ROSS公司侵权所获收益包括但不限于显著降低开发成本。

（二）ROSS公司的抗辩

ROSS公司开发的是基于AI且更先进强大的自然语言搜索引擎，在判例文书等法律材料的实际文本中寻找自然语言训练AI，而不依赖于体现法律文本的概念列表（如判例摘要）。根据美国法典第17卷第102（b）条规定，版权作品必须是原创性且富有创意的作品，原创性要求作品源自作者而不是从过去来源复制，创意则要求作品具有超越平庸或琐碎的“火花”；判例摘要两者都不具备。它只是对不受版权保护的判例文书和法律法规中有关主题、规则、概念的直接复制引用、背诵或注释；即便证明判例摘要与判例文书文本间有细微差异，这种“明显和典型”的选择也不应得到版权保护，否则使WEST对判例文书的商业出版产生垄断。

WNKS按字母顺序排列法律主题和子主题（子主题包括基本法律文本定义、法律分析和推理中通常概念等），根据主（子）题出现顺序依次分配关键编码完全是基于功能考虑。由功能考虑决定如何以普通法法律制度规定方式，使用传统的法律分析、推理模式和属于公共领域的判例，这种法律分析内在体系和常见方法是法学院一年级学生就要学到的，也是律师面对新案件和法律问题所必须做的。WNKS结构反映了基本法律本身如何组织、法律的构成要素和思想，之所以有效是法律读者、研究人员都可期望和能预见。WNKS整体安排和结构没有原创性或创造性。

原告未证明有版权和复制的事实，未证明复制了作品中受保护的原创元素，仅声称可推断发生了复制事实和两作品有共同的目的或功能是不够的；原告注册版权似乎涵盖了整个Westlaw数据库，包括判例、教学大纲、判例法段落，而这些不是版权法保护范围。根据合理使用原则四要素，原告没有证明本案可排除合理使用原则；ROSS公司或LegalEase的行为属于合理使用，不构成直接或间接侵权。

（三）法官认定的事实

比巴斯法官在2023和2025判决中认定：ROSS公司为了研发法律领域AI，申请Westlaw许可被拒后求助于LegalEase；ROSS公司委托LegalEase创建包括大约25000个问答的批量备忘录（Bulk Memo），每个备忘录有一个律师会问到的法律问题和4～6个答案，答案直接引自判例文书并有相关性评分。LegalEase开始手动创建、后通过文本抓取机器人创建备忘录，ROSS公司将备忘录转换为可用于AI训练的数据，该过程首先将书面语言编码为数值化数据，然后通过特征生成器（Featurizer）对文本执行多种数学……运算。这套程序核心源于批量备忘录。ROSS公司承认判例摘要影响了备忘录的“问题”，但表示是律师最终起草而非复制这些问题。TR公司则称25000个备忘录都是复制（备忘录的“问题”基本上是在判例摘要末尾加上问号），TR公司只对两个子集的判例摘要（分别包含5367份和2830份）申请简易判决，侵权索赔仅限于2830份备忘录。专家弗雷德里克森报告中包括3384份判例摘要（含TR主张且陪审团认定版权有效的2830份判例摘要，以及TR公司未列入侵权但ROSS公司专家认定且ROSS公司作出回应的判例摘要）。比巴斯法官仔细对比3384份判例摘要后，认定ROSS公司实际复制2243份。此外，LegalEase向ROSS公司发送了一份来自WKNS的91个法律主题清单，和500份包括Westlaw判例摘要、关键编码及注释的判例；ROSS公司承认在创建实验项目（项目最终放弃）的38个主题时考虑了该清单，而判例则没有什么作用。

（四）法官两次判决对比

比巴斯法官认为版权侵权索赔有三要素：（1）有效版权的所有权；（2）实际复制；（3）实质性相似。法官在2023判决认为第2个实际复制要素存在，而第1、3个要素需由陪审团裁决；在2025判决中则认定Westlaw判例摘要、关键编码有原创性而版权有效，备忘录“问题”与2243份判例摘要实质性相似。

比巴斯法官认为，根据美国法典第17卷第107条判断合理使用的四因素：（1）使用的目的和性质；（2）受版权保护作品的性质；（3）与受版权保护作品整体相关的使用数量和实质性相似；（4）对受版权保护作品潜在市场影响。其中第1个和第4个因素最重要的，2023判决将四因素都交陪审团裁决；在2025判决则判定TR公司在第1、4两因素获得支持，并在整体因素平衡方面占上风。

比巴斯法官在2025判决中用略带自省和谦逊的语气解释为何修正了2023判决。现就法官两次判决中关于版权侵权及合理使用认定分析对比如下。

1.版权侵权认定三要素的两次判决对比

（1）关于Westlaw内容版权范围及有效性

法官在2023判决表示：ROSS公司主张Westlaw注册版权为汇编作品，包括数十万个判例摘要和WKNS，仅仅复制几千个判例摘要不足以构成侵权；ROSS公司的观点很难得到支持。汇编作品版权延伸到所汇编的受版权保护作品（汇编组件），汇编作者通过原创文字陈述事实，他人可以复制其中基本事实但不能复制呈现事实的确切词语；汇编组件虽属于不受版权保护的公共领域，但汇编人对选择、组织编排材料的方法是有“薄弱”版权，尽管“原创性门槛很低”。因此，WKNS的原创性、是否受保护、受何种保护范围等争议由陪审团决定。TR公司主张判例摘要是其律师编辑原创（总结案件重要事实、突出关键问题、描述证据），ROSS公司则举证证明TR公司要求判例摘要“遵循或密切反映判例文书的语言”，此争议涉及ROSS公司复制的是判例摘要还是判例文书；判例摘要表达了不受版权保护的判例文书，其版权强度取决于判例摘要与判例文书的重叠程度。如果仅是复制判例文书则无版权，若判例摘要是“雕凿”判例文书且是比“微不足道”更大变化的简短书面作品，则版权有效。必须在每个判例摘要层面而不是Westlaw汇编层面上考虑判例摘要版权侵权问题。

法官在2025判决认为：版权有效性是法律问题而非事实问题，原创性是版权核心但门槛较低，只要“最低限度的创造力……一些创造性的火花”而非“额头汗水”。首先，汇编者使用“最低程度的创造力”对事实（判例文书）进行选择和安排，事实汇编满足原创标准。其次，不受版权保护的判例文书就像一块大理石原料，雕刻家通过选择判断切凿掉什么、留下什么，创作成为受版权保护的雕塑；Westlaw编辑律师从冗长判例文书中逐字摘录形成每份判例摘要，也是从整体中精心挑选和确定重要词句（如同雕凿石材原料），并通过提炼、综合或解释观点引入创造性，表达对判例文书重要观点的想法，这有足够“创意火花”而具有原创性；且每份判例摘要都是独立的、受版权保护作品。我改变之前认为原创性取决于判例摘要和判例文书之间重叠程度的错误观点，但不会对任何逐字复制的判例摘要做出简易判决。组织法律主题、法律问题有许多可能、合乎逻辑、按不同粒度级别的常见方法，TR公司选择一个特定类型并独立创建，也具有最低限度的原创性“火花”而无需强调新颖性（novel）。所以，WNKS也是原创的。

（2）关于实际复制问题

法官在2023判决表示：实际复制考察重点是ROSS公司是否使用了受版权保护作品创作自己的作品，真正独立创作的作品，无论相似性如何都没有侵权。TR公司可提供直接证据和间接证据——LegalEase承认直接复制了部分判例摘要，ROSS公司不否认LegalEase访问了Westlaw判例摘要，陪审团也没有说这些相似之处至少不能证明某些复制。在法律上，ROSS公司实际上复制了判例摘要部分内容。

法官在2025判决认为：在评估复制时我会考虑专家意见；弗雷德里克森专家分析报告指出本批次（3384份）备忘录的“问题”与判例摘要文本非常相似，且判例摘要与判例文书有很大不同；专家意见表明这些备忘录“问题”是复制判例摘要，而非通过总结基本观点所创建，这是有力的实际复制间接证据，陪审团没有不同结论。因此，LegalEase访问权加上这些判例摘要的相似性分析，我认定2243份实际复制。

（3）实质性相似问题

法官在2023判决表示：版权侵权认定实质性相似是一个非常接近的事实问题，需要“善于察觉和常识”（good eyes and common sense），要站在普通消费者视角来看待作品差异和美学吸引力。批量备忘录与判例摘要有共同的潜在来源——判例文书，因此，（a）需要确定ROSS公司的工作与TR公司受保护表达（而非观点）是否基本相似；（b）双方产品的普通消费者都是律师，应该适应律师可能注意而外行没有注意到的差异；（c）第三巡回法院（通常）拒绝专家关于实质性相似意见，所以，我不太关注各方专家对此问题的意见。TR公司所列实质性相似判例摘要是否为受保护的表达，批量备忘录的问题复制这些判例摘要是否构成侵权，由陪审团裁决。

法官在2025判决认为：作为律师和法官，我也是Westlaw判例摘要的普通用户，完全有能力确定实质性相似，并对陪审团无法得出相反结论的那些判例摘要进行审查。我采纳第九和第二巡回上诉法院有关判例中的概念：作品包含的可保护表达越不容易受到保护，被控侵权作品必须与它越相似。按此标准，2243份判例摘要和批量备忘录“问题”用语基本相似且如此明显（而不是判例摘要与判例文书用语相似），这些判例摘要实质性相似。

2.认定合理使用四要素的两次判决对比

（1）使用的目的和性质

法官在2023判决表示：为盈利的商业性使用不满足合理使用，而传达了与原始内容不同的新事物或扩展其效用的转换性使用有利于增加公共知识，是合理使用。TR公司引用沃霍尔视觉基金诉戈德尔史密斯案，^（注9）主张ROSS公司是与Westlaw竞争的商业性使用不是合理使用。ROSS公司描述批量备忘录转换处理过程：（a）将接收的批量备忘录存入数据库；（b）将简明语言条目转化为数字数据；（c）这些数据被输入机器学习算法用以训练AI理解法律语言。其AI的核心理念和逻辑在于：通过分析“问题-答案对”（the question-answer pairs）的模式特征不仅能回应预设问题，^（注10）还能识别潜在规律，从而应对用户提出的各类法律问题（即便这些问题在初始训练数据库中没有）并给予反馈。ROSS公司引用世嘉公司诉Accolade案^（注11）、索尼公司诉Connectix案^（注12）和谷歌诉甲骨文案^（注13）等“中间复制”判例，这些判例都使用复制材料作为输入，但复制材料是为了发现不受保护的信息，或是开发全新产品的一小步，最终输出是转换性的，ROSS公司复制用途与判例相似。TR公司认为这些判例的复制者试图“研究功能或创造兼容性”，而ROSS公司复制Westlaw的创造性内容训练AI。

法官指出：参照世嘉案、索尼案等“中间复制”判例，使用是否具有转换性取决于行为的确切性质；按ROSS公司所述，使用判例摘要和观点引文只是为了分析和学习语言模式而非复制表达，将人类语言“翻译”成计算机可以理解的东西，生成引用高度相关判例文书回答自然语言问题（且AI输出不会包含侵权材料），这是开发全新产品的一个步骤，是转换性使用；但如果ROSS公司复制使用未经转换的判例摘要和再现 Westlaw律师编辑的创造性成果，那么与世嘉案和索尼案等比较就不合适了。这个事实问题由陪审团决定，ROSS是否主观恶意并不重要，可忽略。

法官在2025判决中做出修正：本案不同于世嘉案等中间复制判例。首先，这几个判例都是复制计算机代码，而ROSS公司从TR公司复制的材料不是计算机代码。与书籍、影视及其他文学作品的版权不同之处，这些计算机程序几乎都是用于功能目的，考虑其合理使用因素并不总是适用于复制书面文字情形。其次，“中间复制”计算机编程判例有因素——复制是竞争对手创新的必要条件，而本案没有。谷歌案的中间复制是“不同程序相互对话所必需”；索尼案的中间复制是对程序中不受保护的功能元素进行逆向工程所必需；世嘉案则是为解决和“发现兼容性的功能要求”而产生中间复制。这些判例一是计算机编程复制判例；二是部分建立在必须通过复制才能获取（计算机程序）底层逻辑的必要性基础上。本案不存在计算机代码的底层逻辑必须通过复制其表达方式才能获取情形，这种复制对于实现用户新目的并非合理必要。因此，最高法院在沃霍尔案提出的新框架更适合本案。ROSS公司在此因素上未获支持并非因其商业性使用，而是其使用没有“进一步的目的或不同的特征”，不具有转换性。比巴斯法官特别强调，鉴于AI领域迅猛发展，本判决只是针对本案审理非生成式AI系统所作出的。

（2）受版权保护作品的性质

法官在2023和2025两次判决对此因素认定基本一致：作品涉及“信息性”而不是更具“创造性”，其合理使用范围更大；当作品越接近“预期版权保护的核心”，则会得到更多保护。WKNS在法律材料组织方法上即使具有原创性，也只是信息材料的一种安排方式（事实汇编），与传统文学或视觉艺术作品相比，其创造性或原创性表达要少得多、“想象力”低得多，WKNS不是版权的核心。判例摘要标记出法律要点，较多直接引用判例文书语言并放在段落开头，尽管编辑们可能已创造性地选择需要总结的法律观点并在适当位置附上判例摘要，但这些选择是受到限制的，远不如小说家或艺术家从头开始起草作品的创造力，绝非最具创造性的作品；判例摘要接近但不是非常接近版权保护核心。

（3）使用数量和实质性相似

法官在2023判决表示：复制数量对汇编作品来说不是那么重要；当复制是版权作品创意表达的核心，即便少量也可能超出合理使用范围，如果复制部分没有捕捉到作品的创造性表达，大量复制仍可以被视为合理使用。本案复制数量应从每个判例摘要的层级考察，每个判例摘要核心是其原创表达而非与对应判例文书观点的联系性。此外，复制的数量也与有效的转换性使用目的有关，如果侵权作品的表达几乎没有传递原作的实质性内容，那么就不符合实质性相似标准。原告主张ROSS公司复制的数量远超它所需，ROSS公司表示它需要大量的多样性材料训练其AI。虽然ROSS公司不用证明每个判例摘要都是绝对必要的，但它必须证明复制的规模（如果有的话）事实上是必要的，并进一步推动了其转换性目标。此因素取决于陪审团。

法官在2025判决认为：本案重要的是ROSS公司由此向公众提供输出内容的数量和实质性相似，作为竞品，ROSS的AI向最终用户输出内容事实上不包括Westlaw判例摘要；ROSS公司使用判例摘要数量和比例不是关键，是否使用原作品的核心才是关键。ROSS公司在这个因素上获得支持。

（4）受版权保护作品的潜在市场影响

法官在2023判决表示：无法确定该作品的使用对市场的影响；侵权损失赔偿需要考虑原作品市场及衍生作品市场的损害，但并非所有损失都是平等的，还需要考虑“损失的来源”；损失的来源可能不是原作品的表达被挪用，原告假设的销售损失类型通常也会与不受版权保护的利益有关，转换性使用促成这一因素。复制越是为了实现与原作品不同的目的，复制作品成为原作替代品的可能性就越小；ROSS公司全新的AI可能是转换性的而非Westlaw替代品。本案争议焦点之一是：允许使用受版权保护的材料进行AI训练是否符合公共利益？即使潜在的好处和风险都很大，各方都会提出合理而有力的解释，很难独立评估。判断保护创作者还是保护复制者更符合公众利益不仅很危险，也使法院陷入两难处境。此因素由陪审团决定。

法官在2025判决认为：当前法律研究平台市场是肯定的，潜在的衍生市场——用于训练合法AI的数据市场也是显而易见，并考虑“复制可能产生的公共利益”影响，ROSS公司没有证据表明这些市场不存在或不会受到影响。TR创建的内容是ROSS公司无法自己创建或聘请LegalEase为其创建而不侵犯TR公司版权的。综合考虑四因素，比巴斯法官对合理使用作出有利于TR公司的简易判决。