全球顶尖人工智能公司正集体卷入一场空前的版权侵权纠纷:Anthropic、OpenAI、Meta、Midjourney、谷歌等企业因训练数据来源及生成内容的版权问题,面临多起大规模诉讼,这一危机已成为AI行业共性挑战。其中,Anthropic因使用盗版数据集训练AI模型的行为,于9月6日支付至少15亿美元和解金,成为近期最受关注的案件。
文字内容侵权:作家、媒体与平台的集体反击
Anthropic的版权纠纷源于对文字内容的未经授权使用。2024年8月,作家安德莉亚·巴茨、查尔斯·格雷伯等发起集体诉讼,指控该公司通过“影子图书馆”等盗版平台获取图书训练Claude模型。尽管今年6月法官裁定“使用图书训练AI属于合理使用”,但法院仍要求审查其盗版内容获取行为。最终,Anthropic同意按每部作品3000美元赔偿作者,并销毁侵权训练数据。此外,Anthropic还因非法爬取Reddit数百万用户评论训练模型,遭该平台起诉——而Reddit此前已与谷歌、OpenAI达成正规授权协议,Anthropic的“未付费抓取”行为更显突出。
OpenAI则成为“版权被告大户”:2023年12月,《纽约时报》指控其未经授权使用数百万篇文章训练ChatGPT,生成内容与原作高度相似,冲击付费订阅及广告收益;该案已纳入多区诉讼(MDL)并合并审理。2023年6月,美国作家协会联合乔治·R·R·马丁等作家起诉OpenAI,称其使用版权书籍训练模型并生成摘要、续写;2024年7月法院驳回部分指控,但直接侵权诉讼仍在推进。此外,Raw Story、Ziff Davis等媒体也因文章被爬取训练ChatGPT,将OpenAI告上法庭。
Meta的文字内容侵权纠纷集中在书籍使用:2023年7月,作家莎拉·西尔弗曼等指控Meta通过盗版网站Bibliotik获取Books3数据集,训练LLaMA 1/2模型,并删除版权管理信息,涉嫌违反《数字千年版权法》。2025年3月,法官裁定此案可进一步推进,焦点在于Meta是否通过非法内容分发获利。
音乐与影视IP:从歌词到超级英雄的侵权争议
音乐领域,Anthropic自2023年10月起遭Concord、环球音乐等出版商指控,称其非法爬取凯蒂·佩里、碧昂斯等歌手的500多首歌词训练AI,每首索赔15万美元。尽管今年3月法院驳回初步禁令请求,但侵权是否成立的核心问题仍未解决。
影视IP成为图像生成AI的“重灾区”。2025年6月,迪士尼与NBC环球起诉Midjourney,称其未经授权使用《星球大战》《冰雪奇缘》等IP训练模型,生成侵权角色图像;9月,华纳 Bros. Discovery又因DC漫画角色(超人、蝙蝠侠)及经典动画(兔八哥、史酷比)被滥用,向Midjourney发起诉讼,强调生成的高清可下载图片构成侵权。
图像内容:艺术家与平台的维权行动
图像生成AI公司Midjourney和Stability AI的侵权纠纷始于2023年1月:视觉艺术家莎拉·安德森等指控两者使用约50亿张网络图像(含其版权作品)训练模型。2024年8月法院驳回部分索赔,但直接侵权和商标侵权指控仍在审理。此外,Getty Images分别在美国和英国起诉Stability AI,称其未经许可使用数百万张版权图片训练Stable Diffusion模型,案件至今未决。
平台与监管:谷歌的区域处罚与持续争议
谷歌的版权问题涉及区域监管与长期纠纷:2024年3月,法国竞争管理局因谷歌未与法新社等出版商就新闻内容使用达成协议,违反欧盟版权指令,处以2.5亿欧元罚款。此外,美国作家协会与谷歌的纠纷可追溯至2005年“图书扫描计划”,2015年法院裁定“合理使用”后,2023年12月作家协会再次起诉,称谷歌用扫描书籍训练AI模型违反版权法,该案已纳入MDL。
行业转向:从“野蛮生长”到合规博弈
这场全球性诉讼潮推动AI行业从“否认侵权”转向“寻求合规”:Anthropic的15亿和解、Reddit与谷歌/OpenAI的授权合作,标志着“付费获取数据”逐渐成为行业共识。但多数案件仍未完结,法院对“合理使用”的边界尚未明确——比如AI训练是否属于“转换性使用”、生成内容是否构成“实质性相似”等问题,仍在法律博弈中。
本文来自“腾讯科技”,编译:金鹿,编辑:海伦,36氪经授权发布。