17 万本盗版书是“ChatGPT 们”变聪明的秘密

AI与大数据 25分钟前 0

▼

“证据”终于来了。7 月 OpenAI 和 Meta 被美国作家 Sarah Silverman、Christopher Golden 和 Richard Kadrey 控告，指两家公司未经作者同意，就把他们的书拿来当材料训练大模型。

▲ 演员、作者Sarah Silverman和自传。（Source：Michael Kovac / FilmMagic）

证据在哪？

OpenAI案件，原告输入提示词后，ChatGPT能摘要整本书。Meta案件，Meta大模型LLaMA论文就写着，训练资料包括EleutherAI整理的“The Pile”素材，The Pile又含“Books3”资料库，内容正是网络盗版图书库Bibliotik数据。由此可见，当时原告的证据还相对间接。

直到现在，作家和工程师Alex Reisner揭露，Meta大模型背后到底都盗用了哪些作家的书。意外的是，这些“证据”一直都在我们眼前，却一直没人看到，这是为什么？甚至侵权素材的制造者，还一直坚持说这是“正义”之举。

17万本盗版书

Alex Reisner的“大专案”起于好奇心：

身为作家和电脑工程师，我一直很好奇生成式AI是用什么书训练模型。

今年夏天，Reisner开始在GitHub和Hugging Face等社群找答案，最终找到了The Pile。然而下载The Pile也不代表可以知道Books3有什么书。因The Pile有800G，大到一般文字编辑器根本没法看。Reisner写了一系列程式才能抓取Books3的资料。

没想到找到的资料没有任何有书名、作者名等标签资料，一切都只是“文本”。于是Reisner又另外写了一个程式抓取ISBN编号（国际标准书号），并将这些数据和其他网络书库比对，以辨别Books3收录的书籍。

最后他找到19万个ISBN，辨识出17万个书名（实际数量可能略少这数字，因是同一本书不同版），另外2万个编码无法找到书名。这些书约三分之一是虚构作品，三分之二非虚构作品，来自大大小小出版社出版品。

能找到的书包括开头提告OpenAI和Meta的三位作家，可说是Meta LLaMA以盗版书当作训练材料的直接证据了。其他还有《我的天才女友》作者埃琳娜费兰特、《女仆的故事》作者玛格丽特爱特伍、史蒂芬‧金、村上春树、知名美食作家麦可波伦、惊悚小说家詹姆斯布兰登派特森等许多作品。

除了名作家作品，Reisner还在Books3找到“山达基教”创办人拉法叶罗纳德贺伯特102本低俗小说、90本信奉“年轻地球创造论”的牧师约翰F麦克阿瑟的书，以及“外星人创造论”支持者艾利希冯丹尼肯多部作品。

Reisner指出，虽然Books3资料库在AI社群以外认知度不高，但在圈内颇受欢迎，因“可以下载，但要找到来源有难度，想浏览和分析也同样很有挑战性”。像Reisner大费周章写程式分析比对，还撰文投书媒体更是首次。同时AI圈对Books3也是心照不宣维护，因以Books3创造者的话说，这是确保生成式AI发展不会被大公司垄断的重要资源。

“盗火者”还是“窃贼”？

如果我们不需要Books3这类东西的确最好，但情况是如果没有Books3，只有OpenAI可做到正在做的事。

Books3创造者、独立开发者Shawn Presser对Reisner说。

Presser一开始做Books3，就是为了提供所有开发者“OpenAI等级训练资料”。2020年Presser下载Bibliotik副本，再改写骇客Aaron Swartz十多年前的程式，将所有ePub格式图书转成纯文字──更适合大模型的格式。资料库部分书籍版权资料遗失，Presser称是转换造成的意外，并非刻意为之。

Books3之名也呼应OpenAI提过的“Books1”和“Books2”。2020年时OpenAI论文指出，GPT-3的训练资料库包括两个基于网络书籍合集，人们推测OpenAI的Books1来自“古腾堡计划”（Project Gutenberg）──专门收集版权过期的图书。Books2内容是什么一直无人知晓，有人从资料量猜是类似Bibliotik或Libgen的网络盗版图书。

除了书籍，GPT-3还用了其他数据，如维基百科和其他网络文字，这也是为什么EleutherAI整合的The Pile也同样含大量资料，如维基百科、YouTube影片字幕、欧洲议会档案和速记等。即便如此，书籍高品质文本仍很重要。

Meta曾表示，一开始LlaMA-65B大模型表现没有很好，因“书籍及学术论文量有限”。MIT和康乃尔大学合作论文也指出，书籍在大模型训练资料库“对下游表现有最强正面效果”，所以会在Meta后来推出的LlaMA 2资料库看到The Pile和Books3。

这也是为什么Books3最近因丹麦反盗版组织Rights Alliance投诉侵权被下架后，Presser却愤慨不平。他觉得所有牟利大公司私下都用侵权内容训练大模型，但他们不公开训练资料来源，所以没人能告他们，Books3被下架，但他是希望让大模型更开放和有更高透明度而主动公开资料来源。

Presser说不能让财大气粗的大公司垄断这种重塑文化的重要技术，而是要让所有人都有资源建立自己的大模型：

我的目标是让所有人都能（建造大模型）。

除非作者有方法把ChatGPT拉下来，或告到AI公司关门，否则你我都能建造自己的ChatGPT非常重要。

正如1990年代，确保任何人都能自己架设网站那样重要。

至于把ChatGPT告到下架，也不是完全不可能。

人人都在告AI巨头

知名作家官司也许能引起更多关注，但拥有把ChatGPT告到“重建”潜力的，却是传统新闻媒体。上周NPR报道知情人士消息，《纽约时报》也考虑提告OpenAI。前几周《纽约时报》一直和OpenAI就授权内容谈判，但进展不太顺利，故《纽约时报》开始考虑提告OpenAI侵权。

美国联邦版权法规定，每项“蓄意”侵权行为最高可罚15万美元，以《纽约时报》的海量文章计算，最终罚金会高到“对任何公司都很致命”。除此以外，如果法官判定OpenAI的确非法以《纽约时报》文章训练大模型，法院可以命令OpenAI销毁ChatGPT资料库，强制仅能用已获授权内容训练ChatGPT。

无论原告是《纽约时报》还是各创作者，官司（或潜在官司）能否胜诉，关键都在AI巨头是否能把无告知使用说成“合理使用”──即特定情况，允许不经许可使用特定作品，如教学、评论、研究和报道等。支持“合理使用”的人有两个论点：

生成式AI并不会重现书籍本身，而是创造新内容。
新内容不会损害原本作品的市场。

纽约大学科技法律与政策诊所负责人Jason Schultz称，图书盗用方面，这论点颇有力，但《纽约时报》律师坚持，OpenAI报章新闻使用并不符合“合理使用”。假如使用者能用AI聊天机器人取得片段资讯，就不会去找原始新闻阅读，有可能成为新闻的替代品，影响原有市场。

内地网红樊百乐指出，智慧财产权法并非一成不变，但核心却很坚定：繁荣创作市场，如果连估值数百亿美元的AI公司都能不付一毛钱版权费，免费把作家耗费数年心血创作的作品拿去牟利，甚至盗用训练出能取代作家的工具，对创作者无疑是致命打击。Presser谈到的“资讯不公平”问题，也不应是侵犯创作者权利的借口。

版权问题终究是决定AI能走多远的关键因素。范德堡大学知识产权计划联席主任Daniel Gervais认为：

版权法是悬在AI公司头上的大刀，除非他们想出方法解决，否则这把刀几年内都会挂在那里。

这只是下阶段的开始。最后整理部分进行中AI公司侵权官司，供读者参考。

（本文由爱范儿授权转载；首图来源：Image by Freepik）

延伸阅读：

惹众怒！数千名作家发声：生成式 AI 也得付版权费

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

17万本盗版书

“盗火者”还是“窃贼”？

人人都在告AI巨头

延伸阅读：

相关文章