17 万本盗版书是“ChatGPT 们”变聪明的秘密

17 万本盗版书是“ChatGPT 们”变聪明的秘密

“证据”终于来了。7 月 OpenAI 和 Meta 被美国作家 Sarah Silverman、Christopher Golden 和 Richard Kadrey 控告,指两家公司未经作者同意,就把他们的书拿来当材料训练大模型。

17 万本盗版书是“ChatGPT 们”变聪明的秘密 AI与大数据 图2张

▲ 演员、作者Sarah Silverman和自传。(Source:Michael Kovac / FilmMagic)

证据在哪?

OpenAI案件,原告输入提示词后,ChatGPT能摘要整本书。Meta案件,Meta大模型LLaMA论文就写着,训练资料包括EleutherAI整理的“The Pile”素材,The Pile又含“Books3”资料库,内容正是网络盗版图书库Bibliotik数据。由此可见,当时原告的证据还相对间接。

直到现在,作家和工程师Alex Reisner揭露,Meta大模型背后到底都盗用了哪些作家的书。意外的是,这些“证据”一直都在我们眼前,却一直没人看到,这是为什么?甚至侵权素材的制造者,还一直坚持说这是“正义”之举。

17万本盗版书

Alex Reisner的“大专案”起于好奇心:

身为作家和电脑工程师,我一直很好奇生成式AI是用什么书训练模型。

今年夏天,Reisner开始在GitHub和Hugging Face等社群找答案,最终找到了The Pile。然而下载The Pile也不代表可以知道Books3有什么书。因The Pile有800G,大到一般文字编辑器根本没法看。Reisner写了一系列程式才能抓取Books3的资料。

没想到找到的资料没有任何有书名、作者名等标签资料,一切都只是“文本”。于是Reisner又另外写了一个程式抓取ISBN编号(国际标准书号),并将这些数据和其他网络书库比对,以辨别Books3收录的书籍。

最后他找到19万个ISBN,辨识出17万个书名(实际数量可能略少这数字,因是同一本书不同版),另外2万个编码无法找到书名。这些书约三分之一是虚构作品,三分之二非虚构作品,来自大大小小出版社出版品。

能找到的书包括开头提告OpenAI和Meta的三位作家,可说是Meta LLaMA以盗版书当作训练材料的直接证据了。其他还有《我的天才女友》作者埃琳娜费兰特、《女仆的故事》作者玛格丽特爱特伍、史蒂芬‧金、村上春树、知名美食作家麦可波伦、惊悚小说家詹姆斯布兰登派特森等许多作品。

除了名作家作品,Reisner还在Books3找到“山达基教”创办人拉法叶罗纳德贺伯特102本低俗小说、90本信奉“年轻地球创造论”的牧师约翰F麦克阿瑟的书,以及“外星人创造论”支持者艾利希冯丹尼肯多部作品。

Reisner指出,虽然Books3资料库在AI社群以外认知度不高,但在圈内颇受欢迎,因“可以下载,但要找到来源有难度,想浏览和分析也同样很有挑战性”。像Reisner大费周章写程式分析比对,还撰文投书媒体更是首次。同时AI圈对Books3也是心照不宣维护,因以Books3创造者的话说,这是确保生成式AI发展不会被大公司垄断的重要资源。

“盗火者”还是“窃贼”?

如果我们不需要Books3这类东西的确最好,但情况是如果没有Books3,只有OpenAI可做到正在做的事。

Books3创造者、独立开发者Shawn Presser对Reisner说。

Presser一开始做Books3,就是为了提供所有开发者“OpenAI等级训练资料”。2020年Presser下载Bibliotik副本,再改写骇客Aaron Swartz十多年前的程式,将所有ePub格式图书转成纯文字──更适合大模型的格式。资料库部分书籍版权资料遗失,Presser称是转换造成的意外,并非刻意为之。

17 万本盗版书是“ChatGPT 们”变聪明的秘密 AI与大数据 图3张

Books3之名也呼应OpenAI提过的“Books1”和“Books2”。2020年时OpenAI论文指出,GPT-3的训练资料库包括两个基于网络书籍合集,人们推测OpenAI的Books1来自“古腾堡计划”(Project Gutenberg)──专门收集版权过期的图书。Books2内容是什么一直无人知晓,有人从资料量猜是类似Bibliotik或Libgen的网络盗版图书。

17 万本盗版书是“ChatGPT 们”变聪明的秘密 AI与大数据 图4张

除了书籍,GPT-3还用了其他数据,如维基百科和其他网络文字,这也是为什么EleutherAI整合的The Pile也同样含大量资料,如维基百科、YouTube影片字幕、欧洲议会档案和速记等。即便如此,书籍高品质文本仍很重要。

Meta曾表示,一开始LlaMA-65B大模型表现没有很好,因“书籍及学术论文量有限”。MIT和康乃尔大学合作论文也指出,书籍在大模型训练资料库“对下游表现有最强正面效果”,所以会在Meta后来推出的LlaMA 2资料库看到The Pile和Books3。

这也是为什么Books3最近因丹麦反盗版组织Rights Alliance投诉侵权被下架后,Presser却愤慨不平。他觉得所有牟利大公司私下都用侵权内容训练大模型,但他们不公开训练资料来源,所以没人能告他们,Books3被下架,但他是希望让大模型更开放和有更高透明度而主动公开资料来源。

Presser说不能让财大气粗的大公司垄断这种重塑文化的重要技术,而是要让所有人都有资源建立自己的大模型:

我的目标是让所有人都能(建造大模型)。

除非作者有方法把ChatGPT拉下来,或告到AI公司关门,否则你我都能建造自己的ChatGPT非常重要。

正如1990年代,确保任何人都能自己架设网站那样重要。

至于把ChatGPT告到下架,也不是完全不可能。

人人都在告AI巨头

知名作家官司也许能引起更多关注,但拥有把ChatGPT告到“重建”潜力的,却是传统新闻媒体。上周NPR报道知情人士消息,《纽约时报》也考虑提告OpenAI。前几周《纽约时报》一直和OpenAI就授权内容谈判,但进展不太顺利,故《纽约时报》开始考虑提告OpenAI侵权。

美国联邦版权法规定,每项“蓄意”侵权行为最高可罚15万美元,以《纽约时报》的海量文章计算,最终罚金会高到“对任何公司都很致命”。除此以外,如果法官判定OpenAI的确非法以《纽约时报》文章训练大模型,法院可以命令OpenAI销毁ChatGPT资料库,强制仅能用已获授权内容训练ChatGPT。

无论原告是《纽约时报》还是各创作者,官司(或潜在官司)能否胜诉,关键都在AI巨头是否能把无告知使用说成“合理使用”──即特定情况,允许不经许可使用特定作品,如教学、评论、研究和报道等。支持“合理使用”的人有两个论点:

  • 生成式AI并不会重现书籍本身,而是创造新内容。
  • 新内容不会损害原本作品的市场。

纽约大学科技法律与政策诊所负责人Jason Schultz称,图书盗用方面,这论点颇有力,但《纽约时报》律师坚持,OpenAI报章新闻使用并不符合“合理使用”。假如使用者能用AI聊天机器人取得片段资讯,就不会去找原始新闻阅读,有可能成为新闻的替代品,影响原有市场。

内地网红樊百乐指出,智慧财产权法并非一成不变,但核心却很坚定:繁荣创作市场,如果连估值数百亿美元的AI公司都能不付一毛钱版权费,免费把作家耗费数年心血创作的作品拿去牟利,甚至盗用训练出能取代作家的工具,对创作者无疑是致命打击。Presser谈到的“资讯不公平”问题,也不应是侵犯创作者权利的借口。

版权问题终究是决定AI能走多远的关键因素。范德堡大学知识产权计划联席主任Daniel Gervais认为:

版权法是悬在AI公司头上的大刀,除非他们想出方法解决,否则这把刀几年内都会挂在那里。

这只是下阶段的开始。最后整理部分进行中AI公司侵权官司,供读者参考。

17 万本盗版书是“ChatGPT 们”变聪明的秘密 AI与大数据 图5张17 万本盗版书是“ChatGPT 们”变聪明的秘密 AI与大数据 图6张

(本文由 爱范儿 授权转载;首图来源:Image by Freepik)

延伸阅读:

  • 惹众怒!数千名作家发声:生成式 AI 也得付版权费

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。