惹众怒！数千名作家发声：生成式 AI 也得付版权费

AI与大数据 4小时前 0

▼

基于大语言模型的生成式 AI 继续“惹众怒”。

近日8,500多名小说、非小说和诗歌作者联合签署致生成式AI领导者的公开信，呼吁OpenAI、Alphabet、Meta、Stability AI、IBM和微软执行长就在训练AI时若用到受版权保护的材料，需向作者征取同意、认可并给予公平酬劳。

信中写道：“基于大型语言模型的生成式AI技术归功于我们的着作。这些技术模仿并反省我们的语言、故事、风格和想法。”这说法可能有点偏颇，但细究生成式AI的原理后，倒也不无道理。

生成式AI原理就是利用机器学习模型，学习人工创建的资料库模式和关系，然后再利用学习模式产生新内容。预训练资料库就等于“石油”。以最红的ChatGPT为例，公开数据显示ChatGPT训练量为8千亿个单字语言库，含1,750亿个参数，预训练量达45TB。但ChatGPT如此庞大的资料库来源却始终“布满迷雾”。

OpenAI官方表示，鉴于GPT-4等大规模模型的竞争状况和安全影响，不再披露资料来源，并含糊其词表示就是网络、社群媒体、新闻、书籍等。

2020年介绍ChatGPT-3的论文，尚未出名的OpenAI坦言，训练量15%来自“两个基于网络的书籍语料库”。尽管OpenAI并没有透露资料库是什么作品，但有不少爆料者声称正是来自侵犯版权免费提供大量电子书的“影子图书馆”。

2月OpenAI遭许多媒体指责，批评未经授权擅自使用其新闻训练。《华尔街日报》记者问ChatGPT索取训练新闻来源清单时，回复列出20家媒体，包括未获授权的《华尔街日报》，同样“常在河边走”的其他生成式AI是否真能“不湿脚”？

种种一切，很难不让作家对自己版权是否受损充满疑虑。

AI让作家陷入困境

公开信谈到，过去十年作家收入下降40%，全职作家到2022年收入中位数仅23,000美元，AI入侵可能导致作家境况更困难。呼吁者请求，要求生成式AI领头者做到以下三点：

取得生成式AI程序使用受版权保护材料的许可。
公平补偿过去和现在生成式AI程式使用到作品的作者。
公平补偿AI输出使用到作品的作者，无论输出是否违反现行法律。

现在压力转移到生成式AI领头者了。

许多生成式AI领头者公开场合都对版权保护做过“口头”承诺。5月美国国会听证会，OpenAI CEO阿特曼就强调内容创作者将受益于AI工具，并掌握作品所有权和控制权，之后阿特曼更化身“传教士”巡回世界，为生成式AI助威。

现世报“打脸”太快，层出不穷的隐私泄漏诉讼、版权侵犯事件，将这封呼吁信彻底摆上台面，成了离不开的“催命符”。

（本文由爱范儿授权转载；首图来源：shutterstock）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

AI让作家陷入困境

相关文章