惹众怒!数千名作家发声:生成式 AI 也得付版权费

惹众怒!数千名作家发声:生成式 AI 也得付版权费

基于大语言模型的生成式 AI 继续“惹众怒”。

近日8,500多名小说、非小说和诗歌作者联合签署致生成式AI领导者的公开信,呼吁OpenAI、Alphabet、Meta、Stability AIIBM和微软执行长就在训练AI时若用到受版权保护的材料,需向作者征取同意、认可并给予公平酬劳。

信中写道:“基于大型语言模型的生成式AI技术归功于我们的着作。这些技术模仿并反省我们的语言、故事、风格和想法。”这说法可能有点偏颇,但细究生成式AI的原理后,倒也不无道理。

生成式AI原理就是利用机器学习模型,学习人工创建的资料库模式和关系,然后再利用学习模式产生新内容。预训练资料库就等于“石油”。以最红的ChatGPT为例,公开数据显示ChatGPT训练量为8千亿个单字语言库,含1,750亿个参数,预训练量达45TB。但ChatGPT如此庞大的资料库来源却始终“布满迷雾”。

OpenAI官方表示,鉴于GPT-4等大规模模型的竞争状况和安全影响,不再披露资料来源,并含糊其词表示就是网络、社群媒体、新闻、书籍等。

2020年介绍ChatGPT-3的论文,尚未出名的OpenAI坦言,训练量15%来自“两个基于网络的书籍语料库”。尽管OpenAI并没有透露资料库是什么作品,但有不少爆料者声称正是来自侵犯版权免费提供大量电子书的“影子图书馆”。

2月OpenAI遭许多媒体指责,批评未经授权擅自使用其新闻训练。《华尔街日报》记者问ChatGPT索取训练新闻来源清单时,回复列出20家媒体,包括未获授权的《华尔街日报》,同样“常在河边走”的其他生成式AI是否真能“不湿脚”?

种种一切,很难不让作家对自己版权是否受损充满疑虑。

AI让作家陷入困境

公开信谈到,过去十年作家收入下降40%,全职作家到2022年收入中位数仅23,000美元,AI入侵可能导致作家境况更困难。呼吁者请求,要求生成式AI领头者做到以下三点:

  1. 取得生成式AI程序使用受版权保护材料的许可。
  2. 公平补偿过去和现在生成式AI程式使用到作品的作者。
  3. 公平补偿AI输出使用到作品的作者,无论输出是否违反现行法律。

现在压力转移到生成式AI领头者了。

许多生成式AI领头者公开场合都对版权保护做过“口头”承诺。5月美国国会听证会,OpenAI CEO阿特曼就强调内容创作者将受益于AI工具,并掌握作品所有权和控制权,之后阿特曼更化身“传教士”巡回世界,为生成式AI助威。

现世报“打脸”太快,层出不穷的隐私泄漏诉讼、版权侵犯事件,将这封呼吁信彻底摆上台面,成了离不开的“催命符”。

(本文由 爱范儿 授权转载;首图来源:shutterstock)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。