GPT-4 训练内容若偏奇科幻小说可能影响表现

GPT-4 训练内容若偏奇科幻小说可能影响表现

大型语言模型训练用的庞大资料库来源繁多,OpenAI 未公开过来源,但有学者分析,发现含不少知名小说内容,多是科幻和奇幻小说。

加州大学柏克莱分校学者发表论文,研究 ChatGPT / GPT-4 有多少本小说内容。OpenAI 模型训练过程含大量版权物,收录标准视网络出现频率高低,最有名的小说有《哈利波特》、《魔戒》、《饥饿游戏》、《银河便车指南》、《一九八四》和《冰与火之歌》等。

学者强调并非尝试完全解开 GPT-4 训练资料库谜团,这些小说也并非完整收录至模型,只研究小说内容与模型表现是否有关。而他们发现,GPT-4 训练用小说多是科幻和奇幻,其他类作品相对少,国际英语文学作品和黑人作品就不多。

模型训练偏重科幻和奇幻小说,对叙事和表现的影响值得思考,确保训练模型时用什么资料透明公开很重要,因此开源模型会是更好方式,希望此研究协助提升收集资料训练时的负责任标准。另一问题是,当更多版权物内容进入大型语言模型,开发科技企业将会遇到更多版权法律纠纷,到底训练模型是否属“公平使用”,只能留待法院判定。

  • Study: OpenAI’s ChatGPT and GPT-4 ‘memorized’ these books

(本文由 Unwire Pro 授权转载;首图来源:Pixabay)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。