GPT-4变懒了:转档推太长,表格也只给3行!OpenAI怎么说?AI模型为何会变笨?
▼
24小时全年无休的AI,会想要“偷懒”吗?近期有大量用户反应,GPT-4正变得越来越懒散,不再尽心尽力回答问题,而OpenAI也出面表示,他们正在调查这个问题,并且研究如何修复AI模型。
Google刚发布号称在多个指标上比GPT-4更强悍的AI模型Gemini,在这或许是OpenAI最需要严阵以待的时刻,GPT-4近来就被发觉出现了“偷懒”问题,不再详尽解答用户的疑问,甚至是拒绝回应、要用户自己找出答案。
延伸阅读:“一个词”让ChatGPT吐出原始资料!AI模型为何能在无形间出卖你?
GPT-4变懒了,怎么回事?OpenAI怎么说?
11月底时,AI工程师克里希南(Rohit Krishnan)就在推特上抱怨,GPT-4变得懒散又没用,希望交给聊天机器人的各种任务都遭到回绝。“转换这个档案?太长了。编写表格?只给前三行。读取这个连结?抱歉不行。读取这个py档案(python程式)?抱歉不允许。这实在太让人泄气了。”他在推文中表示。
OpenAI has safety-ed GPT-4 sufficiently that its become lazy and incompetent.
Convert this file? Too long. Write a table? Here’s the first three lines. Read this link? Sorry can’t. Read this py file? Oops not allowed.
So frustrating.
— rohit (@krishnanrohit) November 28, 2023
提出类似抱怨的不只他一人,创业家麦特.温辛(Matt Wensing)也指出,GPT越来越抗拒做枯燥的工作,基本上它只会给出一部分答案,然后让用户自行解决剩下的部分。
抱怨GPT-4越来越懒的声浪在网络上日渐攀升,终于OpenAI官方也出面表示,他们已经听到用户对于GPT-4越来越懒的回馈,正在研究怎么解决这个问题,但强调他们自11月11日以来,就没有动过AI模型。
OpenAI解释,这个说法并不代表AI自行改变了模型,只是模型的行为可能出现了微妙的差异,导致提示词出现退化,这种情况通常要用户及员工很长一段时间才会注意到,并且修复这样的变化。
we’ve heard all your feedback about GPT4 getting lazier! we haven’t updated the model since Nov 11th, and this certainly isn’t intentional. model behavior can be unpredictable, and we’re looking into fixing it
GPT-4变笨的事件,也恰好紧接在OpenAI爆出宫斗大戏之后,至于这出政变戏码是否有影响内部的运转或效率,则暂时未可知。
不过OpenAI强调,发布新模型时他们都会进行包含AB测试在内的各种试验,依据所有试验结果确保新模型比旧模型更能带给用户帮助,也欢迎用户持续反应GPT-4可能出现的变化、是否变得懒散,帮助他们即时掌握问题状况。
延伸阅读:Google承认Gemini超神影片造假“动了几刀”!号称打赢GPT-4,其实很水
GPT-4也曾变笨!实测6月份版本的GPT-4,就比3月版本准确度高多了
事实上,这并非GPT技术首次“学坏”,早在今年6、7月时,就有大批开发者抱怨GPT-4“变笨”了,有时会犯下一些愚蠢的错误、没注意到用户施加的指令,甚至引发外界猜测OpenAI是否为省钱降低了运算能力、或者调整模型降低成本。
当时OpenAI产品副总裁韦林德(Peter Welinder)公开澄清,“不,我们没有把GPT-4变笨!”声称他们每次更新都是让GPT-4比以前更聪明,用户觉得变笨的情况有可能是因为高度使用下,一些过去没发现的问题暴露出来。
虽然OpenAI强调他们没有更动模型,但有研究团队发布报告,用对比今年3月跟6月的GPT-4模型,评估在数学、敏感问题、回应频率、程式能力、推理能力等诸多面向的表现,其中在数学能力方面, 研究团队用500道题目让两个模型判断质数,结果3月份的版本以97.6%准确度压倒性高于6月版本的2.4% 。
先前GPT-4也传出变笨消息,且经研究团队测试在部份数学能力上出现显着落差。
图/ @svpino via X
AI模型会变笨,究竟是什么原因?
来自史丹佛及柏克莱加大的研究团队指出,“我们发现GPT-4和GPT-3.5的表现和行为,在两个版本中存在显着差异,并且在某些任务的表现随着时间越来越差。”他们认为其中一种可能性是 GPT-4已经从思路链偏移 ,这是一种将多步骤问题拆解成复数中间步骤,提升大型语言模型推理能力的技术。
对于GPT技术有时莫名出现改变的情况,他们坦承训练AI模型并不像工业制造般明确,投入什么原料就知道会制造出什么产品, 即使是完全相同的训练材料,在不同次训练当中,也可能催生出性格、文字风格、评估标准,甚至政Z偏袒倾向迥异的AI模型 。
一直以来,AI究竟是如何运作的,常被称为“黑盒子”,很难从外部去解释、理解AI是如何做出决策,如此行动的原因等等。即使是引领着生成式AI发展的OpenAI,目前也不明白在没有更新模型的情况下,GPT-4突然变得懒散的原因,不过再等待一些时间,开发团队或许将能修复问题,告诉我们GPT-4究竟为何突然发懒。
延伸阅读:细看GPT-4,还有14个惊人细节!可能会帮助犯罪、人类无法控制?
资料来源:PCMag、Digital Trend、X
责任编辑:林美欣
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。