ChatGPT 回答程式问题错误率高达5成!为何用户还是信?被什么误导了?

美国普渡大学的研究发现,OpenAI 开发的人工智慧聊天机器人 ChatGPT 在回答软件程式问题时,错误率超过一半,且能骗过三分之一的提问者。

该研究团队分析了 ChatGPT 对 517 个 Stack Overflow 网站上的问题的回答,评估了其正确性、一致性、全面性和简洁性。他们还对回答进行了语言和情感分析,并对 12 名志愿参与者进行了问卷调查。

ChatGPT 回答软件程式问题 52% 是乱讲的,为何用户还信?

这份研究报告的结论是:ChatGPT 的回答虽然语言风格良好,但其实有 52% 的回答是错误的,77% 是太过于冗长的。参与者只有在回答中的错误很明显时,才能识别出来。否则,他们会被 ChatGPT 的友好、权威和细致的语言风格所误导。

他们的论文指出:“在我们的研究过程中,我们观察到,只有当 ChatGPT 答案中的错误很明显时,用户才能识别出错误。但是,当错误不易验证或需要用到外部IDE时,用户往往没有能力去发现错误,或低估答案中的错误程度。”

不过,论文中也指出,即使答案存在明显错误,12 名参与者中仍有两人仍然会选择采用 ChatGPT 的答案。论文认为,这是因为 ChatGPT 具有令人愉快、权威的风格。

该论文解释说:“从半结构化访谈中可以明显看出,礼貌的语言、清晰的教科书风格的答案、全面性和答案的关联性,将使得就算是完全错误的答案也能看起来是正确的。”

chatgpt

由于ChatGPT的答案常具有煽动性、暗示或成就的语言,例如:当然我可以帮助你、这肯定会解决它,让用户不自觉地选择相信。

图/ Emiliano Vittoriosi on Unsplash

该论文的作者之一 Samia Kabir 表示:参与实验的人更喜欢不正确且冗长的ChatGPT答案,而不是 Stack Overflow 的答案,这是由于多种原因造成的。

主要原因之一是ChatGPT的答案非常详细。在很多情况下,如果参与者从冗长而详细的答案中获得有用的信息,他们并不介意回答的长度此外,积极的情绪和答案的礼貌是另外两个原因 。”

“当参与者发现ChatGPT的答案很有洞察力时,他们就会忽略了答案中实际存在的错误。ChatGPT 自信地传达有洞察力的讯息(即使讯息不正确)的方式赢得了用户的信任,这使他们更喜欢错误的答案。”

延伸阅读:20万本盗版书都在“book 3”,AI巨头从这偷数据!这是什么?

Stack Overflow 是一个专门为程式设计师提供问答服务的网站,被认为是开发者获取程式码片段和解决问题的重要来源。然而,该网站近年来也面临着流量下降、内容品质下降和使用者信任下降等问题。据 SimilarWeb 在 4 月份的一份报告显示,自 2022 年 1 月以来,该网站每月流量下降了 6%,3 月份下降了 13.9%,而 ChatGPT 可能是导致其流量下降的原因之一。Stack Overflow 则否认了 SimilarWeb 的评估,并表示其流量受到搜寻演算法和 ChatGPT 兴趣激增的影响。

作者观察到,ChatGPT 的答案还更有煽动性——暗示成就或成就的语言——。“在很多情况下,我们观察到 ChatGPT 插入了诸如‘当然我可以帮助你’、‘这肯定会解决它’等单词和短语。”

在其他发现中,作者发现 ChatGPT 更容易犯概念错误,而不是事实错误。该论文发现:“由于 ChatGPT 无法理解所提出问题的潜在背景,许多答案都是不正确的。”

作者对 ChatGPT 答案和 Stack Overflow 答案的语言分析表明,机器人的反应“更正式,表达更多分析思维,展示更多实现目标的努力,并表现出更少的负面情绪。”他们的情绪分析得出的结论是:ChatGPT 的答案比 Stack Overflow 的答案表达了“更积极的情绪”。

OpenAI 在其 ChatGPT 网站上承认其软件“可能会产生关于人、地点或事实的不精准资讯。”该公司暂未对普渡大学的研究作出回应。

延伸阅读:AI帮你做广告,成本省20倍!雀巢、可口可乐都拥抱AI,背后会有什么风险?

本文授权转载自:T客邦

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。