ChatGPT 回答程式问题错误率高达5成！为何用户还是信？被什么误导了？

AI与大数据 3天前 0

▼

美国普渡大学的研究发现，OpenAI 开发的人工智慧聊天机器人 ChatGPT 在回答软件程式问题时，错误率超过一半，且能骗过三分之一的提问者。

该研究团队分析了 ChatGPT 对 517 个 Stack Overflow 网站上的问题的回答，评估了其正确性、一致性、全面性和简洁性。他们还对回答进行了语言和情感分析，并对 12 名志愿参与者进行了问卷调查。

ChatGPT 回答软件程式问题 52% 是乱讲的，为何用户还信？

这份研究报告的结论是：ChatGPT 的回答虽然语言风格良好，但其实有 52% 的回答是错误的，77% 是太过于冗长的。参与者只有在回答中的错误很明显时，才能识别出来。否则，他们会被 ChatGPT 的友好、权威和细致的语言风格所误导。

他们的论文指出：“在我们的研究过程中，我们观察到，只有当 ChatGPT 答案中的错误很明显时，用户才能识别出错误。但是，当错误不易验证或需要用到外部IDE时，用户往往没有能力去发现错误，或低估答案中的错误程度。”

不过，论文中也指出，即使答案存在明显错误，12 名参与者中仍有两人仍然会选择采用 ChatGPT 的答案。论文认为，这是因为 ChatGPT 具有令人愉快、权威的风格。

该论文解释说：“从半结构化访谈中可以明显看出，礼貌的语言、清晰的教科书风格的答案、全面性和答案的关联性，将使得就算是完全错误的答案也能看起来是正确的。”

由于ChatGPT的答案常具有煽动性、暗示或成就的语言，例如：当然我可以帮助你、这肯定会解决它，让用户不自觉地选择相信。

图／ Emiliano Vittoriosi on Unsplash

该论文的作者之一 Samia Kabir 表示：参与实验的人更喜欢不正确且冗长的ChatGPT答案，而不是 Stack Overflow 的答案，这是由于多种原因造成的。

“ 主要原因之一是ChatGPT的答案非常详细。在很多情况下，如果参与者从冗长而详细的答案中获得有用的信息，他们并不介意回答的长度 。 此外，积极的情绪和答案的礼貌是另外两个原因 。”

“当参与者发现ChatGPT的答案很有洞察力时，他们就会忽略了答案中实际存在的错误。ChatGPT 自信地传达有洞察力的讯息（即使讯息不正确）的方式赢得了用户的信任，这使他们更喜欢错误的答案。”

延伸阅读：20万本盗版书都在“book 3”，AI巨头从这偷数据！这是什么？

Stack Overflow 是一个专门为程式设计师提供问答服务的网站，被认为是开发者获取程式码片段和解决问题的重要来源。然而，该网站近年来也面临着流量下降、内容品质下降和使用者信任下降等问题。据 SimilarWeb 在 4 月份的一份报告显示，自 2022 年 1 月以来，该网站每月流量下降了 6%，3 月份下降了 13.9%，而 ChatGPT 可能是导致其流量下降的原因之一。Stack Overflow 则否认了 SimilarWeb 的评估，并表示其流量受到搜寻演算法和 ChatGPT 兴趣激增的影响。

作者观察到，ChatGPT 的答案还更有煽动性——暗示成就或成就的语言——。“在很多情况下，我们观察到 ChatGPT 插入了诸如‘当然我可以帮助你’、‘这肯定会解决它’等单词和短语。”

在其他发现中，作者发现 ChatGPT 更容易犯概念错误，而不是事实错误。该论文发现：“由于 ChatGPT 无法理解所提出问题的潜在背景，许多答案都是不正确的。”

作者对 ChatGPT 答案和 Stack Overflow 答案的语言分析表明，机器人的反应“更正式，表达更多分析思维，展示更多实现目标的努力，并表现出更少的负面情绪。”他们的情绪分析得出的结论是：ChatGPT 的答案比 Stack Overflow 的答案表达了“更积极的情绪”。

OpenAI 在其 ChatGPT 网站上承认其软件“可能会产生关于人、地点或事实的不精准资讯。”该公司暂未对普渡大学的研究作出回应。

延伸阅读：AI帮你做广告，成本省20倍！雀巢、可口可乐都拥抱AI，背后会有什么风险？

本文授权转载自：T客邦

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

AI

ChatGPT 回答软件程式问题 52% 是乱讲的，为何用户还信？

相关文章