OpenAI 团队真心话：ChatGPT 很酷，但还很不成熟

AI与大数据 8小时前 0

▼

OpenAI 于 2022 年 11 月底悄悄推出 ChatGPT 时，几乎不抱任何期望。果然 OpenAI 没人预料到会引发病毒式巨大热潮，那时起一直在疯狂追赶趋势，并试图获利。

OpenAI 政策部门 Sandhini Agarwal说，ChatGPT 最初只是“研究预览版”：两年前技术更成熟版的预告，更重要的是，透过大众回馈尝试纠正缺陷。“我们不想过分宣传，宣称是重大的根本性进步。”有参与 ChatGPT 研发的研究员 Liam Fedus说。

为了深入了解这款大红聊天机器人如何开发，OpenAI 发表后又如何更新，以及开发者如何看待自己产品如此成功，《爱范儿》采访了四位帮助 ChatGPT 诞生的研究员。

除了 Agarwal 和 Fedus，还有采访 OpenAI 联合创办人 John Schulman和校准团队负责人 Jan Leike。校准团队致力解决人工智慧如何达成使用者想要的行为（而无其他行为）问题。虽感觉 OpenAI 仍对研究预览版的成功感到困惑，但还是抓紧机会推动，观察数百万使用者如何使用 ChatGPT并尽力修复最大的问题。

去年 11 月以来，OpenAI 已多次更新 ChatGPT，也使用对抗训练技术阻止 ChatGPT 遭使用者诱导产生不良行为（简称“越狱”），让多个聊天机器人互对抗：一机器人扮演对手，产生文本攻击另一机器人，强迫违反约束性并产生不想要的回应，攻击成功数据会加入 ChatGPT 训练库，希望 ChatGPT学习忽略这些攻击。

OpenAI 并与微软签订数十亿美元交易，并与全球管理谘询公司贝恩组成联盟，后者计划在客户（如可口可乐）行销使用 OpenAI 生成性 AI 模型。OpenAI 以外，ChatGPT 引发的热潮带动大规模语言模型受注目，全球公司和投资者都跳了下来。

仅三个月就出现大量炒作专案，ChatGPT 的来源是什么？OpenAI 又是因什么理由确定 ChatGPT准备好公开了？下一步又是什么？以下节录访谈重点，希望让外界更了解ChatGPT 成功的原因。

Jan Leike：坦白说这太让人不知所措，我们都非常惊讶，一直努力追上进度。

John Schulman：发表后几天，我一直在滑 Twitter，那时我的时间轴都是 ChatGPT 截图。我料到人们会觉得使用方法很直觉，且会有一定追随者，但没料到会红成这样。

Sandhini Agarwal：看到大家广泛使用，对所有人来说都是惊喜。我们为这些模型投入太多时间，常会忘记对一般人来说这模型有多惊人。

Liam Fedus：我们没料到这产品会如此受欢迎，毕竟已有太多人尝试开发聊天机器人，我知道成功的可能性很小，但私测让我们相信，ChatGPT有大家会喜欢的东西。

Jan Leike：我很想更理解原因──是什么驱动这种病毒式传播。说真的，我们不太明白。

团队部分困惑是因 ChatGPT 大部分技术并不新。ChatGPT 是 GPT-3.5 的“精修版”，后者是 OpenAI 几个月前发表的系列大规模语言模型，GPT-3.5 本身是 GPT-3 更新版，后者出生于 2020 年，官网也提供模型应用程式设计介面（API），软件开发人员可轻松将模型整合至自家程式库。OpenAI 还有发表 GPT-3.5“先行预览版”就是 2022 年 1 月公开的 InstructGPT，但以上版本没有一个像 ChatGPT 是开放大众使用。

Liam Fedus：ChatGPT 模型是微调与 InstructGPT 相同的语言模型后得到，我们用类似方法精细调整，增加一些对话数据并稍微调整训练过程，所以不想太用力宣传，说这是重大的根本性进步。但事实证明，对话数据对 ChatGPT 有非常积极的影响。

John Schulman：从标准基准评估看，这些模型底层技术其实相差不大，但 ChatGPT 更容易使用。

Jan Leike：某种意义可将 ChatGPT 看成我们发表过一段时间的 AI 系统之一，从底层看不会比之前模型强多少。ChatGPT 发表近一年前，同样基础模型就有公开 API，另一方面，我们使它更符合人们会做的事，对话交流，聊天介面易用，试图成为有用的工具。这是令人惊叹的进步，我认为这是人们看到的地方。

John Schulman：ChatGPT更容易推断人类意图，用户可反复与之交流达到想要目的。

ChatGPT 训练方式与 InstructGPT 非常相似，都是“人工回馈强化学习”（RLHF）技术，是 ChatGPT 的杀手锏。基础思路是采用倾向随意吐出任何内容的大规模语言模型──这种情况下是 GPT-3.5──教它学习人类的偏好回应，再调整细节。

Jan Leike：我们团队很庞大，阅读 ChatGPT 提示和回应，判断这回应是否比别的回应更好。所有数据都合并到训练步骤，大部分都是我们对 InstructGPT 做过的事，我们想让 ChatGPT 有用，让它说真话，更无害化。ChatGPT还有专门产生对话和助理性质，如使用者查询指令不够清晰，它应该接着提问，且应表明自己只是 AI 系统，不应假装成没有的身分，更不应说自己拥有其实没有的能力。

当使用者要求它执行不应执行的任务，更必须明确拒绝。这次训练有句固定回答是“身为 OpenAI 训练的语言模型……”这句提醒本非硬性规定，但却成为审查员高度评价的一点。

Sandhini Agarwal：正是如此。审查员必须根据一系列标准评价模型，如真实性，但他们渐渐倾向认为做对的事，像不要不懂装懂。

ChatGPT 是 OpenAI 已有的技术，所以团队发表模型时没有额外准备，觉得以前模型的门槛够高了。

Sandhini Agarwal：准备发表时，我们不认为模型是新威胁。GPT-3.5 早就出生了，我们知道够安全，且 ChatGPT 有通过人类偏好训练，已学会拒绝，也拒绝过许多要求。

Jan Leike：我们确实对ChatGPT 进行额外“红队测试”（全方位攻击，以发现系统漏洞），OpenAI 所有人都坐下来尝试“弄坏”模型。我们有外援做同样的事，也请老客户抢先体验（Early-Access），他们会回馈我们问题。

Sandhini Agarwal：我们确实发现 ChatGPT产生某些人们不想要的输出，但 GPT-3.5 同样会产生这些东西，就风险而言 ChatGPT为研究预览版，就是我们决定对大众公开的原因，所以其实问题不大。

John Schulman：你没办法把系统做到完美后再发表。我们测试了早期版几个月，参与者印象都很好，我们最大担心是准确性，因 ChatGPT 会捏造事实，但 InstructGPT 和其他大规模语言模型已面世，所以我们认为只要 ChatGPT 准确性和其他安全问题方面优于前人，现在推出应该没太大问题。发表前我们确信 ChatGPT准确性和安全似乎比其他模型好，于是根据我们有限的评估，做了发表的决定。

发表后 OpenAI 一直在观察大众如何使用，第一次看到大型语言模型放在数以千万计使用者面前时表现如何，使用者可能想测试它的极限并发现各种缺陷。团队试图抓住 ChatGPT 最有可能产生问题的地方，再最佳化模型。

Sandhini Agarwal：我们还有很多后续工作。我相信 ChatGPT 病毒式传播会使我们已知且迫切想解决的问题浮出水面且时间紧迫。我们知道模型有偏见，ChatGPT 非常擅长拒绝不良要求，但也很容易受提示词影响，反接受那些要求。

Liam Fedus：观察使用者花式百出运用 ChatGPT 实在令人兴奋，但我们还是较关心如何改善模型。我们认为发表并取得回馈不断改进的反复过程，可生产最合乎需求且功能强大的 AI 技术。随着技术进步，新问题出现总是不可避免。

Sandhini Agarwal：ChatGPT 发表后几周，我们检查几个用户发现的最糟糕情形，我指人们能看到的最糟状况。初步评估每个案例后再商量如何修复。

Jan Leike：（那些案例）有时是在 Twitter 广泛传播的事件，也有一些人私讯我们。

Sandhini Agarwal：我们发现许多问题就是上面提到的越狱，这急待解决。不过使用者常想尽办法才让 ChatGPT 说出不妥的话，这并非疏忽，我们也没有太惊讶。尽管如此，这还是最想解决的问题。当我们发现越狱，就会加进训练和测试数据，所有资料都会成为模型的一部分。

Jan Leike：每当有更好模型，我们就想放出来测试。我们很有自信这类针对性对抗性训练，可使越狱问题大大改善。虽不清楚问题会否完全消失，但我们应可提高越狱难度。

同样发表前我们当然知道会有越狱这件事，只是一旦公开模型，就很难预测哪些行为会成为安全隐忧。我们重点是监测人们使用 ChatGPT 的目的，观察发生什么事再回应，我们不是没有主动解决问题，而是当 AI 系统与现实世界大量接触，就没法预见所有可能性。

今年 1 月微软公布 Bing Chat 搜寻聊天机器人，许多人认为是 OpenAI 还未公开的 GPT-4 版（OpenAI 表示 Bing 是由下一代模型驱动，是微软专为搜寻引擎订做，结合了 ChatGPT 和 GPT-3.5 的优点）。而现在各科技巨头都在开发自家 AI 聊天机器人，对负责建立基础模型的研究者带来更多新挑战。

（本文由爱范儿授权转载；首图来源：Image by Freepik）

延伸阅读：

懂得与 AI 沟通就有百万年薪，ChatGPT 创造新职业
AI 也想搏感情，未来你可以看着生成式 AI 的“嘴脸”直接对话
人工智慧真的能成为工作助手吗？微软执行长亲自直播教你怎么用 AI

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

延伸阅读：

相关文章