用 ChatGPT 控制 NPC，行动逼真到像正常人！史丹佛、Google 新研究炸场，赋予大模型准确记忆力

AI与大数据 57分钟前 0

▼

放任 25 个 AI 共同生活，竟然开始模拟人类行动！

萧箫发自凹非寺，量子位| 公众号QbitAI

AI不仅能像人起床、刷牙、吃饭、睡觉，还会被迫“出门工作”，甚至休闲时一起庆祝节日。

这都是史丹佛和Google的新研究：他们做了一次新实验，创造25个AI NPC，每个NPC都有不同身分和行为决策，并让它们在沙盒共同生活，靠ChatGPT模型下行为决策。结果这些AI NPC不仅像人生活，如作家就去写作、老板就去开店，且彼此还会互动，甚至对话：

研究一公开就爆红，宾州大学华顿商学院教授Ethan Mollick表示：

这些行动比起“角色扮演”，更像正常人会做的举动。

This is quite the paper!

It gave 25 AI agents motivations & memory, and put them in a simulated town.

Not only did they engage in complex behavior (including throwing a Valentine’s Day party) but the actions were rated more human than humans roleplaying. https://t.co/G7oJW1S3na pic.twitter.com/d7Gp4sXp4V

— Ethan Mollick (@emollick) April 10, 2023

OpenAI科学家Andrej Karpathy更直呼“这让开放世界游戏相形见绌”：

Love it – much fertile soil for indie games populated with AutoGPTs, puts “Open World” to shame. Simulates a society with agents, emergent social dynamics.
Paper: https://t.co/I07IJwweHE
Demo: https://t.co/pYNF4BBveG
Authors: @joon_s_pk @msbernst @percyliang @merrierm et al. pic.twitter.com/CP4tH9iAAV

— Andrej Karpathy (@karpathy) April 10, 2023

这研究究竟构建了什么样的“AI社会”？

当AI玩模拟市民

从Demo看来，25个AI身分、性格和年龄都不同：

他们会在共同社群生活，构造非常详细，有住宅区、大学、公园、咖啡厅等：

每个AI都有基础日程，如起床、梳洗、吃饭、睡觉等，据各自身分又会做不同行动，共同维持社群运转。Demo的emoji简单代表AI进行中操作，如收发信件和吃饭：

AI也会有互动：

交谈时也不是用AI语言，而是人类语言：

不仅如此，有互动的AI甚至能听人类的要求，采取对应行动。如论文作者提到，他们以人类身分告诉某AI NPC，希望它举办“情人节派对”。这AI NPC不仅热情答应作者的请求，自发开始组织，包括时间地点和到场人物等：

看到这有网友表示“太疯狂了”──对玩家来说，比起遵循步骤，以后游戏可能真的得说服NPC或思考后采取行动，才能完成任务。

It is really wild what this will be able to do for bigger open world games. Players will be able to accomplish goals by real persuasion and organization instead of just following steps. Really interesting. pic.twitter.com/EFRSkgJA7v

— Jeremy Chrysler (@jeremychrysler) April 10, 2023

还有脑洞大开的网友想到更邪恶的玩法：

想像你杀死一个NPC，然后坐车回到城市，看其他NPC为它举办葬礼>”<。

Imagine killing an NPC and coming back to the city and seeing a funeral for them

— Dennis Hansen (@dennizor) April 10, 2023

这些AI究竟如何自发行动，构建自运转的AI互动社会？

用大模型控制行动决策

史丹佛和Google分两步让AI采取行动、与其他AI互动。

第一步是构建各种AI“人设”，并确定它们做出符合设定的行动。以AI角色John Lin为例，Demo可找到设定列表。他的设定非常详细，包括基础资讯（姓名、年龄、位置、时间），注意力设定（视野范围等），个人资讯（性格、家庭背景、工作等）。

以此参考，John Lin AI就能形成每天固定的生活习惯，包括早起梳洗，然后上班，下班回家睡觉。

但活动时必定会与其他AI沟通或遇到新同事，于是……

第二步就是要让AI人设对外界环境和其他人有反应，产生互动。研究构建赋予AI记忆力、检索记忆、感测、回馈和互动等能力的架构。

从架构图看，AI首先感测周遭环境，并将一定视野（注意力）范围发生的事件记录下来，加进自己的记忆流（memory stream）。

之后无论AI计划要做的事（plan）还是反应（reflect）外界发生的事，都会受记忆流影响，原理是透过从记忆检索对应事件，并靠大模型ChatGPT下决策。当然，无论计划还是反应，对应事件也会加入记忆流，成为新记忆。最后决策将转为方案，使AI思考并行动。

研究提到，之所以采用大模型＋记忆架构，是因大模型虽具备非常优秀的行动逻辑，但无论GPT-4还是其他大模型，长期规划和保持记忆连贯仍是挑战。故需要一套记忆系统为大模型“参考标的”，让它决策时有清晰事件列表可回溯。

不过这研究也提出AI安全性问题。包括如何防止AI对社会产生影响，或遭有心人产生Deepfake和“客制化”AI诈骗等。

以后和你聊天的AI美眉不仅记得你说过的每件事、生日喜好，甚至还能参考产生更“贴心”的回答，让“她”看起来更像人……

One More Thing

内地超参数科技公司也做出类似的AI NPC系统GAEA。和史丹佛Google研究一样，GAEA同样有记忆系统，并靠大语言模型帮忙NPC决策。

不过两者使AI行动的奖励机制有些差异，相较研究靠大模型完成行动决策：

GAEA的AI会另外依更具体数值，影响NPC行动决策（饥饿值、心情值等）：

对现在的AI NPC技术，读者还想到什么脑洞大开的玩法？

（作者：萧箫；本文由量子位 QbitAI 授权转载；首图来源：shutterstock）

延伸阅读：

GPT-4 老板：AI 可能会杀死人类，已经出现无法解释的推理能力
ChatGPT 低成本再现流程开源！任意单张消费级显卡可体验，记忆体需求低至 1.62GB

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

萧箫发自凹非寺，量子位| 公众号QbitAI

当AI玩模拟市民

用大模型控制行动决策

One More Thing

延伸阅读：

相关文章