人类若被 AI 毁灭，一定是从教它玩〈当个创世神〉开始

AI与大数据 1小时前 0

▼

上周几乎是前脚追后脚，辉达和内地几家科研机构分别公布内容相似的论文。首先辉达开发全新游戏 AI 智慧体（Agent）──“Voyager”，将 AI 大模型 GPT-4 接入沙盒游戏〈当个创世神〉（Minecraft）。

基于GPT-4，Voyager能在〈当个创世神〉扩充物品和装备，建造房屋、挖矿、收集仙人掌和狩猎等；也能独立探索，去不同城市和地点，甚至自己做传送门。辉达称Voyager在〈当个创世神〉收集物品增加3.3倍，旅行距离增加2.3倍，解锁关键技能树的速度也比以前快15.3倍。

（Source：Voyager）

接着是商汤科技联合清华大学、上海人工智慧实验室等机构公布通用AI智慧体“Ghost in the Minecraft”（GITM）。

同样是将大语言模型（LLM）整合进〈当个创世神〉，GITM主世界所有技术挑战达成100%任务涵盖率（成功通关解锁完整科技树），之前所有智慧体总和只涵盖30%；另外“获取钻石”任务，GITM成功率达67.5%，比最佳成绩OpenAI的VPT法大幅提高47.5%。

▲ GITM〈当个创世神〉任务涵盖率远高于现有AI。（Source：Github）

说白点，两边都选择用〈当个创世神〉训练AI，且AI都比真人玩家完成更多任务，堪比以假乱真（几个月前还是不可能的事）。先抛开看起来艰涩的技术细节，为何两边不约而同用〈当个创世神〉做实验？

〈当个创世神〉就是大型AI实验场

说起用〈当个创世神〉训练的AI，可就太多了。着名的莫拉维克悖论这么说：一些任务对人类很困难，如下棋，但对AI很简单；像〈当个创世神〉这类开放沙盒与环境互动、规划和决策等对人类来说简单的事，对AI却是大挑战。

正因这种情况，几年前AI不如现在发达时，科学家最初只用〈当个创世神〉训练AI完成简单指令。2019年Facebook研发过〈当个创世神〉AI助理“craftassist bot”，这是智慧助理机器人，执行玩家指定的各种任务，如驯服马匹、建造城市、与村民会面及交易等。

也是2019年，卡内基美隆大学、微软、DeepMind和OpenAI，联合机器学习顶级会议NeurIPS举办“MineRL”专门用〈当个创世神〉为范围的AI比赛，到2022年共举行四届，同样见证AI应用从简单到复杂的过程。

第一届MineRL还很简单：看哪个团队能创造成功开采钻石的AI。不过很惨，最后900多个顶尖团队没有一个完成挑战，某些AI砍好木头却不会合成，某些AI做出熔炉却不会冶炼，某些AI知道去地下挖矿，却只会垂直往下挖。第三届比赛内容就变成看谁能训练出高效率AI，冠军是以76.970分夺冠的腾讯AI Lab“绝悟”。

其实各大公司开始密集用〈当个创世神〉训练AI也是近五年的事。美国国防高等研究计划署（DARPA）2020年8月启动自适应分布式机率任务分配（ADAPT）计划，以期战场利用AI协助指挥官下决策，承包商Aptima公司就是用〈当个创世神〉训练AI与人类互动。

2021年哥本哈根资讯科技大学、纽约大学和上海大学研究者也创建过3D神经元自动机（Neural Cellular Automata，NCA）系统，并放入〈当个创世神〉，这时NCA已可建造毛毛虫、城堡、公寓和树等复杂物体。

比较知名的实验是去年。OpenAI 2022年宣布AI已可熟练游玩〈当个创世神〉，引入新颖方便的AI训练法“影片预训练”（Video PreTraining），从合作方取得展示影片及影片配套键鼠操作纪录，再“投喂”给AI 7万小时后，AI操作就相当熟练，掌握人类才能领悟的高阶玩法。

DeepMind也在今年初开发媲美OpenAI成果的AI，名为“DreamerV3”。DreamerV3不用任何人类资料辅助，丢进〈当个创世神〉自己摸爬滚打17天，惊人地学会如何从零开始挖钻石，成了世界第一个自己摸索，就能速挖钻石的AI。

Introducing DreamerV3: the first general algorithm to collect diamonds in Minecraft from scratch – solving an important challenge in AI.

It learns to master many domains without tuning, making reinforcement learning broadly applicable.

Find out more: https://t.co/7GP0R93Yvc pic.twitter.com/YacIDojAF1

— Google DeepMind (@DeepMind) January 11, 2023

MineRL比赛发起人之一William Guss都忍不住第一时间贺电：4年了，“钻石挑战”终于克服了！

没有比〈当个创世神〉更适合的实验室了

〈当个创世神〉问世12年，为世界最受欢迎的游戏之一，许多玩家形容为电子版乐高，2019年就超过〈俄罗斯方块〉成为全球销量最高的游戏。“开放世界”属性更让它成为科学家训练AI的绝佳场所。

与〈英雄联盟〉等单一战略对战游戏不同，〈当个创世神〉并没有终极目标，仅有两种模式是“生存”和“创造”。“生存”模式玩家要建造房子并收集物品，活越久越好，即使是击退僵尸和蜘蛛的剑也需要玩家用木材和铁矿锻造；“创造”模式更自由，玩家可用各种材质立方体构建房屋和工具材料，且游戏永远不会结束。

如果说〈英雄联盟〉或棋类游戏因简单规则和机制，让AI以极快速度学习并超越战胜人类，〈当个创世神〉的复杂程度就几乎是挑战AI极限。多样环境、完全靠随机种子产生的地图、长决策序列与复杂技能学习、高自由玩法等海量策略偏好，都增加AI研究的难度。

要AI在15分内找到钻石，需经历徒手采集原木、合成木板、木棍与木镐，采集铁矿，经过一系列加工才能合成钻石，看似只是件小事，但对AI来说却需要掌握很复杂的逻辑关系──这还只是〈当个创世神〉的一小部分。除了制造工具，AI还需自己设定目标，学着探索游戏，直到解锁所有任务。

▲〈当个创世神〉挖钻石步骤。

如果只是学下棋或玩〈英雄联盟〉，AI只需要知道怎么赢就行了。是否觉得，去〈当个创世神〉训练过的AI高级多了？（虽然学习速度可能慢了点）

目前AI研究，科学家越来越追求通用人工智慧（AGI），打造更通用的AI，也就是AI能掌握广泛技能，适应各种环境，深入模拟人类解决复杂问题的能力，像人感知、理解和互动，而不是只会回答简单问题、下棋赢人类的“小打小闹”AI。这代表要训练通用AI，〈当个创世神〉环境非常适合。

不过开放沙盒游戏那么多，为什么偏偏是〈当个创世神〉？有网友在Twitter问开发Voyager的辉达首席科学家Jim Fan，既然Voyager是为开放世界而生，为什么没选择用〈萨尔达传说〉系列或〈艾尔登法环〉等游戏训练AI？

Jim Fan回答，主要难点并不是演算法，而是因为〈萨尔达传说〉和〈艾尔登法环〉等运用“缓慢且难以用程式控制高阶控制台”，且“需要好程式API控制角色”。而〈当个创世神〉技术门槛更低，目标和玩法类似，其实降低训练AI的难度。

I’ve been dreaming about these for a while. The main difficulty is not the algorithm, but:
– Simulator: slow and difficult to programmatically control high-end consoles.
– API: needs a good coding API to control the character. Pixel -> action is way too hard in Zelda & Elden… https://t.co/aEZ0hwNpZ6

— Jim Fan (@DrJimFan) May 29, 2023

且〈当个创世神〉对开发者也很友善，许多构建〈当个创世神〉的程式库都开源，所以人们很容易修改，也允许研究员记录和学习玩家如何完成任务，观察他们如何与AI合作。从这些方面看，没有比〈当个创世神〉更适合训练AI的游戏了。

这次〈当个创世神〉的新AI有什么特别？

辉达Voyager，和商汤科技联合清华大学、上海人工智慧实验室的GITM，与过去基于〈当个创世神〉训练的AI最大不同在于，引入大型语言模型（LLM）为训练核心。以往〈当个创世神〉训练AI主流法是模仿学习和强化学习。即便OpenAI和DeepMind开发的最先进AI，训练法也是模仿学习和强化学习。

如果想让AI学会挖矿，模拟学习要做的就是先喂给AI上万支游戏影片，让它分析学习为什么要砍树，如何利用工作台分解合成，如何做出镐子，如何冶炼铁锭，制作铁镐，挖钻石，如何避免落入岩浆，如何战斗等必要步骤。投喂学习结束，AI接下来要接受强化学习，也就是把AI扔进游戏“真正”去挖矿，藉反复实验发现和解决问题，学会挖矿技能。

但用大型语言模型训练法，AI学习逻辑完全重构。再用挖矿举例，AI首先根据“尽可能多发现材料帮助挖矿”的总体目标提问、自动产生许多小任务，储存有助成功解决某任务的程序（比如先砍树再合成确定正确，做出熔炉就要冶炼也正确），AI就会逐渐建立正确挖矿技能库。之后再遇到挖矿任务，AI就可根据描述去技能库检索任务步骤。

▲ 大型语言模型训练法的GITM。（Source：Github）

也就是说，大型语言模型训练法的AI可自动探索并掌握技能，使其更能帮助AI成为终身学习者，长时间逐步取得、更新、积累和转移知识，同时缓解其他持续学习法的“灾难性遗忘”。有点像一直让AI待在学校里读书，还是一开始就叫AI去社会摸索的差别。总而言之，大型语言模型法训练的AI更像真人。

▲ Voyager探索物品量高于许多AI。（Source：Voyager）

理想AI应有与人类相似的能力，〈当个创世神〉AI不管技能程度和世界状态提出合适任务（发现自己身处沙漠而不是森林，就会在打铁前学会取得沙子和仙人掌）、根据环境回馈完善技能并记住学过的技能（如打僵尸和打蜘蛛的技能类似），还是不断探索世界，自动寻找新任务，都和现实人类决策过程和行为非常接近。

说〈当个创世神〉是个缩小版现实世界也不夸张，让人细思极恐的是，随着Voyager和GITM研究成果发表，AI已能破关〈当个创世神〉了。

不禁让人想到，AI是否很快就能在现实世界如鱼得水？它能像人生活，会做饭、会用手机、知道怎么穿衣服、怎么养宠物、怎么搭乘大众交通工具……更不可思议的是，它还能像人有想法，知道穿哪件衣服好看，怎么做饭更好吃，电话应该打给谁……说不定不久的将来，我们遇到的“人”，已无法分辨是不是AI。

既然都能破关〈当个创世神〉了，AI过过“人的生活”，技术上来讲也不是不能可能。而人类又会如何选择？

（本文由品玩授权转载；首图来源：Flickr/downloadsource.fr CC BY 2.0）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

〈当个创世神〉就是大型AI实验场

没有比〈当个创世神〉更适合的实验室了

这次〈当个创世神〉的新AI有什么特别？

相关文章