人类若被 AI 毁灭,一定是从教它玩〈当个创世神〉开始
▼
上周几乎是前脚追后脚,辉达和内地几家科研机构分别公布内容相似的论文。首先辉达开发全新游戏 AI 智慧体(Agent)──“Voyager”,将 AI 大模型 GPT-4 接入沙盒游戏〈当个创世神〉(Minecraft)。
基于GPT-4,Voyager能在〈当个创世神〉扩充物品和装备,建造房屋、挖矿、收集仙人掌和狩猎等;也能独立探索,去不同城市和地点,甚至自己做传送门。辉达称Voyager在〈当个创世神〉收集物品增加3.3倍,旅行距离增加2.3倍,解锁关键技能树的速度也比以前快15.3倍。
(Source:Voyager)
接着是商汤科技联合清华大学、上海人工智慧实验室等机构公布通用AI智慧体“Ghost in the Minecraft”(GITM)。
同样是将大语言模型(LLM)整合进〈当个创世神〉,GITM主世界所有技术挑战达成100%任务涵盖率(成功通关解锁完整科技树),之前所有智慧体总和只涵盖30%;另外“获取钻石”任务,GITM成功率达67.5%,比最佳成绩OpenAI的VPT法大幅提高47.5%。
▲ GITM〈当个创世神〉任务涵盖率远高于现有AI。(Source:Github)
说白点,两边都选择用〈当个创世神〉训练AI,且AI都比真人玩家完成更多任务,堪比以假乱真(几个月前还是不可能的事)。先抛开看起来艰涩的技术细节,为何两边不约而同用〈当个创世神〉做实验?
〈当个创世神〉就是大型AI实验场
说起用〈当个创世神〉训练的AI,可就太多了。着名的莫拉维克悖论这么说:一些任务对人类很困难,如下棋,但对AI很简单;像〈当个创世神〉这类开放沙盒与环境互动、规划和决策等对人类来说简单的事,对AI却是大挑战。
正因这种情况,几年前AI不如现在发达时,科学家最初只用〈当个创世神〉训练AI完成简单指令。2019年Facebook研发过〈当个创世神〉AI助理“craftassist bot”,这是智慧助理机器人,执行玩家指定的各种任务,如驯服马匹、建造城市、与村民会面及交易等。
也是2019年,卡内基美隆大学、微软、DeepMind和OpenAI,联合机器学习顶级会议NeurIPS举办“MineRL”专门用〈当个创世神〉为范围的AI比赛,到2022年共举行四届,同样见证AI应用从简单到复杂的过程。
第一届MineRL还很简单:看哪个团队能创造成功开采钻石的AI。不过很惨,最后900多个顶尖团队没有一个完成挑战,某些AI砍好木头却不会合成,某些AI做出熔炉却不会冶炼,某些AI知道去地下挖矿,却只会垂直往下挖。第三届比赛内容就变成看谁能训练出高效率AI,冠军是以76.970分夺冠的腾讯AI Lab“绝悟”。
其实各大公司开始密集用〈当个创世神〉训练AI也是近五年的事。美国国防高等研究计划署(DARPA)2020年8月启动自适应分布式机率任务分配(ADAPT)计划,以期战场利用AI协助指挥官下决策,承包商Aptima公司就是用〈当个创世神〉训练AI与人类互动。
2021年哥本哈根资讯科技大学、纽约大学和上海大学研究者也创建过3D神经元自动机(Neural Cellular Automata,NCA)系统,并放入〈当个创世神〉,这时NCA已可建造毛毛虫、城堡、公寓和树等复杂物体。
比较知名的实验是去年。OpenAI 2022年宣布AI已可熟练游玩〈当个创世神〉,引入新颖方便的AI训练法“影片预训练”(Video PreTraining),从合作方取得展示影片及影片配套键鼠操作纪录,再“投喂”给AI 7万小时后,AI操作就相当熟练,掌握人类才能领悟的高阶玩法。
DeepMind也在今年初开发媲美OpenAI成果的AI,名为“DreamerV3”。DreamerV3不用任何人类资料辅助,丢进〈当个创世神〉自己摸爬滚打17天,惊人地学会如何从零开始挖钻石,成了世界第一个自己摸索,就能速挖钻石的AI。
Introducing DreamerV3: the first general algorithm to collect diamonds in Minecraft from scratch – solving an important challenge in AI.
It learns to master many domains without tuning, making reinforcement learning broadly applicable.
Find out more: https://t.co/7GP0R93Yvc pic.twitter.com/YacIDojAF1
— Google DeepMind (@DeepMind) January 11, 2023
MineRL比赛发起人之一William Guss都忍不住第一时间贺电:4年了,“钻石挑战”终于克服了!
没有比〈当个创世神〉更适合的实验室了
〈当个创世神〉问世12年,为世界最受欢迎的游戏之一,许多玩家形容为电子版乐高,2019年就超过〈俄罗斯方块〉成为全球销量最高的游戏。“开放世界”属性更让它成为科学家训练AI的绝佳场所。
与〈英雄联盟〉等单一战略对战游戏不同,〈当个创世神〉并没有终极目标,仅有两种模式是“生存”和“创造”。“生存”模式玩家要建造房子并收集物品,活越久越好,即使是击退僵尸和蜘蛛的剑也需要玩家用木材和铁矿锻造;“创造”模式更自由,玩家可用各种材质立方体构建房屋和工具材料,且游戏永远不会结束。
如果说〈英雄联盟〉或棋类游戏因简单规则和机制,让AI以极快速度学习并超越战胜人类,〈当个创世神〉的复杂程度就几乎是挑战AI极限。多样环境、完全靠随机种子产生的地图、长决策序列与复杂技能学习、高自由玩法等海量策略偏好,都增加AI研究的难度。
要AI在15分内找到钻石,需经历徒手采集原木、合成木板、木棍与木镐,采集铁矿,经过一系列加工才能合成钻石,看似只是件小事,但对AI来说却需要掌握很复杂的逻辑关系──这还只是〈当个创世神〉的一小部分。除了制造工具,AI还需自己设定目标,学着探索游戏,直到解锁所有任务。
▲〈当个创世神〉挖钻石步骤。
如果只是学下棋或玩〈英雄联盟〉,AI只需要知道怎么赢就行了。是否觉得,去〈当个创世神〉训练过的AI高级多了?(虽然学习速度可能慢了点)
目前AI研究,科学家越来越追求通用人工智慧(AGI),打造更通用的AI,也就是AI能掌握广泛技能,适应各种环境,深入模拟人类解决复杂问题的能力,像人感知、理解和互动,而不是只会回答简单问题、下棋赢人类的“小打小闹”AI。这代表要训练通用AI,〈当个创世神〉环境非常适合。
不过开放沙盒游戏那么多,为什么偏偏是〈当个创世神〉?有网友在Twitter问开发Voyager的辉达首席科学家Jim Fan,既然Voyager是为开放世界而生,为什么没选择用〈萨尔达传说〉系列或〈艾尔登法环〉等游戏训练AI?
Jim Fan回答,主要难点并不是演算法,而是因为〈萨尔达传说〉和〈艾尔登法环〉等运用“缓慢且难以用程式控制高阶控制台”,且“需要好程式API控制角色”。而〈当个创世神〉技术门槛更低,目标和玩法类似,其实降低训练AI的难度。
I’ve been dreaming about these for a while. The main difficulty is not the algorithm, but:
– Simulator: slow and difficult to programmatically control high-end consoles.
– API: needs a good coding API to control the character. Pixel -> action is way too hard in Zelda & Elden… https://t.co/aEZ0hwNpZ6— Jim Fan (@DrJimFan) May 29, 2023
且〈当个创世神〉对开发者也很友善,许多构建〈当个创世神〉的程式库都开源,所以人们很容易修改,也允许研究员记录和学习玩家如何完成任务,观察他们如何与AI合作。从这些方面看,没有比〈当个创世神〉更适合训练AI的游戏了。
这次〈当个创世神〉的新AI有什么特别?
辉达Voyager,和商汤科技联合清华大学、上海人工智慧实验室的GITM,与过去基于〈当个创世神〉训练的AI最大不同在于,引入大型语言模型(LLM)为训练核心。以往〈当个创世神〉训练AI主流法是模仿学习和强化学习。即便OpenAI和DeepMind开发的最先进AI,训练法也是模仿学习和强化学习。
如果想让AI学会挖矿,模拟学习要做的就是先喂给AI上万支游戏影片,让它分析学习为什么要砍树,如何利用工作台分解合成,如何做出镐子,如何冶炼铁锭,制作铁镐,挖钻石,如何避免落入岩浆,如何战斗等必要步骤。投喂学习结束,AI接下来要接受强化学习,也就是把AI扔进游戏“真正”去挖矿,藉反复实验发现和解决问题,学会挖矿技能。
但用大型语言模型训练法,AI学习逻辑完全重构。再用挖矿举例,AI首先根据“尽可能多发现材料帮助挖矿”的总体目标提问、自动产生许多小任务,储存有助成功解决某任务的程序(比如先砍树再合成确定正确,做出熔炉就要冶炼也正确),AI就会逐渐建立正确挖矿技能库。之后再遇到挖矿任务,AI就可根据描述去技能库检索任务步骤。
▲ 大型语言模型训练法的GITM。(Source:Github)
也就是说,大型语言模型训练法的AI可自动探索并掌握技能,使其更能帮助AI成为终身学习者,长时间逐步取得、更新、积累和转移知识,同时缓解其他持续学习法的“灾难性遗忘”。有点像一直让AI待在学校里读书,还是一开始就叫AI去社会摸索的差别。总而言之,大型语言模型法训练的AI更像真人。
▲ Voyager探索物品量高于许多AI。(Source:Voyager)
理想AI应有与人类相似的能力,〈当个创世神〉AI不管技能程度和世界状态提出合适任务(发现自己身处沙漠而不是森林,就会在打铁前学会取得沙子和仙人掌)、根据环境回馈完善技能并记住学过的技能(如打僵尸和打蜘蛛的技能类似),还是不断探索世界,自动寻找新任务,都和现实人类决策过程和行为非常接近。
说〈当个创世神〉是个缩小版现实世界也不夸张,让人细思极恐的是,随着Voyager和GITM研究成果发表,AI已能破关〈当个创世神〉了。
不禁让人想到,AI是否很快就能在现实世界如鱼得水?它能像人生活,会做饭、会用手机、知道怎么穿衣服、怎么养宠物、怎么搭乘大众交通工具……更不可思议的是,它还能像人有想法,知道穿哪件衣服好看,怎么做饭更好吃,电话应该打给谁……说不定不久的将来,我们遇到的“人”,已无法分辨是不是AI。
既然都能破关〈当个创世神〉了,AI过过“人的生活”,技术上来讲也不是不能可能。而人类又会如何选择?
(本文由 品玩 授权转载;首图来源:Flickr/downloadsource.fr CC BY 2.0)
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。