为了让 AI 不断打怪升级,DeepMind 打造“宇宙”

为了让 AI 不断打怪升级,DeepMind 打造“宇宙”

DeepMind 又给我们小惊喜。我们都知道,强化学习苦于类化能力差,经常只能针对单个任务从头学习。

DeepMind之前开发的AlphaZero,尽管可以玩围棋、西洋棋和日本将棋,但每种棋牌游戏都只能从头训练。类化能力差也是AI一直被诟病为人工智障的一大原因。人类智慧的厉害之处,就在藉鉴之前经验迅速适应新环境。

但类化能力不是一蹴而就,就像玩游戏,也是先做简单任务,逐步升级到复杂任务。《空洞骑士》(Hollow Knight)一开始只需要随意走动挥刀砍怪,但噩梦级难度的“苦痛之路”关,没有前面累积的技巧,只能玩寂寞。

多任务宇宙

DeepMind此次采用“课程学习”,让智慧体于不断扩展升级的开放世界学习。也就是说,AI新任务(训练资料)是基于旧任务不断生成。智慧体可尽情锻炼自己,简单的如“靠近紫色立方体”,复杂点的如“靠近紫色立方体或将黄X球体放在红色地板”,甚至和其他智慧体玩耍,如捉迷藏──“找到对方,且不要被对方发现”。

为了让 AI 不断打怪升级,DeepMind 打造“宇宙” AI与大数据 图2张

每个小游戏存在世界小角落,千千万万个小角落拼成庞大的物理模拟世界,如下图的几何“地球”。总体来说这个世界的任务由三个要素构成,即任务=游戏+世界+玩家,并根据三要素关系,决定任务的复杂度。

复杂度的判断有四个维度:竞争性、平衡性、可选项、探索难度。

比如“抢方块”游戏,蓝色智慧体需要把黄X方块放到白色区域,红色智慧体需要把黄X方块放到蓝色区域。这两个目标矛盾,因此竞争性较强;同时双方条件对等,平衡性比较高;因目标简单,所以可选项少;DeepMind把探索难度评为中上,可能是因定位区域算较复杂的场景。

再如“球球喜欢和方块一起玩”游戏,蓝色和红色智慧体有共同目标,让相同颜色的球体和方块放在相近位置。

这时竞争性自然很低,平衡性毋庸置疑很高的;可选项比上面游戏高很多;探索难度没有定位区域,智慧体随便把球体和方块放哪都行,难度就变小了。

基于这四个维度,DeepMind打造超大规模的Metaverse“宇宙”任务空间,几何“地球”也只是这宇宙的小角落,是四维任务空间的一点。DeepMind将“宇宙”命名为XLand,包含数十亿个任务。

来看XLand的全貌,由一系列游戏组成,每个游戏在许多模拟世界进行,这些世界的拓朴和特征平滑变化。

为了让 AI 不断打怪升级,DeepMind 打造“宇宙” AI与大数据 图3张

终生学习

数据有了,接下来得找到合适的算法。 DeepMind发现,目标注意代理(GOAT)可学习更通用的策略。

为了让 AI 不断打怪升级,DeepMind 打造“宇宙” AI与大数据 图4张

具体来说,智慧体输入包括第一视角的RGB图像、本体感觉以及目标。经过初步处理后,生成中间输出,传递给GOAT模组,会根据智慧体目前目标处理中间输出的特定部分,逻辑分析目标。

逻辑分析是指,每个游戏可借由一些方法,构建另一个游戏,并限制策略的价值函数的最优值上限或下限。

DeepMind提出一个问题:对每个智慧体,什么样的任务是最好的?换句话说,打怪升级时,什么样的关卡设置才让玩家顺利升级为“真”高手,而不是一刀9999?

DeepMind的答案是,每个新任务都基于旧任务生成,“不会太难,也不会太容易”。其实恰好是让人类学习时感觉“爽”的兴奋点。

训练开始时,太难或太容易的任务可能会鼓励早期学习,但会导致训练后期的学习饱和或停滞。不要求智慧体某任务非常优秀,而是鼓励终身学习,即不断适应新任务。所谓太难、太容易是较模糊的描述。需要量化方法,在新任务和旧任务之间弹性连接。

怎么不让智慧体做新任务时不适应而“暴死”?进化学习就提供很好的灵活性。总体来说,新任务和旧任务同时进行,且每个任务有多智慧体参与“竞争”。旧任务适应好的智慧体,会选拔到新任务继续学习。

新任务中,旧任务的优秀智慧体权重、瞬间任务分布、超参数都会复制,参与新一轮“竞争”。除了旧任务的优秀智慧体,还有很多新人参与,这就引进随机性、创新性、灵活性,不用担心“暴死”问题。

当然,因任务不断生成、动态变化,一个任务可训练不同长处的智慧体,并往不同方向演化(随着智慧体相对性能和强健性进行)。最终每个智慧体都会形成擅长任务的集合,就像春秋战国时期“百家争鸣”。说打怪升级显得格局小,简直是模拟地球。

为了让 AI 不断打怪升级,DeepMind 打造“宇宙” AI与大数据 图5张

DeepMind表示,“这种组合学习系统的特性是,不最佳化有界性能指标,而是更新定义的通用能力范围,这使智慧体开放式学习,仅受环境空间和智慧体的神经网络表达能力的限制。”

智慧初现

最终这复杂“宇宙”升级、进化、分流的智慧体长成了什么优秀物种?DeepMind说,智慧体有很明显的零样本学习能力,比如使用工具、合围、数数、合作+竞争等。

为了让 AI 不断打怪升级,DeepMind 打造“宇宙” AI与大数据 图6张

来看具体例子。首先智慧体学会临机应变。目标有三个:

  1. 黑色金字塔放到黄X球体旁边
  2. 紫色球体放到黄X金字塔旁边
  3. 黑色金字塔放到橙色地板

AI一开始找到一个黑色金字塔,想拿到橙色地板(目标3),但搬运过程瞄见黄X球体,瞬间改变主意,“我可以实现目标1啦”,将黑色金字塔放到黄X球体旁边。

为了让 AI 不断打怪升级,DeepMind 打造“宇宙” AI与大数据 图7张

第二个例子是,不会跳高,怎么拿到高台上的紫色金字塔?智慧体需要想办法突破障碍,取得高台上的紫色金字塔,高台周边并没有类似阶梯、斜坡的路。

因不会跳高,所以智慧体“掀桌子”,把周边几块竖起来的板子弄倒。然后一块黑色石板刚好倒在高台边,“等等,这不就是我要的阶梯吗?”这过程是否体现了慧体的智慧,还无法肯定,可能只是一时幸运。关键还是,要看统计数据。

为了让 AI 不断打怪升级,DeepMind 打造“宇宙” AI与大数据 图8张

经过5代训练,智慧体在XLand的4千个独立世界玩了约70万个独立游戏,涉及340万个独立任务,最后一代每个智慧体都经历2千亿次训练步骤。智慧体已能顺利参与几乎每个评估任务,除了少数即使人类也无法完成的任务。

DeepMind的研究,或许一定程度体现“密集学习”重要性。也就是说,不仅资料量要大,任务量也要大。这也使得智慧体在类化能力有很好表现,如资料显示,只需对一些新复杂任务进行30分钟集中训练,智慧体就可快速适应,而从头开始用强化学习训练的智慧体根本无法学习这些任务。

往后我们也期待这“宇宙”更复杂和生机勃勃,AI经过不断演化,不断给我们带来惊喜(细思极恐)的体验。

  • Generally capable agents emerge from open-ended play
  • Open-Ended Learning Leads to Generally Capable Agents

(本文由 雷锋网 授权转载;图片来源:DeepMind)

延伸阅读:

  • “Metaverse”将掀次世代网络革命?Facebook 热捧,微软也挺

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。