为了让 AI 不断打怪升级，DeepMind 打造“宇宙”

AI与大数据 7小时前 0

▼

DeepMind 又给我们小惊喜。我们都知道，强化学习苦于类化能力差，经常只能针对单个任务从头学习。

DeepMind之前开发的AlphaZero，尽管可以玩围棋、西洋棋和日本将棋，但每种棋牌游戏都只能从头训练。类化能力差也是AI一直被诟病为人工智障的一大原因。人类智慧的厉害之处，就在藉鉴之前经验迅速适应新环境。

但类化能力不是一蹴而就，就像玩游戏，也是先做简单任务，逐步升级到复杂任务。《空洞骑士》（Hollow Knight）一开始只需要随意走动挥刀砍怪，但噩梦级难度的“苦痛之路”关，没有前面累积的技巧，只能玩寂寞。

多任务宇宙

DeepMind此次采用“课程学习”，让智慧体于不断扩展升级的开放世界学习。也就是说，AI新任务（训练资料）是基于旧任务不断生成。智慧体可尽情锻炼自己，简单的如“靠近紫色立方体”，复杂点的如“靠近紫色立方体或将黄X球体放在红色地板”，甚至和其他智慧体玩耍，如捉迷藏──“找到对方，且不要被对方发现”。

每个小游戏存在世界小角落，千千万万个小角落拼成庞大的物理模拟世界，如下图的几何“地球”。总体来说这个世界的任务由三个要素构成，即任务＝游戏＋世界＋玩家，并根据三要素关系，决定任务的复杂度。

复杂度的判断有四个维度：竞争性、平衡性、可选项、探索难度。

比如“抢方块”游戏，蓝色智慧体需要把黄X方块放到白色区域，红色智慧体需要把黄X方块放到蓝色区域。这两个目标矛盾，因此竞争性较强；同时双方条件对等，平衡性比较高；因目标简单，所以可选项少；DeepMind把探索难度评为中上，可能是因定位区域算较复杂的场景。

再如“球球喜欢和方块一起玩”游戏，蓝色和红色智慧体有共同目标，让相同颜色的球体和方块放在相近位置。

这时竞争性自然很低，平衡性毋庸置疑很高的；可选项比上面游戏高很多；探索难度没有定位区域，智慧体随便把球体和方块放哪都行，难度就变小了。

基于这四个维度，DeepMind打造超大规模的Metaverse“宇宙”任务空间，几何“地球”也只是这宇宙的小角落，是四维任务空间的一点。DeepMind将“宇宙”命名为XLand，包含数十亿个任务。

来看XLand的全貌，由一系列游戏组成，每个游戏在许多模拟世界进行，这些世界的拓朴和特征平滑变化。

终生学习

数据有了，接下来得找到合适的算法。 DeepMind发现，目标注意代理（GOAT）可学习更通用的策略。

具体来说，智慧体输入包括第一视角的RGB图像、本体感觉以及目标。经过初步处理后，生成中间输出，传递给GOAT模组，会根据智慧体目前目标处理中间输出的特定部分，逻辑分析目标。

逻辑分析是指，每个游戏可借由一些方法，构建另一个游戏，并限制策略的价值函数的最优值上限或下限。

DeepMind提出一个问题：对每个智慧体，什么样的任务是最好的？换句话说，打怪升级时，什么样的关卡设置才让玩家顺利升级为“真”高手，而不是一刀9999？

DeepMind的答案是，每个新任务都基于旧任务生成，“不会太难，也不会太容易”。其实恰好是让人类学习时感觉“爽”的兴奋点。

训练开始时，太难或太容易的任务可能会鼓励早期学习，但会导致训练后期的学习饱和或停滞。不要求智慧体某任务非常优秀，而是鼓励终身学习，即不断适应新任务。所谓太难、太容易是较模糊的描述。需要量化方法，在新任务和旧任务之间弹性连接。

怎么不让智慧体做新任务时不适应而“暴死”？进化学习就提供很好的灵活性。总体来说，新任务和旧任务同时进行，且每个任务有多智慧体参与“竞争”。旧任务适应好的智慧体，会选拔到新任务继续学习。

新任务中，旧任务的优秀智慧体权重、瞬间任务分布、超参数都会复制，参与新一轮“竞争”。除了旧任务的优秀智慧体，还有很多新人参与，这就引进随机性、创新性、灵活性，不用担心“暴死”问题。

当然，因任务不断生成、动态变化，一个任务可训练不同长处的智慧体，并往不同方向演化（随着智慧体相对性能和强健性进行）。最终每个智慧体都会形成擅长任务的集合，就像春秋战国时期“百家争鸣”。说打怪升级显得格局小，简直是模拟地球。

DeepMind表示，“这种组合学习系统的特性是，不最佳化有界性能指标，而是更新定义的通用能力范围，这使智慧体开放式学习，仅受环境空间和智慧体的神经网络表达能力的限制。”

智慧初现

最终这复杂“宇宙”升级、进化、分流的智慧体长成了什么优秀物种？DeepMind说，智慧体有很明显的零样本学习能力，比如使用工具、合围、数数、合作＋竞争等。

来看具体例子。首先智慧体学会临机应变。目标有三个：

黑色金字塔放到黄X球体旁边
紫色球体放到黄X金字塔旁边
黑色金字塔放到橙色地板

AI一开始找到一个黑色金字塔，想拿到橙色地板（目标3），但搬运过程瞄见黄X球体，瞬间改变主意，“我可以实现目标1啦”，将黑色金字塔放到黄X球体旁边。

第二个例子是，不会跳高，怎么拿到高台上的紫色金字塔？智慧体需要想办法突破障碍，取得高台上的紫色金字塔，高台周边并没有类似阶梯、斜坡的路。

因不会跳高，所以智慧体“掀桌子”，把周边几块竖起来的板子弄倒。然后一块黑色石板刚好倒在高台边，“等等，这不就是我要的阶梯吗？”这过程是否体现了慧体的智慧，还无法肯定，可能只是一时幸运。关键还是，要看统计数据。

经过5代训练，智慧体在XLand的4千个独立世界玩了约70万个独立游戏，涉及340万个独立任务，最后一代每个智慧体都经历2千亿次训练步骤。智慧体已能顺利参与几乎每个评估任务，除了少数即使人类也无法完成的任务。

DeepMind的研究，或许一定程度体现“密集学习”重要性。也就是说，不仅资料量要大，任务量也要大。这也使得智慧体在类化能力有很好表现，如资料显示，只需对一些新复杂任务进行30分钟集中训练，智慧体就可快速适应，而从头开始用强化学习训练的智慧体根本无法学习这些任务。

往后我们也期待这“宇宙”更复杂和生机勃勃，AI经过不断演化，不断给我们带来惊喜（细思极恐）的体验。

Generally capable agents emerge from open-ended play
Open-Ended Learning Leads to Generally Capable Agents

（本文由雷锋网授权转载；图片来源：DeepMind）

延伸阅读：

“Metaverse”将掀次世代网络革命？Facebook 热捧，微软也挺

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

AI DeepMind 世界

多任务宇宙

终生学习

智慧初现

延伸阅读：

相关文章