血虐人类玩家,DeepMind《星海争霸 2》AI 现身知名期刊
▼
游戏 AI 的新进展接连不断,10 月 30 日DeepMind 在 Twitter 和部落格表示《星海争霸 2》AI“AlphaStar”的论文被《Nature》期刊接受,最重要的是补上大规模 1v1 人类对局的实验结果。结果也令人钦佩:在《星海争霸 II》欧服约 9 万名玩家中取得“Grandmaster”段位,天梯排名达到所有活跃玩家前 0.15%(相当于前 150 名内)。这样的水准直接参加《星海争霸 II》天梯比赛可谓“炸鱼”般的存在,一路被血虐的人类玩家不知道有没有怀疑到底碰上的是 AI 还是职业选手。
▲1 月的比赛,AlphaStar会建造大量工人,快速建立资源优势(超过人类职业选手的 16个或 18个上限)。
▲ 1 月的比赛,AlphaStar控制的两个追猎者黑血极限逃生。
AlphaStar 如何走到这一步?
技术方面,今年 1 月 DeepMind 就公开 AlphaStar 和人类职业选手的测试比赛对局,并解释许多AlphaStar 重要的技术原理,包括:
- 模型架构:AlphaStar 使用的是长串列建模模型,模型从游戏介面接收的资料是单位清单和这些单位的属性,经过神经网络计算后汇出游戏执行的指令。这个神经网络的基础是Transformer网络,并结合一个深度LSTM网络核心、一个带有指标网络的自动回归策略头,以及一个中心化的评分基准。
▲ AlphaStar League 的个体形成明显的策略分散。
- 训练策略:AlphaStar 首先根据高程度人类比赛做监督学习训练(模仿学习),然后自我对弈。自我对弈时使用群体强化学习思路:AlphaStar 自我对弈始终都同时记录、更新多个版本的网络,保持一个群体,称作 AlphaStar league;AlphaStar League 不同的网络有不同的对战策略、学习目标等,维持群体多样性,整个群体的对弈学习持续稳定提升表现,且最新版本也不会“忘记”如何击败较早的版本。
- 训练结果汇出:当需要汇出一个网络为最终训练结果时,以AlphaStar League 的 Nash 分散取样,可得到已发现的多种策略综合最优解。
- 算力需求:为了支援大批不同版本AlphaStar智慧体的对战与更新,DeepMind 专门构建大规模可拓展的分散式训练环境,使用最新 Google TPUv3。AlphaStar League的自我对战训练过程花了 14天,每个AlphaStar智慧体使用 16个 TPU,最终相当于每个智慧体都有长达 200年的游戏时间。训练结束后的模型在单块消费级GPU 就能执行。
- 作业统计:1 月版本中,AlphaStar 平均 APM 为 280,峰值 APM 超过 1000,计算延时平均为 350毫秒;切换关注区域的速度约每分钟 30次。
今年 7 月,DeepMind 准备 AlphaStar 论文的《Nature》版,并准备进行大规模人类 1v1 比赛为论文重要实验时也曾预告。其实 1 月和人类比赛的AlphaStar 版有一些设定对 AI 有优势,于是大规模比赛版经修改,以便更公平展现 DeepMind 的科研水准。改动包括:
- 1 月版可直接读取地图所有可见内容,不需要操作切换视角;这次需要自己控制视角,和人类一样只能观察到视野内的单位,也只能在视野内移动单位。
- 1 月版仅使用神族,这次AlphaStar 会使用人族、虫族、神族全部三个种族。
- 1 月版操作方面没有明确效能限制,这次与人类职业选手共同商议后,严格限制 AlphaStar 的平均每秒运算位元、平均每分钟运算位元(APM)、瞬时最高 APM 等方面,减少操作比人类高的优势。
- 参与测试的AlphaStar 都是从人类比赛 replay 和自我比赛学习,没有从与人类的对局学习。
除此之外,AlphaStar 的表现会在整个测试期间保持不变,不进行训练学习;这样得到的测试结果能直接反应DeepMind 目前的技术水准到什样程度。另一方面,AlphaStar 技术的一大亮点是,参与测试的AlphaStar 也会是 AlphaStar League 的多个个体,符合不同 AlphaStar 个体可能会有迥异的游戏表现。
新版 AlphaStar 一共经过 44 天训练,然后在《星海争霸 II》天梯(在暴雪的帮助下)用许多分身帐号比赛,以免被玩家发现。最终达到《星海争霸 II》欧服“Grandmaster”段位,以及所有活跃玩家的前 0.15% 排名。
AlphaStar 是怎样的里程碑?
首先,《星海争霸 II》是不完全资讯游戏(博弈),战争迷雾隐藏了对手许多资讯,AI 需要有探索、记忆甚至推测的能力才能获得好表现。
其次,虽然 AlphaStar 和围棋 AI AlphaGo 一样都是以自我对局为重要的训练策略,但在《星海争霸 2》,策略遗忘和互相克制更明显,并没有某个策略可稳定胜过所有策略,所以继续使用简单的自我对局学习,会让智慧体陷入不同策略间游移但停滞不前。为了解决这个问题,DeepMind 采用群体强化学习的训练策略(前文提到的 AlphaStar League),用一个群体许多不同个体各自演进来储存并持续最佳化不同的游戏策略。
《星海争霸 II》还有很大的行为空间,比如每个玩家可同步行动、每个行动有不同时间长短、位移和行动都是空间连续、攻击防御技能物品等还有很多变化,要比围棋的行为空间大很多。为了应付这类行为空间,DeepMind 不仅使用模仿学习找到优秀的初始策略,且借助一些网络设计技巧来明确智慧体对策略的使用和切换,以及使用策略不线上的强化学习演算法,让旧策略完成的比赛也能帮助新策略学习。除此之外,DeepMind 还发现,对于这么大的行动空间,许多在其他工作能有帮助的强化学习技巧已帮助不大,这对整个强化学习领域来说也是新的发现。
在越来越困难的工作,使用基于学习的智慧体、借助自我对局持续进化的开放目标的学习系统,展现出越来越好的表现。这次 AlphaStar 的例子,大规模比赛结果表明通用化学习方法完全可拓展 AI 系统的规模,让它在复杂、动态、多玩家的环境发挥良好的表现。在 DeepMind 看来,开发 AlphaStar 的过程涉及的技术都能帮助未来开发出更安全、更强健性、更有用的通用 AI 系统,最好还能帮助解决真实世界的问题研究。
- AlphaStar: Grandmaster level in StarCraft II using multi-agent reinforcement learning
(本文由 雷锋网 授权转载;首图来源:影片截图)
延伸阅读:
- 《星海争霸 II》玩家,很快就可在天梯上为 DeepMind 的论文付出贡献了
- 多图详解 DeepMind 的超人类水准《星海争霸》AI“AlphaStar”
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。