《星海争霸 II》玩家,很快就可在天梯上为 DeepMind 的论文付出贡献了

《星海争霸 II》玩家,很快就可在天梯上为 DeepMind 的论文付出贡献了

7 月 10 日晚上,暴雪联合 DeepMind 发表新闻,DeepMind 开发的《星海争霸 II》AI“AlphaStar”很快就会出现《星海争霸 II》欧洲服务器的 1v1 天梯比赛。人类玩家不仅有机会与 AI 配对、和它们展开标准比赛,比赛结果也会像正常比赛影响自己的天梯分数。

在《星海争霸 II》做科研实验

正如人尽皆知的围棋 AI AlphaGo,DeepMind 喜欢的强化学习 AI 研究过程,是在某项比赛(博弈)环境进行技术探索,在新技术的辅助下让智慧体从历史数据学习、从自我博弈学习,然后与人类高手比赛,评估 AI 的水准。樊麾、李世乭、柯洁都光荣成为“人工智慧测试高级工程师”。

《星海争霸 II》玩家,很快就可在天梯上为 DeepMind 的论文付出贡献了 AI与大数据 图2张

此次《星海争霸 II》AI“AlphaStar”的研究过程,DeepMind 继续沿用这个思路,但这次他们更大胆,让大批不同水准的普通玩家参与 AI 表现评估,最终的比赛结果会写到《星海争霸 II》AI 科研计划的论文,投稿到学术期刊。这就是暴雪和 DeepMind 联手把 AI 送上天梯比赛的最重要原因。

进入《星海争霸 II》游戏,在 1v1 比赛设置了允许接入 DeepMind(DeepMind opt-in)之后,参加 1v1 天梯比赛的玩家就可能会遇到 AlphaStar。为了控制所有比赛变项都尽量接近正常的人类 1v1 天梯比赛,以及减小不同比赛间的差异,AlphaStar 会随机配到一部分玩家的天梯比赛,且 AI 会保持匿名,配到的玩家和《星海争霸 II》后台都无法知道哪些比赛有 AlphaStar 参与。不过,设置允许接入 AI 后,相信玩家立即就会开始对配到 AI 产生期待,而且比赛开始之后,也可能很快就会发现对手有些不寻常之处。

《星海争霸 II》玩家,很快就可在天梯上为 DeepMind 的论文付出贡献了 AI与大数据 图3张

▲ 1 月的比赛中,AlphaStar 会建造大量工人,快速建立资源优势(超过人类职业选手的 16 个或 18 个上限)。

《星海争霸 II》玩家,很快就可在天梯上为 DeepMind 的论文付出贡献了 AI与大数据 图4张

▲ 1 月的比赛中,AlphaStar 控制的两个追猎者黑血极限逃生。

今年 1 月时 AlphaStar 就曾与人类职业选手比赛并取得全胜。相比当时的版本,此次更大规模测试的 AlphaStar 版本有些改动,其中一些明显对人类有利:

  • 1 月版AlphaStar可直接读取地图所有可见内容,不需操作切换视角,这次需要自己控制视角,和人类一样只能观察到视野内的单位,也只能在视野内移动单位。
  • 1 月版仅使用神族,这次 AlphaStar 会使用全部 3 个种族。
  • 1 月版操作方面没有明确的性能限制,这次,与人类职业选手共同商议后,对 AlphaStar 的平均每秒操作数、平均每分钟操作数(APM)、瞬时最高 APM 等方面都更严格限制,减少操作方面的优势。

参与测试的 AlphaStar 都从人类比赛 replay 和自我比赛学习,没有从与人类的对局学习,同时 AlphaStar 的表现会在整个测试期间保持不变,不进行训练学习;这样得到的测试结果能直接反映 DeepMind 目前的技术水准到达怎样程度。另一方面,既是 AlphaStar 技术方案的一大亮点,参与测试的 AlphaStar 也会是 AlphaStar 种群(AlphaStar league,详见下文)的多个不同个体,配到的不同 AlphaStar 个体可能会有迥异的游戏表现。

AlphaStar 技术特点

这里把 AlphaStar 的技术特点总结如下(详细可参见文章):

  • 模型结构:AlphaStar 使用的是长序列建模模型,模型从游戏接口接收的数据是单位列表和这些单位的属性,经过神经网络计算后输出至游戏执行的指令。这个神经网络的基础是 Transformer 网络,并结合一个深度 LSTM 网络核心、一个带有指针网络的自动回归策略头,以及一个中心化的评分基准。

《星海争霸 II》玩家,很快就可在天梯上为 DeepMind 的论文付出贡献了 AI与大数据 图5张

▲ AlphaStar league 的个体形成明显的策略分布。(Source:DeepMind)

  • 训练策略:AlphaStar 首先根据高水准人类比赛进行监督学习训练(模仿学习),然后进行自我对弈。自我对弈过程使用群体强化学习的思路:AlphaStar 自我对弈过程始终都同时记录、更新多个不同版本的网络,保持一个群体,称为 AlphaStar league;AlphaStar league 中不同网络有不同的对战策略、学习目标等,维持群体的多样性,整个群体的对弈学习保证持续稳定的表现提升,且最新的版本也不会“忘记”如何击败最老的版本。
  • 训练结果输出:当需要输出一个网络为最终训练结果时,以 AlphaStar league 的纳许平衡采样,可得到已发现的多种策略综合最优解。
  • 算力需求:为了支援大批不同版 AlphaStar 智慧体的对战与更新,DeepMind 专门构建了一个大规模可拓展的分布式训练环境,使用最新的 Google TPUv3。AlphaStar league 的自我对战训练过程用了 14 天,每个 AlphaStar 智慧体使用 16 个 TPU,最终相当于每个智慧体都有长达 200 年的游戏时间。训练结束后的模型在单块消费级 GPU 就可运行。
  • 操作统计:1 月版中,AlphaStar 的平均 APM 为 280,峰值 APM 超过 1,000,计算延时平均为 350 毫秒;切换关注区域的速度大约每分钟 30 次。

此次在 AlphaStar 测试的大行动空间下的长序列建模,以及群体强化学习的训练策略,都是对提升强化学习演算法表现上限、应对复杂环境长期任务的积极技术探索。我们期待早日看到 DeepMind 的论文发表,更期待早日看到基于强化学习的决策系统让整个领域发展得更成熟。当然了,喜欢《星海争霸 II》的读者,可以准备一下,为 DeepMind 这篇论文贡献一份力量吧!

(本文由 雷锋网 授权转载;首图来源:影片截图)

延伸阅读:

  • 多图详解 DeepMind 的超人类水准《星海争霸》AI“AlphaStar”
  • 继《Dota 2》和《星海争霸》后,人类又一款竞技游戏败给 AI

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。