《星海争霸 II》玩家，很快就可在天梯上为 DeepMind 的论文付出贡献了

AI与大数据 16小时前 0

▼

7 月 10 日晚上，暴雪联合 DeepMind 发表新闻，DeepMind 开发的《星海争霸 II》AI“AlphaStar”很快就会出现《星海争霸 II》欧洲服务器的 1v1 天梯比赛。人类玩家不仅有机会与 AI 配对、和它们展开标准比赛，比赛结果也会像正常比赛影响自己的天梯分数。

在《星海争霸 II》做科研实验

正如人尽皆知的围棋 AI AlphaGo，DeepMind 喜欢的强化学习 AI 研究过程，是在某项比赛（博弈）环境进行技术探索，在新技术的辅助下让智慧体从历史数据学习、从自我博弈学习，然后与人类高手比赛，评估 AI 的水准。樊麾、李世乭、柯洁都光荣成为“人工智慧测试高级工程师”。

此次《星海争霸 II》AI“AlphaStar”的研究过程，DeepMind 继续沿用这个思路，但这次他们更大胆，让大批不同水准的普通玩家参与 AI 表现评估，最终的比赛结果会写到《星海争霸 II》AI 科研计划的论文，投稿到学术期刊。这就是暴雪和 DeepMind 联手把 AI 送上天梯比赛的最重要原因。

进入《星海争霸 II》游戏，在 1v1 比赛设置了允许接入 DeepMind（DeepMind opt-in）之后，参加 1v1 天梯比赛的玩家就可能会遇到 AlphaStar。为了控制所有比赛变项都尽量接近正常的人类 1v1 天梯比赛，以及减小不同比赛间的差异，AlphaStar 会随机配到一部分玩家的天梯比赛，且 AI 会保持匿名，配到的玩家和《星海争霸 II》后台都无法知道哪些比赛有 AlphaStar 参与。不过，设置允许接入 AI 后，相信玩家立即就会开始对配到 AI 产生期待，而且比赛开始之后，也可能很快就会发现对手有些不寻常之处。

▲ 1 月的比赛中，AlphaStar 会建造大量工人，快速建立资源优势（超过人类职业选手的 16 个或 18 个上限）。

▲ 1 月的比赛中，AlphaStar 控制的两个追猎者黑血极限逃生。

今年 1 月时 AlphaStar 就曾与人类职业选手比赛并取得全胜。相比当时的版本，此次更大规模测试的 AlphaStar 版本有些改动，其中一些明显对人类有利：

1 月版AlphaStar可直接读取地图所有可见内容，不需操作切换视角，这次需要自己控制视角，和人类一样只能观察到视野内的单位，也只能在视野内移动单位。
1 月版仅使用神族，这次 AlphaStar 会使用全部 3 个种族。
1 月版操作方面没有明确的性能限制，这次，与人类职业选手共同商议后，对 AlphaStar 的平均每秒操作数、平均每分钟操作数（APM）、瞬时最高 APM 等方面都更严格限制，减少操作方面的优势。

参与测试的 AlphaStar 都从人类比赛 replay 和自我比赛学习，没有从与人类的对局学习，同时 AlphaStar 的表现会在整个测试期间保持不变，不进行训练学习；这样得到的测试结果能直接反映 DeepMind 目前的技术水准到达怎样程度。另一方面，既是 AlphaStar 技术方案的一大亮点，参与测试的 AlphaStar 也会是 AlphaStar 种群（AlphaStar league，详见下文）的多个不同个体，配到的不同 AlphaStar 个体可能会有迥异的游戏表现。

AlphaStar 技术特点

这里把 AlphaStar 的技术特点总结如下（详细可参见文章）：

模型结构：AlphaStar 使用的是长序列建模模型，模型从游戏接口接收的数据是单位列表和这些单位的属性，经过神经网络计算后输出至游戏执行的指令。这个神经网络的基础是 Transformer 网络，并结合一个深度 LSTM 网络核心、一个带有指针网络的自动回归策略头，以及一个中心化的评分基准。

▲ AlphaStar league 的个体形成明显的策略分布。（Source：DeepMind）

训练策略：AlphaStar 首先根据高水准人类比赛进行监督学习训练（模仿学习），然后进行自我对弈。自我对弈过程使用群体强化学习的思路：AlphaStar 自我对弈过程始终都同时记录、更新多个不同版本的网络，保持一个群体，称为 AlphaStar league；AlphaStar league 中不同网络有不同的对战策略、学习目标等，维持群体的多样性，整个群体的对弈学习保证持续稳定的表现提升，且最新的版本也不会“忘记”如何击败最老的版本。
训练结果输出：当需要输出一个网络为最终训练结果时，以 AlphaStar league 的纳许平衡采样，可得到已发现的多种策略综合最优解。
算力需求：为了支援大批不同版 AlphaStar 智慧体的对战与更新，DeepMind 专门构建了一个大规模可拓展的分布式训练环境，使用最新的 Google TPUv3。AlphaStar league 的自我对战训练过程用了 14 天，每个 AlphaStar 智慧体使用 16 个 TPU，最终相当于每个智慧体都有长达 200 年的游戏时间。训练结束后的模型在单块消费级 GPU 就可运行。
操作统计：1 月版中，AlphaStar 的平均 APM 为 280，峰值 APM 超过 1,000，计算延时平均为 350 毫秒；切换关注区域的速度大约每分钟 30 次。

此次在 AlphaStar 测试的大行动空间下的长序列建模，以及群体强化学习的训练策略，都是对提升强化学习演算法表现上限、应对复杂环境长期任务的积极技术探索。我们期待早日看到 DeepMind 的论文发表，更期待早日看到基于强化学习的决策系统让整个领域发展得更成熟。当然了，喜欢《星海争霸 II》的读者，可以准备一下，为 DeepMind 这篇论文贡献一份力量吧！

（本文由雷锋网授权转载；首图来源：影片截图）

延伸阅读：

多图详解 DeepMind 的超人类水准《星海争霸》AI“AlphaStar”
继《Dota 2》和《星海争霸》后，人类又一款竞技游戏败给 AI

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

AI DeepMind 人工智慧测试

在《星海争霸 II》做科研实验

AlphaStar 技术特点

延伸阅读：

相关文章