DeepMind 新研究:AlphaZero 的黑盒子打开了

DeepMind 新研究:AlphaZero 的黑盒子打开了

西洋棋一直是 AI 实验室。70 年前艾伦图灵想制造能自我学习、不断进步的下棋机器,20 世纪诞生的“深蓝”第一次击败人类,但是靠专家输入西洋棋知识;2017 年出现的 AlphaZero 为神经网络驱动强化学习机器,实现了图灵的梦想。

AlphaZero的启发式演算法无需任何人工设计,也不需看人类下棋,完全自我对弈训练。那它真的学到人类下西洋棋的概念吗?这是神经网络的可解释性问题。

最近AlphaZero作者Demis Hassabis与DeepMind同事及Google Brain研究员合作研究,从AlphaZero神经网络找到人类下西洋棋概念的证据,显示神经网络训练过程获得概念的时间和位置,还发现AlphaZero与人类不同风格之处,论文发表于PNAS。

AlphaZero训练时学到人类西洋棋概念

AlphaZero的网络架构含骨干残差网络(ResNet)和单独Policy Head、Value Head,ResNet是一系列网络块和跳跃连接(skip connection)层构成。训练迭代(iteration)方面,AlphaZero从有随机初始化参数的神经网络开始,反复与自己对弈,学习棋子位置评估,根据产生数据再次训练。

为了确定AlphaZero网络多大程度显示人类下棋概念,研究使用稀疏线性探测法,将网络训练过程参数变化映射为人类可理解的变化。

首先将概念定义为图1橘色所示用户定义函数。当作探针,广义线性函数g训练用于近似西洋棋概念c。近似值g质量表示层(线性)对概念编码的程度。给予概念,对每个网络所有层训练过程产生的网络序列重复过程。

DeepMind 新研究:AlphaZero 的黑盒子打开了 AI与大数据 图2张

▲ 图1:AlphaZero网络(蓝色)探索人类编码的西洋棋概念。(Source:PNAS,下同)

可用一个函数确定我或对手是否有“主教♗”:

DeepMind 新研究:AlphaZero 的黑盒子打开了 AI与大数据 图3张

当然还有很多比这例子更复杂的西洋棋概念,如棋子机动性(mobility),可编写函数比较我和对手移动棋子时的得分。实验时概念函数预先指定,封装西洋棋领域知识。

接下来是探针训练。研究人员将ChessBase数据集中10的5次方个自然出现位置为训练集,从深度d的网络触发训练稀疏回归探针g,预测概念c的值。比较AlphaZero学习周期不同训练步骤的网络,以及每个网络不同层不同概念探针的分数,就可提取网络学习某个概念的时间和位置。

最终得到每个概念的what-when-where图,可视化“计算概念是什么”、“计算网络哪个位置发生”、“概念在网络训练什么时间出现”三指标。如图2。

DeepMind 新研究:AlphaZero 的黑盒子打开了 AI与大数据 图4张

▲ 图2:从A到B的概念分别是“总分评估”“我被将军了吗”“威胁评估”“我能吃掉对手的皇后吗”“对手这步棋会将死我吗”“子力分数评估”“子力分数”“我有士兵吗”。

可看到图c随着AlphaZero更强,“threats”概念函数和AlphaZero表征(可由线性探针检测到)越来越不相关。

这what-when-where图包括探测法较需要的两个基线,一是输入回归,第0层显示,二是来自有随机权重的网络触发回归,训练步骤0处显示。上图结果可得出结论,回归精确度变化完全由网络表征变化决定。

此外,许多what-when-where图结果都显示相同模式,即整个网络回归精确度一直都很低,直到约32k步时才随网络深度增加迅速提高,随后稳定并在后面层保持不变。所以所有与概念相关的计算都在网络相对早期发生,之后残差块则在执行移动时选择,或计算给予概念集之外特征。

随着训练越多,许多人类定义概念都可从AlphaZero表征预测,且准确率很高。

更高级的概念,研究人员发现AlphaZero掌握度还是有差。首先2k步骤时与零显着不同概念是“material”和“space”;更复杂的概念如“king_safety”、“threats”、“mobility”则是8k步骤时明显变为非零,且32k步骤后才有实质增长。这结果与图2 what-when-where图显示的r急剧上升点一致。

多数what-when-where图显着特征是网络回归精确度开始阶段就增长迅速,之后达平稳或下降。代表从AlphaZero发现的概念集还只是检测网络较早层,要了解后面层,需要新概念检测技术。

AlphaZero开局策略与人类不同

观察AlphaZero学到人类下棋概念后,研究人员针对开局策略探讨AlphaZero对西洋棋战术的理解,因开局选择隐含相关概念理解度。而AlphaZero与人类开局策略不同:AlphaZero会缩小范围,人类是扩大范围。

如图3A是人类对白棋第一步偏好历史演变,早期流行e4为第一步棋,后来开局策略更平衡灵活。图3B则是AlphaZero开局策略随训练演变。可看到AlphaZero开局总是平等权衡所有选择,然后逐渐缩小范围。

DeepMind 新研究:AlphaZero 的黑盒子打开了 AI与大数据 图5张

▲ 图3:随着训练步骤和时间过去,AlphaZero和人类第一步的偏好比较。

这与人类知识演变形成鲜明对比,人类知识从e4开始逐渐扩展,AlphaZero在训练后期明显偏向d4。不过偏好不需过度解释,因自我对弈训练是基于快速下棋,为了促进探索增加许多随机性。造成差异原因不清楚,但反映人类与人工神经网络的根本差异。可能原因或许是人类西洋棋历史资料更强调大师玩家的集体知识,AlphaZero的数据包括初学者和单一进化策略。

那当AlphaZero神经网络经多次训练,是否会出现对某些开局策略的偏好?

研究结果是,许多情况下,偏好在不同训练并不稳定,AlphaZero开局策略非常多样。如经典Ruy Lopez开局(俗称“西班牙开局”),AlphaZero早期有选择黑色的偏好,并遵循典型下法即1.e4 e5,2.Nf3 Nc6,3.Bb5。

DeepMind 新研究:AlphaZero 的黑盒子打开了 AI与大数据 图6张

▲ 图4:Ruy Lopez开局。

不同训练时AlphaZero会逐渐收敛到3.f6和3.a6之一。此外,AlphaZero不同版各自显现对某动作的强烈偏好,且训练早期就开始建立。这证明西洋棋下法多种多样,不仅人与机器之间可见,也在AlphaZero不同训练里。

AlphaZero掌握知识的过程

关于开局策略的研究结果,与AlphaZero概念理解有什么关联?研究发现,各种概念what-when-where图有明显拐点,与开局偏好显着变化吻合,尤其material和mobility概念似乎与开局策略直接相关。

material概念主要是10k至30k步骤学到,piece mobility概念也在同时期逐步融入AlphaZero的value head。棋子material价值基本理解应先于棋子mobility理解。然后AlphaZero将理论纳入25k~60k步骤的开局偏好。

作者分析AlphaZero网络的西洋棋知识演变过程:首先发现棋力,接着短时间窗口基础知识爆炸式增长,主要与mobility相关概念;最后是改进阶段,神经网络开局策略在数十万步骤内完善。虽然学习时间很长,但特定基础能力会在相对较短的时间内迅速出现。

前西洋棋世界冠军Vladimir Kramnik也被邀请来为结论佐证,他的观察与上述过程一致。

最后总结,这项研究证明AlphaZero学到的棋盘能够重建许多人类西洋棋概念,并详细说明网络学到的概念,训练时间学习概念的时间及计算概念的网络位置。且AlphaZero下棋风格与人类并不相同。既然我们以人类定义的西洋棋概念理解神经网络,那么下个问题将是:神经网络能学到人类知识以外的东西吗?

(本文由 雷锋网 授权转载;首图来源:Pixabay)

延伸阅读:

  • 能自学西洋棋、将棋、围棋的 AlphaZero,荣登《科学》杂志封面
  • DeepMind 论文揭示最强 AlphaGo Zero,不靠人类知识进化成长

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。