Google Brain 用强化学习为行动装置量身订做最好最快的 CNN 模型

Google Brain 用强化学习为行动装置量身订做最好最快的 CNN 模型

卷积神经网络(CNN)广泛用于影像分类、人脸辨识、物体侦测及其他工作。然而,为行动装置设计CNN模型是个大挑战,因行动模型需要又小又快,同时还要保持足够的准确率。虽然研究人员花了非常多时间精力在行动模型的设计和改良,做出MobileNetMobileNetV2这类成果,但人工设计高效模型始终很有难度,其中有许多可能性需要考虑。

AutoML神经网络架构搜寻研究的启发,Google Brain团队开始考虑能否透过AutoML的力量让行动装置CNN模型设计也更进一步。Google AI部落格的新文章,介绍了用AutoML思路为行动装置找到更好网络架构的研究成果,以下为文章编译。

Google 论文《MnasNet: Platform-Aware Neural Architecture Search for Mobile》中,尝试了一种基于强化学习范式的自动神经网络架构搜寻方法来设计行动模型。为了应付行动装置的执行速度限制,Google Brain研究人员专门把执行速度资讯也加入搜寻演算法的主回馈函数,这样搜到的模型就是可在执行速度和辨识准确率之间取得良好平衡的模型。透过这种方法,MnasNet找到的模型比目前顶级人工设计模型MobileNetV21.5 倍,比 NASNet2.4倍,同时还保持同样的ImageNet首位准确率。

以往的网络架构搜寻方法中,模型的执行速度通常借助另一种指标参考(比如考虑装置的每秒运算数目),而Google Brain此次透过在给定的装置上执行模型,直接测量模型的执行时间长短;研究使用的就是自家Pixel手机,可直接测量模型在真实环境执行时的具体表现,尤其不同型号的行动装置有不同的软硬件属性,仅凭运算速度这项指标无法概括全部情况;为了达到准确率和执行速度之间的最佳平衡,所需的模型架构也有不同。

Google Brain方法的总体流程主要由 3 个部分组成:一个基于RNN的控制器用于学习模型架构并取样,一个训练器用于构建模型并训练模型得到准确率,还有一个推理引擎,会在真实手机上透过TensorFlowLite执行模型、测量模型的执行速度。他们把工作公式化为一个多目标最佳化问题,最佳化过程中得以兼顾高准确率和高执行速度;使用的强化学习演算法有个自订回馈函数,可在不断探索时找到帕累托最优的解决方案(如不断提升模型准确率,同时不让执行速度降低)。

Google Brain 用强化学习为行动装置量身订做最好最快的 CNN 模型 AI与大数据 图2张

▲为行动装置自动搜寻神经网络架构的总体流程图。

对网络架构搜寻过程,为了在搜寻弹性和空间大小之间取得平衡,Google Brain研究人员提出一种新的因子分解层级化搜寻空间,设计是把一整个卷积网络分解为一系列按顺序连线的模组,然后用一个层级化搜寻空间决定每个模组的层架构,这样设计的搜寻流程可允许不同层使用不同作业和连线方式。同时也强制要求同个模组的所有层都共用同种架构,相比普通的每层独立搜寻架构,这样就把搜寻空间显着减小数个等级。

Google Brain 用强化学习为行动装置量身订做最好最快的 CNN 模型 AI与大数据 图3张

▲从新因子分解层级化搜寻空间取样得到的MnasNet网络,整个网络架构可有多种不同层。

Google Brain研究人员在ImageNet影像分类和COCO物体侦测工作测试这种方法的效果。实验中,这种方法找到的网络在典型行动装置计算速度限制下达到准确率新高纪录。下图展示了ImageNet的结果。

Google Brain 用强化学习为行动装置量身订做最好最快的 CNN 模型 AI与大数据 图4张

▲ImageNet的首位准确率与推理延迟对比。论文新方法找到的模型记号为MnasNet。

ImageNet,如果要达到同样准确率,MnasNet模型可比目前顶级人工设计的模型MobileNetV21.5 倍,比 NASNet2.4倍,其中NASNet也是用网络架构搜寻找到的。采用“压缩─激励”(squeeze-and-excitation)最佳化后,Google 新的MnasNet +SE模型首位准确率可达76.1%,这已达ResNet-50水准,但却比 ResNet-50的参数少了 19倍,乘─加的计算运算目也减少了 10倍。在COCOGoogle 的模型系列可同时在准确率和执行速度领先MobileNet,准确率与SSD300模型相当,但所需计算量少了 35倍。

Google Brain研究人员很高兴看到自动搜寻得到的模型可在多个复杂的行动电脑视觉工作取得顶级成绩。未来他们计划在搜寻空间整合更多作业和最佳化方法供用户选择,也尝试应用到语义分割等更多行动电脑视觉工作。

  • MnasNet: Platform-Aware Neural Architecture Search for Mobile
  • MnasNet: Towards Automating the Design of Mobile Machine Learning Models

(本文由 雷锋网 授权转载;首图来源:Google AI

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。