Google 和加州大学柏克莱分校的新式 Actor-Critic 演算法，快速在真实世界训练机器人

AI与大数据 23小时前 0

▼

相比传统方式需要工程人员手动设计机器人每个动作的精确参数，AI 时代的研究人员有全自动化、广阔前景的新学习方式：深度强化学习可让机器人从经验、与世界的互动直接学习行为，因为可借助通用化的神经网络表示，处理复杂的感测器输入。然而，许多现有的强化学习演算法都需要几天、几周甚至更久时间的真实世界数据，才能收敛到比较理想的动作。更重要的是，这样的系统很难在复杂的机器人系统使用（比如多足机器人）。系统的探索学习过程很容易会损伤到机器人的零件，同时还难以调节超参数，许多安全方面的考量也可能带来更多限制。

近期，GoogleAI 与加州大学柏克莱分校合作研发一种新的强化学习演算法 Soft Actor-Critic（SAC）。这是一种稳定、高效的深度强化学习演算法，高度符合机器人实验的需求，也非常适合真实世界的机器人技能学习。重点是，SAC 的学习效率够高，可在数小时内学会解决真实世界的机器人问题，且同一套超参数可在多种不同环境工作。

Google AI 撰写部落格文章介绍了 SAC 背后的研究工作，也介绍了相关实验结果。

在真实世界学习机器人的要求

真实世界的机器人实验有一些重大挑战，比如硬件失效和人工重置会导致数据流中断，以及需要让探索学习过程平滑，避免快速机械磨损或撞击破坏，这都对演算法理论和演算法实现增加额外的限制，包括以下（但不限于）：

有较高的样本效率，以降低学习时间。
需要调节的超参数数量尽量少。
能在不同的场景重复使用已采集的数据（也称为“无策略学习”）。
确保探索学习过程不损坏硬件。

Soft Actor-Critic

Soft Actor-Critic 是基于最大熵强化学习开发的，这是一种尝试让预期回报最大化（标准的强化学习目标），同时也让策略的熵最大化的框架。熵更高的策略有更高随机性，直觉看来，这意味着最大熵强化学习会学习取得高回报的策略中，具最高随机性的策略。

为什么在机器人学习这是件好事呢？明显的原因是，最大熵优化的策略会更强健：如果策略在训练过程中能允许高度随机的动作，那么它在测试时候也就更有可能顺利应付预期外的扰动。不过更稳当的理由是，最大熵训练不仅提高演算法对超参数的强健性，也可以提高采样效率。

Soft Actor-Critic 会学习一个随机策略，这个策略会把状态映射到动作及一个 Q 函数，Q 函数会估计当前策略的目标价值，并透过逼近动态编程最佳化它们。透过这样的方式，Soft Actor-Critic 可让经过熵强化的回报最大化。在这个过程中，SAC 会把目标看作一个绝对真的方法来导出更好的强化学习演算法，它们的表现稳定，而且有够高的样本效率，可以用在真实世界的机器人应用中。

SAC 的表现

研究人员用两个任务评估演算法的表现：1. Ghost Robotics 环境中 Minitaur 四足机器人的行走；2. 用一个三指动力爪转动阀门。学习行走这件事当然是不小的挑战，由于机器人欠驱动力，所以机器人需要学会如何在四条腿之间平衡接触力的大小，这样才能持续往前走。未经训练的策略会让机器人失去平衡摔倒，如果摔太多次，最终有可能把机器人摔坏。样本高效学习在这时候也就非常关键。

虽然研究人员是在平地训练机器人的行走策略，但稍后的测试阶段是在多种不同的地面状况和障碍物上进行。理论来说，透过 SAC 学习到的策略在测试时遇到扰动的时候，也应当强健。实际上研究人员观察到，透过他们的方法学习到的策略，不需要任何额外学习就可应付干扰。

▲训练。

▲测试 1。

Google 和加州大学柏克莱分校的新式 Actor-Critic 演算法，快速在真实世界训练机器人 AI与大数据图4张

▲测试 2。

Google 和加州大学柏克莱分校的新式 Actor-Critic 演算法，快速在真实世界训练机器人 AI与大数据图5张

▲ 测试 3。

下面这个操控任务需要机器手臂转动一个类似阀门的物体，目标是让蓝色的一面朝向右侧。这个任务尤其有挑战性，不仅任务的理解感知有难度，而且还需要控制这个有 9 个自由度的机器手臂。为了感知阀门，机器人必须使用来自镜头的原始 RGB 图像输入（如图右下角）。对于每一轮尝试，阀门的位置都会重新设定到一个随机角度，迫使策略学习如何根据 RGB 图像，输入感知当前的阀门角度。

Google 和加州大学柏克莱分校的新式 Actor-Critic 演算法，快速在真实世界训练机器人 AI与大数据图6张

对于这两个任务，SAC 都能很快地解决：前一个四足机器人任务学了 2 个小时，后一个观察图像、转动阀门的任务学习了 20 个小时。研究人员也为转动阀门任务学习了一个无需图像输入的策略，他们把其他方式采集到的阀门角度当作观察结果输入策略，在这种简单的设置下，SAC 只需要 3 个小时就可以学会解决这个任务。相比之下，更早使用自然策略梯度的研究，学习同一个无需图像输入的任务需花 7.4 个小时。

结论

这项研究展示基于熵最大化框架的深度强化学习，可用来在有挑战性的真实世界环境学习机器人技能。由于这些策略是直接在真实世界学到的，它们对环境变化表现出强健性，这透过其他方式很难获得。研究人员也展示了可直接从高维图像观察学习，这对经典机器人控制来说，也是很大的挑战。研究人员希望 SAC 的发表帮助其他研究团队，更把深度强化学习应用在未来更多复杂真实世界的任务。

（本文由雷锋网授权转载；首图来源：shutterstock）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

AI Google 世界机器人

在真实世界学习机器人的要求

Soft Actor-Critic

SAC 的表现

结论

相关文章