下个版本的 AlphaGo，会不会已经能认路了

AI与大数据 2小时前 0

▼

2014 年上映的电影《云端情人》（Her）中，男主角西奥多带着搭载 AI 操作系统“莎曼珊”的手机，走在拥挤的游乐场里。他突然心血来潮，决定闭上眼睛，让莎曼珊指挥他的路线。西奥多伸直手举着手机，莎曼珊完美的指引他避开迎面而来的人群，绕过广场的柱子，抵达他的目的地──一家披萨店。

电影里这个场景很温馨，单独拿出来看，这画面很诡异。但无论如何，这样的功能离我们越来越近。

想做到 AI 即时指路，背后需有两个关键技术。首先，AI 要能用最高效的方式辨识周围空间；其次，它还要像人一样，基于视线所及的图像来“脑补”整个空间格局。

最近，AI 在这两个能力上取得重大进展，带头的又是 Google 旗下的 AI 明星公司 DeepMind。

周四出版的《科学》（Science）杂志，DeepMind 发表了一篇论文，向世界介绍名叫 GQN 的新 AI 系统。

GQN 的全称为“Generative Query Network”，直译为“生成式查询网络”，改进了现有的机器视觉研究方式：目前的机器视觉在训练时，还是依赖“吃进”人为标记好标签的图像数据来训练，大部分属于监督式学习，而 GQN 的方法则是让机器自我训练，属于无监督机器学习。

这是一种更接近人类行为模式的系统：当我们走进一个空间时，可根据双眼看到的简单画面，快速对所处空间有整体的认知。比如，眼睛看到的可能只是衣柜正面，但在我们的脑中，衣柜的全貌、在房间所处的位置、阳光下的阴影样子，其实都已同步生成并存于脑海。

这对人类来说很简单，但没人能说清人类大脑如何处理这些资讯。当 AI 尝试复刻人类大脑流程时，若依然采取输入规则、监督式的学习方式，显然十分困难。GQN 选择神经网络的方法，决定让机器自己学习，就像它们在围棋、翻译等领域做的那样。

具体来看，GQN 由两个模型构成，一个叫做表征网络（representation network），另一个叫做生成网络（generation network）。前者其实可视为模仿人类的眼睛，后者则尝试复制人类大脑处理空间资讯的方式。

表征网络透过图像感测器观察世界，把空间中看到的二维图像，以数据形式输入系统，之后生成网络会基于这些数据学习，然后尝试预测某陌生视角下这空间的样子，渲染后以三维形式呈现。

简单说就是，表征网络看见一张桌子的正面，包括它的构造、颜色、高低等，然后生成网络要据此“猜出”桌子侧面、底面等其他角度的样子，就像人类无时无刻做的那样。

由于采用无监督学习模式，表征网络在“看”东西时并不知道生成网络最后需要从哪个视角预测，为了更帮助后者完成任务，它需要在不断的训练中，提升观察和记录能力，最终保证提供的输入最高效。

过程中它慢慢积累经验，对整个空间各物体之间的透视规律、阳光阴影关系等都有认知（事先并没有任何人为干预告诉机器什么是“颜色”、“位置”、“大小”等这些概念，全靠机器自己“开悟”），并最终用一种电脑能理解、最浓缩最高效的数据形式完成输入。

而生成网络在一次次训练中，将这些输入数据再次转换成图像。且这图像不再是二维，需要转成立体的空间画面，物体的尺寸、定位、光影关系、透视关系都要准确呈现。过程中生成网络逐渐学习成了有渲染能力的图像神经网络。

经过一段时间自主学习后，DeepMind 测试 GQN 在虚拟环境的成果，结果惊人。

下图是第一种测试，在一类似小广场的简单虚拟三维空间，GQN 的表征网络从一个视角输入一组二维图像，而生成网络达成了清晰精确的三维“还原”──包括二维图片以外的空间。

接下来，DeepMind 又做了第二种测试，有点类似念书时都做过的空间感觉测试。表征网络对一多个立方体组成的“积木”观察输入，而生成网络需要回答这个物体由几个立方体组成。GQN 也完成了测试。

第三种测试，DeepMind 把 GQN 从开放的小广场赶到一个更复杂的“迷宫”，在这里，视野受到限制，但 GQN 可以来回走动，找到它认为最好的视角观测，进而帮助生成网络还原整个空间。

可以看到，GQN 就像玩拼图，随着表征网络观察角度增多，逐渐完美“脑补”出整个空间的全貌。

这已经和人类非常接近，近到有点吓人。

DeepMind 联合创始人、CEO 杰米斯‧哈萨比斯（Demis Hassabis）说：“GQN 已可从任何角度想像和呈现场景。”

其实，如果拉长时间来看，这次 GQN 的突破，其实是最近 DeepMind 在 AI 辨识空间方面的一系列尝试中一环。

就在 5 月，DeepMind 曾在《自然》发文，表示他们在 AI 做到类似哺乳动物“抄近路”的导航行为。

DeepMind在 AI 以电脑科学的方式复刻了类似人类大脑认路功能的最神秘“网格细胞”。研究指出，网格细胞（grid cell）在大脑里提供人类一种感知向量空间的框架，让人们可为自己导航。这个可能是人类上千年进化出来的细胞，被 AI 轻松复刻。

今年 4 月，DeepMind 还在 ArXiv 发表论文，宣布他们使用深度学习和神经网络代替地图指引，让 AI 仅依靠街景图就了解整个城市的格局，然后找到通往目的地的路。

DeepMind 这些研究 AI 在空间和视觉方面的技能，最终很可能集合成类似 AlphaGo 的整合体，到时应用场景肯定不只是走迷宫这么简单。

DeepMind 就像制造机器人的拼图师傅，一点点拼着理想中的“超级人工智慧”，然后等着人工智慧在智慧上超过人类的奇点时刻到来。

准备好向人工智慧投降吧，人类。

（本文由 PingWest 授权转载；首图来源：DeepMind）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。