下个版本的 AlphaGo,会不会已经能认路了
▼
2014 年上映的电影《云端情人》(Her)中,男主角西奥多带着搭载 AI 操作系统“莎曼珊”的手机,走在拥挤的游乐场里。他突然心血来潮,决定闭上眼睛,让莎曼珊指挥他的路线。西奥多伸直手举着手机,莎曼珊完美的指引他避开迎面而来的人群,绕过广场的柱子,抵达他的目的地──一家披萨店。
电影里这个场景很温馨,单独拿出来看,这画面很诡异。但无论如何,这样的功能离我们越来越近。
想做到 AI 即时指路,背后需有两个关键技术。首先,AI 要能用最高效的方式辨识周围空间;其次,它还要像人一样,基于视线所及的图像来“脑补”整个空间格局。
最近,AI 在这两个能力上取得重大进展,带头的又是 Google 旗下的 AI 明星公司 DeepMind。
周四出版的《科学》(Science)杂志,DeepMind 发表了一篇论文,向世界介绍名叫 GQN 的新 AI 系统。
GQN 的全称为“Generative Query Network”,直译为“生成式查询网络”,改进了现有的机器视觉研究方式:目前的机器视觉在训练时,还是依赖“吃进”人为标记好标签的图像数据来训练,大部分属于监督式学习,而 GQN 的方法则是让机器自我训练,属于无监督机器学习。
这是一种更接近人类行为模式的系统:当我们走进一个空间时,可根据双眼看到的简单画面,快速对所处空间有整体的认知。比如,眼睛看到的可能只是衣柜正面,但在我们的脑中,衣柜的全貌、在房间所处的位置、阳光下的阴影样子,其实都已同步生成并存于脑海。
这对人类来说很简单,但没人能说清人类大脑如何处理这些资讯。当 AI 尝试复刻人类大脑流程时,若依然采取输入规则、监督式的学习方式,显然十分困难。GQN 选择神经网络的方法,决定让机器自己学习,就像它们在围棋、翻译等领域做的那样。
具体来看,GQN 由两个模型构成,一个叫做表征网络(representation network),另一个叫做生成网络(generation network)。前者其实可视为模仿人类的眼睛,后者则尝试复制人类大脑处理空间资讯的方式。
表征网络透过图像感测器观察世界,把空间中看到的二维图像,以数据形式输入系统,之后生成网络会基于这些数据学习,然后尝试预测某陌生视角下这空间的样子,渲染后以三维形式呈现。
简单说就是,表征网络看见一张桌子的正面,包括它的构造、颜色、高低等,然后生成网络要据此“猜出”桌子侧面、底面等其他角度的样子,就像人类无时无刻做的那样。
由于采用无监督学习模式,表征网络在“看”东西时并不知道生成网络最后需要从哪个视角预测,为了更帮助后者完成任务,它需要在不断的训练中,提升观察和记录能力,最终保证提供的输入最高效。
过程中它慢慢积累经验,对整个空间各物体之间的透视规律、阳光阴影关系等都有认知(事先并没有任何人为干预告诉机器什么是“颜色”、“位置”、“大小”等这些概念,全靠机器自己“开悟”),并最终用一种电脑能理解、最浓缩最高效的数据形式完成输入。
而生成网络在一次次训练中,将这些输入数据再次转换成图像。且这图像不再是二维,需要转成立体的空间画面,物体的尺寸、定位、光影关系、透视关系都要准确呈现。过程中生成网络逐渐学习成了有渲染能力的图像神经网络。
经过一段时间自主学习后,DeepMind 测试 GQN 在虚拟环境的成果,结果惊人。
下图是第一种测试,在一类似小广场的简单虚拟三维空间,GQN 的表征网络从一个视角输入一组二维图像,而生成网络达成了清晰精确的三维“还原”──包括二维图片以外的空间。
接下来,DeepMind 又做了第二种测试,有点类似念书时都做过的空间感觉测试。表征网络对一多个立方体组成的“积木”观察输入,而生成网络需要回答这个物体由几个立方体组成。GQN 也完成了测试。
第三种测试,DeepMind 把 GQN 从开放的小广场赶到一个更复杂的“迷宫”,在这里,视野受到限制,但 GQN 可以来回走动,找到它认为最好的视角观测,进而帮助生成网络还原整个空间。
可以看到,GQN 就像玩拼图,随着表征网络观察角度增多,逐渐完美“脑补”出整个空间的全貌。
这已经和人类非常接近,近到有点吓人。
DeepMind 联合创始人、CEO 杰米斯‧哈萨比斯(Demis Hassabis)说:“GQN 已可从任何角度想像和呈现场景。”
其实,如果拉长时间来看,这次 GQN 的突破,其实是最近 DeepMind 在 AI 辨识空间方面的一系列尝试中一环。
就在 5 月,DeepMind 曾在《自然》发文,表示他们在 AI 做到类似哺乳动物“抄近路”的导航行为。
DeepMind在 AI 以电脑科学的方式复刻了类似人类大脑认路功能的最神秘“网格细胞”。研究指出,网格细胞(grid cell)在大脑里提供人类一种感知向量空间的框架,让人们可为自己导航。这个可能是人类上千年进化出来的细胞,被 AI 轻松复刻。
今年 4 月,DeepMind 还在 ArXiv 发表论文,宣布他们使用深度学习和神经网络代替地图指引,让 AI 仅依靠街景图就了解整个城市的格局,然后找到通往目的地的路。
DeepMind 这些研究 AI 在空间和视觉方面的技能,最终很可能集合成类似 AlphaGo 的整合体,到时应用场景肯定不只是走迷宫这么简单。
DeepMind 就像制造机器人的拼图师傅,一点点拼着理想中的“超级人工智慧”,然后等着人工智慧在智慧上超过人类的奇点时刻到来。
准备好向人工智慧投降吧,人类。
(本文由 PingWest 授权转载;首图来源:DeepMind)
延伸阅读:
- DeepMind 让 AI 学会像动物一样导航,开启 AI 研究新目标:协助探索大脑功能
- DeepMind 新研究:让机器自学理解图像意义,不再依赖人为标签资料辨识
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。