DeepMind 给最厉害的 AI 测了 IQ,结果让人轻松不少
▼
生活在 AI“氾滥”的时代,我们几乎每天都能看到 AI 研究的最新进展。昨天,AI 打 DoTA 战胜人类了;今天,AI 能自己找路了;明天,AI 能假冒人类打电话了。担心 AI 会灭掉人类的人眼中,AI 像一只怪物正野蛮生长,也像一支侵略军从远方大步逼近。
实际上你看到的进展,只是不同 AI 在特定方向的进步。虽然当前基于深度学习的 AI 热潮已有 5、6 年了,还是没有一个独立的 AI,像一个独立的人,优秀地执行多种任务。
人们形容 AI 时,通常会用这种说法:这个 AI 的智商跟 3 岁小孩差不多。智商(Intelligence quotient)简称 IQ,是评价人类智商的普遍标准。你有智商,我也有智商,就连 3 岁小孩也有智商。接下来问题来了:既然说 AI 跟 3 岁小孩差不多,那么它的智商到底有多少?
得帮 AI 测测智商了。
DeepMind 要帮 AI 测 IQ
自 AlphaGo 横空出世,AI 解决复杂、策略性的问题上,能力已得到证明。但如果想要更像“人”,AI 必须也拥有像人类的抽象理解能力。
现在 AI 的计算能力不用说了,推理能力也很强,所以只剩抽象理解能力了。Google 旗下的 AI 机构 DeepMind 认为,“基于神经网络的机器学习模型取得惊人的成绩,但要衡量推理抽象概念的能力,却非常困难。”
为了搞清楚现在的 AI 抽象理解能力究竟如何,DeepMind 还真的设计了一套测试题给 AI:
(Source:DeepMind)
这套测试题,借鉴人类的 IQ 测试着名的瑞文推理测验:给一组图片,找到符合“演进”规律的图片。
(Source:DeepMind)
这种测试中,题目并不会告诉你要找到符合什么标准的图形,而是根据日常生活学习或掌握到的基本原则,来理解和分析测试出现的简单图案。
要找到正确的答案,往往要借鉴生活中明白的“演进”规律。比如小树苗长成大树,比如从 0 到 1、2、3、4、5 的加法,再比如加减乘除。以上这些,就是我们生活提炼出的抽象“演进”(progression)意义,就是人类的抽象理解能力。
“但是,我们现在还没有找到办法,让 AI 也可以从‘日常经验’学到类似的能力。”DeepMind 论文说。
不过,我们依然可以利用人类的视觉抽象逻辑测试,来设计一个实验。在这个测试,我们并不像人类测试,考察从日常生活到视觉推理问题的知识转移。而是研究 AI 将知识从一组受控的视觉推理问题,转移到另一组问题的能力。
简单翻译一下这段话就是:DeepMind 先给 AI 一组由三角形构成的图像视觉推理题库,等训练差不多了,再出一组由方块构成的视觉推理题,让 AI 去回答,看它是能随机应变举一反三,还是学会三角,换成方块就不灵了。
机器人仍需努力
对于担心 AI 取代人类的朋友来说,DeepMind 的一部分实验结果确实是好消息:一些最棒的 AI 模型,在这个 IQ 测试的表现并不怎样。
正如预期,当训练集和测试集采用的抽象元素相同,多个 AI 模型都表现出超过 75% 准确率。
然而,当测试集和训练集有变化,甚至有时只是把黑点换成较暗的浅色圆点,AI 就像无头苍蝇,失去了准星。
▲ 一些知名 AI 模型的表现。(Source:DeepMind)
上面这些都是深度神经网络领域的当红炸子鸡,测起智商却没那么灵光了。
ResNet(Deep Residual Network),即深度残差网络在其中一组测试仅得到 22.4% 的低分,它的提出曾被形容为 CNN(卷积神经网络)的里程碑式事件,它在网络深度比其他模型提升了 n 个量级,更重要的是它的残差学习方式,改良了模型架构,因此一出现就秒杀众前辈。
表现最好的 WReN 模型,则是 DeepMind 在关系网络(Relation Networks)模型基础上改良的版本。它增加了分析不同图像组合之间的关系,并可评估这类 IQ 测试的各种可能性结果。
不过,DeepMind 针对这个测试的逻辑,改良一些模型,改良后的模型表现明显有提升。
比如,在一些模型中,DeepMind 加入了标记(meta-targets)辅助训练法,让模型预测数据集背后体现出的形状、属性(形状的数量、大小、颜色深浅等)及关系(同时出现、递减、递增等),当这部分预测准确,最终回答的准确率就明显提升;预测错误时,回答准确率明显下降。一些极端情况下,模型回答的准确率更从预测错误时的 32% 提升至 87%。
▲ 标记预测准确度与最终答案准确率的关系图。
DeepMind 表示,他们设计的实验,最终目的并不是让 AI 通过这种 IQ 测试,他们关注的是 AI 泛化能力。
泛化是指模型拟合以前未见过的新数据的能力,这是机器学习界的术语,你也可以粗暴理解成一个 AI 模型能否“通吃”各类场景。AI 的泛化能力越强,离什么都能做的所谓“通用人工智慧”就越近。
DeepMind 部落格最后这样说:
研究表明,寻找关于泛化问题的普遍结论可能没有任何意义。我们测试的神经网络在某些泛化方案表现优秀,但是在其他方案却很糟糕。
诸如使用模型的架构、模型是否被训练进而解释答案背后的逻辑等一系列因素,都会对泛化效果带来影响。而在大多数情况下,当需要处理过往经验从未涉及、完全陌生的情景时,这些 AI 的表现很糟糕。
至少现在看来,AI 还有很长的路要走啊。
(本文由 PingWest 授权转载;首图来源:DeepMind)
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。