DeepMind 新研究：人类最后净土要失守了？

AI与大数据 51分钟前 0

▼

AI 的学习能力，目前为止仍停在语言层面。

喂给大模型的语言资料，最初是维基百科和Reddit，后来扩展到影音甚至雷达和热图像，后者广义来说也是换个表达方式的语言，因此有生成式AI新创认为，极聪明的大语言模型就是通往AGI的最终答案，现在这么多研究途径只是人类还没找到正确路的摸索。

我们对未知事物的想像以此为限（如果硅基生命也算）。谈到外星生命，冲进脑子的第一个想法是外星语言，《三体》三体人第一次亮相也是与语言相关，因人类文明系统就是这么运作，推己及人，语言也是其他文明的操作系统，故《人类简史》作者尤瓦尔赫拉利5月表达对生成式AI的担忧，若AI完全掌握人类语言，就有能力骇入人类文明系统。

但AI对人类语言资源的了解，也是人类对AI威胁性的想像极限。换句话说，无法由语言表达和记录的东西，AI也学不会。世界处处是秀才遇到兵，从周围环境获得生活经验的本事，是人类面对AI威胁时最后的净土。

直到DeepMind带着新论文登场，最后净土也要守不住了。

DeepMind高阶工程师、平时还要管理非洲AI技术社群的Avishkar Bhoopchand，和流转于各种游戏公司五年然后进入DeepMind的Bethanie Brownfield，领导18人团队，最近于《自然》发表研究成果。

简单说，他们在3D模拟环境用神经网络结合强化学习训练出智慧体，智慧体从未接触任何人类资料，完全从零开始学习，过程就像人类。此实验AI和Culture（文化）概念连结似乎是第一次，因广义的人类智力可理解为有效获取新知识、技能和行为的能力，也就是如何适当情境下行动以达成目标的能力。如：

如何用公式和辅助线解开几何题。
如何把IG看到的食谱变成晚饭。
如何开能赚钱的公司。

都是智力的体现。论文举例更简单：如何旅行时不跟丢导游，或向同事说明影印机怎么用。人类很多技能都不是一步一脚印学来的，反而特别依赖从其他人身上直接复制知识的能力，统称为文化，从个体传递知识到另一个体的过程就称为文化传播（cultural transmission）。

文化传播是种社会行为，靠整个群体即时彼此学习和使用资讯，让技能、工具和知识积累提炼，最终形成文明，个体甚至世代间高度稳定传递知识，没有书或影片能讲清楚说明白。当AI研究者担心大模型资料库五年后会枯竭，这首先建立于AI有巨大能力盲区基础上，也就是直接从环境抽象化发散资讯的能力。

DeepMind智慧体训练引入GoalCycle3D，是Unity引擎构建的3D物理模拟任务空间，看下图可知，里面有崎岖地形和各种障碍物，障碍物和复杂地形间又有各种颜色球体，若照特定顺序经过目标球体会获得积极奖励。

DeepMind设置了上帝视角：知道如何行动能拿到奖励的红智慧体，蓝智慧体是毫无游戏经验的被训练方，拿到高分的行为即视为文化。完全没有游戏背景的智慧体文化传播（CT）值为0，完全依赖专家的智慧体CT值为0.75。红智慧体在场时完美跟随，红智慧体离开后仍能获高分的智慧体CT值为1。

实验结果为随机生成的虚构世界，蓝智慧体靠强化学习“得高分”文化，会经历四个阶段。

第一阶段，蓝智慧体开始熟悉任务，学习表示、运动和探索，但得分没有改善。

第二阶段，蓝智慧体有足够经验和失败，学会第一个技能：跟着红智慧体。CT值达0.75，显示纯粹是模仿。

第三阶段，蓝智慧体记住红智慧体在场时的有奖励循环，并于红智慧体不在场时继续解决任务。

第四阶段，蓝智慧体能独立以自己路线取得高分，这代表训练文化传播度量回到0──蓝智慧体不必跟在红智慧体屁股后面了──但得分还在增加。蓝智慧体显示出“实验”行为，甚至开始使用假设检验以推断出正确循环，故蓝智慧体超越红智慧体，得到更多奖励。

以模仿开始，然后深度强化学习继续最佳化甚至找到超越前者的实验，显示AI智慧体能观察别的智慧体学习并模仿。这从零样本开始，即时取得利用资讯的能力，非常接近人类积累和提炼知识的方式。

此研究可视为迈向人工通用智慧（AGI）的一大步，如此重要的发现，DeepMind又是从玩游戏开始的。DeepMind曾用另一种游戏以零样本完成训练，不过是超越自己，那个游戏就是围棋。2016年3月12日李世乭投子认输，代表人类完败，而AlphaGO只是几个月内以16万局棋谱训练完毕，却不能真正坐在棋盘对面下子的程式码。

然后AlphaGO被打败了。

打败AlphaGO的是AlphaGO Zero，没有看过任何棋谱，仅从围棋基本规则开始学起的AI。击败李世乭的AlphaGO之后称为AlphaGOLee，AlphaGOZero以100:0战绩完全击败AlphaGO Lee，而前者仅训练三天。AlphaGO Zero就如蓝智慧体在GoalCycle3D的模式，没有无监督学习，没有用到任何人类经验，却能追上甚至超越前辈。

2016年以实习生进入DeepMind的Richard Everett也是团队18人之一。玩游戏时人类和看似智慧的电脑互动让他着迷，使他进入人工智慧领域，这次“AI学习文化传播”正是他最喜欢的计划。

“在世界最大的糖果店当个小孩”，Richard Everett这样描述DeepMind的工作。这篇论文要归功于艺术家、设计师、伦理学家、专案经理、QA测试员及科学家、软件工程师、研究工程师超过两年密切合作。

AlphaGO Zero的成功让DeepMind在AGI这条路上坚持深度强化学习，才有这次GoalCycle3D出现。而AGI大型游戏实验仍在继续，Google DeepMind的官方X最新发文是：

欢迎Gemini。

（本文由品玩授权转载；首图来源：Google DeepMind）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

AGI AI DeepMind 大模型大语言模型

相关文章