DeepMind 新研究:人类最后净土要失守了?

DeepMind 新研究:人类最后净土要失守了?

AI 的学习能力,目前为止仍停在语言层面。

喂给大模型的语言资料,最初是维基百科和Reddit,后来扩展到影音甚至雷达和热图像,后者广义来说也是换个表达方式的语言,因此有生成式AI新创认为,极聪明的大语言模型就是通往AGI的最终答案,现在这么多研究途径只是人类还没找到正确路的摸索。

我们对未知事物的想像以此为限(如果硅基生命也算)。谈到外星生命,冲进脑子的第一个想法是外星语言,《三体》三体人第一次亮相也是与语言相关,因人类文明系统就是这么运作,推己及人,语言也是其他文明的操作系统,故《人类简史》作者尤瓦尔赫拉利5月表达对生成式AI的担忧,若AI完全掌握人类语言,就有能力骇入人类文明系统。

但AI对人类语言资源的了解,也是人类对AI威胁性的想像极限。换句话说,无法由语言表达和记录的东西,AI也学不会。世界处处是秀才遇到兵,从周围环境获得生活经验的本事,是人类面对AI威胁时最后的净土。

直到DeepMind带着新论文登场,最后净土也要守不住了。

DeepMind高阶工程师、平时还要管理非洲AI技术社群的Avishkar Bhoopchand,和流转于各种游戏公司五年然后进入DeepMind的Bethanie Brownfield,领导18人团队,最近于《自然》发表研究成果。

简单说,他们在3D模拟环境用神经网络结合强化学习训练出智慧体,智慧体从未接触任何人类资料,完全从零开始学习,过程就像人类。此实验AI和Culture(文化)概念连结似乎是第一次,因广义的人类智力可理解为有效获取新知识、技能和行为的能力,也就是如何适当情境下行动以达成目标的能力。如:

  • 如何用公式和辅助线解开几何题。
  • 如何把IG看到的食谱变成晚饭。
  • 如何开能赚钱的公司。

都是智力的体现。论文举例更简单:如何旅行时不跟丢导游,或向同事说明影印机怎么用。人类很多技能都不是一步一脚印学来的,反而特别依赖从其他人身上直接复制知识的能力,统称为文化,从个体传递知识到另一个体的过程就称为文化传播(cultural transmission)。

文化传播是种社会行为,靠整个群体即时彼此学习和使用资讯,让技能、工具和知识积累提炼,最终形成文明,个体甚至世代间高度稳定传递知识,没有书或影片能讲清楚说明白。当AI研究者担心大模型资料库五年后会枯竭,这首先建立于AI有巨大能力盲区基础上,也就是直接从环境抽象化发散资讯的能力。

DeepMind智慧体训练引入GoalCycle3D,是Unity引擎构建的3D物理模拟任务空间,看下图可知,里面有崎岖地形和各种障碍物,障碍物和复杂地形间又有各种颜色球体,若照特定顺序经过目标球体会获得积极奖励。

DeepMind 新研究:人类最后净土要失守了? AI与大数据 图2张

DeepMind设置了上帝视角:知道如何行动能拿到奖励的红智慧体,蓝智慧体是毫无游戏经验的被训练方,拿到高分的行为即视为文化。完全没有游戏背景的智慧体文化传播(CT)值为0,完全依赖专家的智慧体CT值为0.75。红智慧体在场时完美跟随,红智慧体离开后仍能获高分的智慧体CT值为1。

实验结果为随机生成的虚构世界,蓝智慧体靠强化学习“得高分”文化,会经历四个阶段。

第一阶段,蓝智慧体开始熟悉任务,学习表示、运动和探索,但得分没有改善。

第二阶段,蓝智慧体有足够经验和失败,学会第一个技能:跟着红智慧体。CT值达0.75,显示纯粹是模仿。

第三阶段,蓝智慧体记住红智慧体在场时的有奖励循环,并于红智慧体不在场时继续解决任务。

第四阶段,蓝智慧体能独立以自己路线取得高分,这代表训练文化传播度量回到0──蓝智慧体不必跟在红智慧体屁股后面了──但得分还在增加。蓝智慧体显示出“实验”行为,甚至开始使用假设检验以推断出正确循环,故蓝智慧体超越红智慧体,得到更多奖励。

DeepMind 新研究:人类最后净土要失守了? AI与大数据 图3张

以模仿开始,然后深度强化学习继续最佳化甚至找到超越前者的实验,显示AI智慧体能观察别的智慧体学习并模仿。这从零样本开始,即时取得利用资讯的能力,非常接近人类积累和提炼知识的方式。

此研究可视为迈向人工通用智慧(AGI)的一大步,如此重要的发现,DeepMind又是从玩游戏开始的。DeepMind曾用另一种游戏以零样本完成训练,不过是超越自己,那个游戏就是围棋。2016年3月12日李世乭投子认输,代表人类完败,而AlphaGO只是几个月内以16万局棋谱训练完毕,却不能真正坐在棋盘对面下子的程式码。

然后AlphaGO被打败了。

打败AlphaGO的是AlphaGO Zero,没有看过任何棋谱,仅从围棋基本规则开始学起的AI。击败李世乭的AlphaGO之后称为AlphaGOLee,AlphaGOZero以100:0战绩完全击败AlphaGO Lee,而前者仅训练三天。AlphaGO Zero就如蓝智慧体在GoalCycle3D的模式,没有无监督学习,没有用到任何人类经验,却能追上甚至超越前辈。

2016年以实习生进入DeepMind的Richard Everett也是团队18人之一。玩游戏时人类和看似智慧的电脑互动让他着迷,使他进入人工智慧领域,这次“AI学习文化传播”正是他最喜欢的计划。

“在世界最大的糖果店当个小孩”,Richard Everett这样描述DeepMind的工作。这篇论文要归功于艺术家、设计师、伦理学家、专案经理、QA测试员及科学家、软件工程师、研究工程师超过两年密切合作。

AlphaGO Zero的成功让DeepMind在AGI这条路上坚持深度强化学习,才有这次GoalCycle3D出现。而AGI大型游戏实验仍在继续,Google DeepMind的官方X最新发文是:

欢迎Gemini。

(本文由 品玩 授权转载;首图来源:Google DeepMind)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。