秘密研发甚至威胁人类,只代号就引发全世界恐慌?OpenAI“Q*”到底是啥

秘密研发甚至威胁人类,只代号就引发全世界恐慌?OpenAI“Q*”到底是啥

先把 OpenAI 管理层大乱斗放到一边,聊聊最新传言:Q*。

OpenAI 11 月 22 日寄了员工信,证实有 Q* 计划,描述为“超越人类的自主系统”,着实让人害怕。虽然OpenAI还没放出任何Q*细节,但以我们微薄知识来看看这可能是什么。

第一步是Q*怎么读,正式名称念作Q-Star。你没看错,即便深度学习,区块间透过乘积求解,但Q*的“*”并不是指乘法,而是“星号”。“Q”字母在强化学习表示动作的期望奖励。

人工智慧领域凡跟大写Q沾上边,本质都是Q学习。Q学习以现在评判标准可算是强化学习的一种,指训练时记录历史奖励值,告诉智慧体下步怎么选才能与历史最高奖励值相同。但注意,历史最大奖励值并不代表模型最大奖励值,有可能是也很大可能不是,甚至可能完全无关。换句话说,Q学习和智慧体就像球队分析师和教练的关系,教练指导球队,分析师辅佐教练。

强化学习时智慧体输出决策是回馈到环境才能得到奖励,Q学习因只记录奖励值,因此不需要建模环境,等于“结果好,一切就好”。

不过看起来Q学习好像不如现在的AI,尤其大模型常用深度学习模型,动不动几十亿、几百亿参数,Q学习不仅对模型没什么帮助,反倒增加复杂性,降低稳健度。别急,其实这是因上述Q学习背后想法只是诞生于1989年的基本概念。

DeepMind 2013年改进Q学习,推出演算法叫深度Q学习,特点就是经历重播,从过去多结果采样,再使用Q学习,达到提高模型稳定性,降低模型因某次结果导致训练方向太发散。但实话实说,这概念没有成主流当然有原因,实际意义看,深度Q学习最大作用就是发展成DQN。DQN指深度Q网络,从深度Q学习诞生。DQN想法和Q学习一模一样,但求得Q学习最大奖励值时是用神经网络达成,这就fashion起来了。

DQN同时间只会产生一个节点,DQN会产生优先权伫列,再把剩下节点和动作元祖存到优先权伫列里。显而易见,一个节点肯定不够用,如果全程就一个节点那最后求解答案一定错得离谱。当节点和动作元祖从队列移出,就会根据动作应用到已产生的节点关联性产生新节点,以此类推。

稍微懂点人工智慧发展史的人会越看越眼熟,这不就是高配版佛洛伊德求边长?

现代电脑处理器核心原理就是佛洛伊德演算法,与历史最优值比对,求得两点间最短路径。记忆体作用就是将计算以优先权储存,每当处理器完成一次计算,记忆体再把下一条计算丢给处理器。

DQN没什么本质差别,这基本就是Q的意思,那*又指什么?许多业界人士分析,*很可能指A*演算法。这是一种启发式演算法,先不讲启发式演算法是什么,来讲个笑话:

A问B:“快速算出1928749189571*1982379176乘积”,B立刻回答:“32”,A很纳闷,这么大两数相乘,不可能答案是两位数,B反问A:“你就说快不快?”

看起来离谱,但启发式演算法同道理。

本质是估算,效率和正解间只能选择一个──不是讲究效率但有时出错,要不就讲究正确性但耗时很长。A*演算法先透过启发式演算法估算大概值,当然这值很可能极度偏离正解。估算完成后开始循环遍历,如果怎样都没办法解开就重新估值,直到开始出现解。如此反复,最终得出最佳解。

虽然得到最佳解,A*就是上文提到的第二种,答案对,耗时较长。放在实验室环境还好,这种演算法要是登上个人装置,有可能导致记忆体溢出,产生系统问题,例经典蓝色画面。

因此这限制使过往A*演算法往往用于较不复杂的模型,最典型就是网络游戏角色找路。大型游戏角色找路开始刹那要是卡顿,就是因A*演算法。

综合看,人工智慧圈共识是OpenAI提到的Q*演算法,大概是Q学习和A两者截长补短,即节省算力、节省记忆体并得到最佳解──因总不可能多花费算力又浪费记忆体,最后还得不到最佳解吧!

且就像OpenAI把基础模型这件事最终做成,同样早已存在,甚至一度遭冷落,直到OpenAI用创新方法重新挖掘潜力。现在我们有理由相信Q和A这早就存在的算法思路,OpenAI能故技重施再创造奇迹──当然这奇迹会危害人类的可能性也因最近OpenAI闹剧让更多人忧心忡忡。

回到演算法,Q*最有可能的样子是利用Q学习快速找到接近最佳解的估值,再利用A*演算法小范围求解,省去大量无意义计算,达到快速求得最佳解。但OpenAI会怎么做,还得等论文公开(如果等得到)。

Q*出现说明一个问题,人工智慧领头公司意识到人工智慧发展求解的过程比求解更有意义,因现在只追求答案的正确性不再能满足人们对人工智慧的需求,如OpenCompass即便平均分数差10或20分,如果从理解准确率看,最好和最差模型差距没有很大。

人们猜测和恐慌关于Q*的说法是,Q*可解决非常高级的数学问题。萨里以人为本人工智慧研究所所长安德鲁罗戈斯基表示:“我们知道现有人工智慧已证明能做本科水准的数学运算,但无法处理更高级数学问题。但Q*极有可能解决高难度数学问题。”说不定等到Q*出现,还能考考它哥德巴赫猜想(Goldbach′s conjecture)。数学是人类智慧的最伟大结晶之一,因此Q*只是还只是个代号就引发全世界恐慌。

Q*背后也与OpenAI使命连结──通用人工智慧(AGI),甚至超级智慧。OpenAI将AGI定义为最具经济价值的任务超越人类的自主系统,Q*就是OpenAI迈向AGI的一步。

OpenAI对Q*和信件外泄没有发表任何评论,但笔者喜忧参半。对Q*拥有强大能力很开心,人工智慧领域发展会更进一步;同时担心Q*噱头大于实力,真到发表那天测试结果就那么回事,狠狠打脸笔者。

(本文由 品玩 授权转载;首图来源:shutterstock)

延伸阅读:

  • 路透社曝解雇 Sam Altman 可能原因:AI 新专案“Q*”恐威胁人类

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。