GPT-4 离成为“天网”有多远？微软最新论文大胆预测：初具雏形

AI与大数据 2小时前 0

▼

很多科幻电影都有会思考、自动执行任务的 AI 系统或智慧机器人角色，如〈2001：太空漫游〉有超级电脑 HAL 9000 管理太空任务、〈魔鬼终结者〉的自我学习人工智慧系统天网，能控制美国核武和国防系统。

这些像人类思考和推理，还有海量知识能力的 AI 系统称为通用人工智慧（Artificial General Intelligence，AGI）。AGI 不限特定领域，有推理、规划、解决问题、抽象思考、理解复杂想法、快速学习和经验学习能力等。虽然 AlphaGo 围棋独步天下，但不算 AGI，〈瓦力〉的主角瓦力更符合 AGI 定义。

AGI 概念在人工智慧领域已存在几十年，许多研究人员一直尝试开发新演算法、模型和方法做出 AGI，而我们距离 AGI 还有多远？微软研究院最近论文指出，OpenAI 最新大型语言模型 GPT-4 已有 AGI 雏形。

GPT-4 广泛能力与许多功能以及许多任务有人类水准以上表现，可放心说 GPT-4 是迈向 AGI 的重要一步。

人工智慧的火花

微软研究院论文共 154 页，满满是研究人员给 GPT-4 的考题。论文篇幅很长，YouTuber AI Explained 有拍影片摘要供有兴趣者参考。微软研究人员于 GPT-4 早期开发阶段就有接触模型，并做了约 6 个月实验。他们使用未限制开发版，而不是现在有安全限制的最终版，因此论文结论是针对 GPT-4 原始模型。

论文指 GPT-4 的重要新能力是很少指示或无示范时也能正确使用工具，如使用计算机，这是 GPT-3.5 版 ChatGPT（简称旧 ChatGPT）做不到的。

▲ 提示：有条河流从左到右流，河旁是沙漠和金字塔、萤幕底部有 4 个按钮，颜色分别为绿色、蓝色、棕色和红色。

研究人员发现，GPT-4 可与 Stable Diffusion 结合，根据文字提示输出细节丰富的图片，并会根据文字提示排列物件，提高效率。人类和动物的差异就在人类会发现并使用工具，如今 AI 也朝这方向慢慢进化。

研究人员还让 GPT-4 参加 LeetCode 软件工程师模拟考。以五次考试最佳结果为样本，GPT-4 于简单、中等和困难三级考试分别取得 86.4%、60%、14.3% 成绩。论文谦虚说 GPT-4 写程式能力接近人类，那人类表现又如何？

LeetCode 资料库显示人类简单、中等和困难考试平均成绩为 72.2%、38.7%、7%，这还是排除一题都没回答者的数据。可说程式设计能力而言，GPT-4 已比很多软件工程师优秀了。

GPT-4 不仅可写简单程式，还能胜任复杂的 3D 游戏开发。GPT-4 零样本下用 JavaScript 在 HTML 产生躲避障碍物的游戏 Demo，只要在此基础上稍为修改，Demo 就能变成正式产品。当研究人员用同样提示测试旧 ChatGPT，它却说做不到。

为了测试 GPT-4 推理程度，研究人员拿 2022 年国际数学奥林匹克竞赛题目给它做，但GPT-4 资料库只更新到 2021 年（虽然是开发版，但没有连网），这题目答案不在它的资料库里，因此 GPT-4 要全靠自己数学逻辑推理能力完成。而 GPT-4 解题逻辑正确，但计算错误所以答案错了，研究人员表示这是基础计算错误（如考试时把乘法写成除法的人）；ChatGPT 只能产生逻辑不通的答案，还差得远。

▲ 读者也可挑战看看解题。

问到“一座游泳池可塞进多少高尔夫球”等很难回答的问题时，GPT-4 也能合乎逻辑回答。研究人员发现 GPT-4 可调用其他应用 API，完成检索使用者信件、日历、座标等，帮忙订餐、订机票、回信等助理工作。这点 OpenAI 最近公布的 ChatGPT 外挂程式集功能已能看到，GPT-4 模型能做的事绝对不只文字产生这么简单，与其他应用 API 结合，可成为近似 AI 系统的真‧AI 助理。

研究人员还发现用户难发现的功能，就是 GPT-4 可建立人类心智模型。研究人员设立场景，GPT-4 能完美分析人物心理及可能有的行动。也就是说，GPT-4 能像人类解读其他人行为与心理关联，而不是只看到表面举动，这是 AI 的大进步。

One More Thing？

论文分为十章节，介绍 GPT-4 多模组能力（与视觉产生内容相关）、生成和理解程式能力、数学能力、与世界互动能力、与人类互动能力、判断力，以及 GPT-4 局限性、社会影响、未来方向。全文抽丝剥茧解读 GPT-4，发表后马上受到网络关注。

但有网友于论文 LaTeX 原始程式码注释发现作者隐藏部分资讯。

▲ 从注释看 DV-3 应是 Davinci 3（达文西 3）。

如 GPT-4 名称实际为 DV-3，也是论文“第三作者”，也许考虑到隐私问题，被第一作者藏起来了。

网友还发现作者也不太清楚 GPT-4 实际成本，也好像错把 GPT-4 称为纯文本模型，而不是多模组模型。有毒性相关部分也删除了，或许考虑到会造成 OpenAI 不必要的负面影响。

总体来说，如果读者对 GPT-4 能做什么、还有什么限制，或对 AI 进展有兴趣，可研究此论文更了解目前最强大的大型语言模型。

Sparks of Artificial General Intelligence: Early experiments with GPT-4

（本文由爱范儿授权转载；首图来源：shutterstock）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

人工智慧的火花

One More Thing？

相关文章