GPT-3 走红背后，AI 变成普通人玩不起的游戏

AI与大数据 1小时前 0

▼

日常生活让 AI 帮忙完成一些任务，已经不是新鲜事。智慧音箱 AI，可以告诉你“明天天气怎么样”；翻译软件 AI，能准确翻译一大段话甚至一篇文章；写作 AI 则会作文。

但它们都只能做一件事，翻译 AI 写不了作文，回答 AI 也不会翻译。它们更像一件件独立工具，而不是一个智慧体。真正智慧的 AI 应该长怎么样？应该是通用的，既可以回答、写文章，也能搞定翻译。

最近在硅谷受热捧的 GPT-3，就是这种 AI。回答、写文章、翻译都不在话下，还能写程式码、算公式、做表格、画图。

▲ GPT-3 甚至会设计看起来像西瓜的按钮。

GPT-3 其实是语言模型。所谓语言模型，就是让机器理解并预测人类语言的技术。如果说以前的语言模型是专才，那 GPT-3 就是通才，且样样都做得不错。

当仔细回顾和整理它的诞生故事时会发现，AI 领域的明显趋势正浮出水面：要训练有颠覆性进步的模型，最终比较的是资料量和演算力规模，意味着这行业的门槛越来越高，最终可能导致 AI 技术的竞争变成少数“烧得起钱”大公司的游戏。

预先训练筑起数量门槛

GPT-3 的故事要从 2018 年说起。

2018 年初，艾伦人工智慧研究所和华盛顿大学的研究人员提出 ELMo（Embedding from Language Models）模型。之前的模型无法理解上下文，不能根据语境判断一个多义词的正确含义，ELMo 第一次解决了这个问题。

训练 ELMo 模型的过程，研究人员采用关键的方法──预先训练。通常训练一个模型需要大量经人工标注的数据。而在标注数据很少的情况下，训练出来的模型精确度很差。

预先训练则摆脱对标注数据的依赖，用大量没有标注的语料训练（即无监督学习），得到一套模型参数，再把这套模型参数应用于具体任务。这种模式训练出来的语言模型证明了，在自然语言处理（以下简称 NLP）任务能达成很好的效果。可以说，预先训练的成功，开创了自然语言研究的新模式。

2018 年 6 月，在 ELMo 基础上，OpenAI 提出 GPT。GPT 全称 Generative Pre-training，字面意思是“生成式预先训练”。

GPT 同样基于预先训练模式，但和 ELMo 不同的是，加入第二阶段训练：精调（Fine-tuning，又称“微调”），开创了“预先训练＋精调”先河。所谓精调，即在第一阶段训练好的模型基础上，使用少量标注语料，针对具体 NLP 任务调整（即有监督学习）。

除了开创“预先训练＋精调”模式，GPT 还在特征提取器采用更强大的 Transformer。所谓特征提取器，就是用来提取语义特征。Google 在 2017 年推出的 Transformer，比 ELMo 所用的特征提取器 RNN，在综合效果和速度方面有优势。且资料量越大，越能突显 Transformer 的优点。

GPT 在预先训练阶段设计一层 Transformer（层数越多规模越大），并且使用“单向语言模型”为训练任务。上文说到，ELMo 模型能理解上下文，上文和下文的资讯都充分利用。而 GPT 和之后的更新版，坚持用单向语言模型，只使用上文资讯。

GPT 的设计思路奠定之后更新的基础，但由于规模和效果没有很出众，风头很快被 2018 年底亮相的 BERT 盖过。

▲ 冷知识：ELMo 和 BERT 都是美国儿童节目《芝麻街》角色的名字。

BERT 由 Google 打造，刷新 11 项 NLP 任务的最好程度，颠覆整个 NLP 领域。BERT 的成功其实有 GPT 的功劳，它们大框架基本相同，都采用“预先训练＋精调”模式。差别在于，GPT 是单向语言模型，而 BERT 采用双向语言模型。

BERT 虽然取得了巨大成功，但有两个缺点。一，虽然采用无监督学习和有监督学习结合（即“预先训练＋精调”）模式，但还是少不了特定领域一定数量的标注数据。二，因领域标注数据有限，会导致 BERT 模型过于拟合（模型太死板，只适用训练数据），难以应用到其他领域，即通用能力不足。

2019 年 2 月亮相的 GPT-2 解决了 BERT 的缺点。为了摆脱对标注数据的依赖，OpenAI 在设计 GPT-2 模型时，基本上采用无监督学习（即预先训练），减少精调阶段有监督学习的比重，尝试在一些任务不精调。

其次，为了增强通用性，OpenAI 选择范围更广、品质更高的数据，用 800 万网页的语料（40GB）训练，几乎涵盖所有领域。此外，OpenAI 还增加 GPT-2 模型的规模，把参数增加到 15 亿，是 GPT（1.17 亿个参数）的 10 倍，是 BERT-Large（BERT 规模较大版，有 3 亿个参数）的 5 倍。

GPT-2 亮相后，很快吸引整个 NLP 领域的目光。做具体 NLP 任务时（如问答、翻译和摘要），用的都是预先训练阶段的模型，都能较好完成任务。特别是给予短文接续写下去方面，表现十分出色。

沿着大规模预先训练的思路，OpenAI 继续“大水漫灌”，用更多无标注数据、更多参数和更多演算力训练模型，终于在 2020 年 5 月推出 GPT-3。7 月，又开发了 API（应用程序接口），让更多开发者调用 GPT-3 的预先训练模型，彻底轰动整个 NLP 圈。

堆人、堆演算力规模

从 GPT-1 的“平平无奇”到 GPT-3 的突破，充分体现了什么叫“大力出奇迹”。

首先看人力。初代 GPT 的论文只有 4 位作者，GPT-2 论文有 6 位作者。到了GPT-3，论文作者猛增为 31 位。

▲ GPT-3 论文足足有 31 位作者。

且 31 位作者分工明确，有人负责训练模型，有人负责收集和过滤数据，有人负责做具体的自然语言任务，有人负责开发更快的 GPU 内核，跟公司不同部门间合作没啥区别。

▲ 31 位作者的分工就写了整整一页。

再看演算力。从初代 GPT 到 GPT-3，演算法模型基本没有变化，都是基于 Transformer 预先训练，但训练资料量和模型规模十倍、千倍增长。相应地，所需演算力也越来越夸张。初代 GPT 在 8 个 GPU 训练一个月就行，而 GPT-2 需要在 256 个 Google Cloud TPU v3 训练（每小时 256 美元），训练时长未知。

到 GPT-3，演算力费用已经是千万美元等级。据 GPT-3 论文，所有模型都是在高频宽电脑丛集的辉达 V100 GPU 训练，训练费用预估为 1,200 万美元。

甚至成本过高，研究者发现一个 Bug 的情况下，没有再训练一次，而是把涉及部分排除于论文外。

▲ 研究人员发现一个 Bug，但由于成本问题没有解决。

显然，没有强大的演算力（其实相当于财力）支持，GPT-3 根本不可能训练出来。那么，OpenAI 的演算力支持源自何处？这要说回一笔投资。2019 年7 月，微软向 OpenAI 注资10 亿美元。双方协定，微软提供 OpenAI 演算力支持，而 OpenAI 则将部分 AI 智慧财产权授权给微软商业化。

2020 年 5 月，微软推出专为 OpenAI 设计的超级电脑。托管在 Azure 上，包含超过 28.5 万个处理器内核和 1 万 GPU，每个显卡服务器的连接速度为 1 秒 400Gbps。性能在超级电脑排名可排到前五。

最后再说 OpenAI 这家机构。马斯克和原 Y Combinator 总裁山姆‧奥特曼主导成立于 2015 年的 OpenAI，原是纯粹的非营利 AI 研究组织，但经过一次转型和架构调整，加上引入微软投资，现在已成为混合营利与非营利性质的企业。

一直以来，OpenAI 的目标都是创建“通用人工智慧”（Artificial General Intelligence，AGI），就像文章开头所说，AGI 是胜任所有智力任务的 AI。

打造 AGI 的路有两条，一是开发更强大的演算法，另一种是在现有演算法基础上规模化。OpenAI 就是第二条路的信仰者。2019 年，OpenAI 核算自 2012 年来所有模型的计算量，包括 AlexNet 和 AlphaGo，发现最大规模 AI 模型所需演算力，已增长 30 万倍，每 3.4 个月翻一倍。而摩尔定律指出，晶片性能翻倍周期是 18~24 个月。这就意味着，最大规模 AI 模型对演算力需求的增长，远超过晶片性能提升。

毫无疑问，演算力已成为 NLP 研究甚至 AI 研究的壁垒。有网友指出，GPT-3 仅是开始，随着这类工作逐步常态化，类似 OpenAI 的机构很可能形成系统性的 AI 技术垄断。

（本文由 PingWest 授权转载；首图来源：shutterstock）

延伸阅读：

OpenAI 推出全新 NLP 模型 GPT-3，可能有与区块链技术相提并论的潜力

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

AI gpt

预先训练筑起数量门槛

堆人、堆演算力规模

延伸阅读：

相关文章