Gemini 背后，Google 真正可怕之处不是模型本身

AI与大数据 36分钟前 0

▼

Google 大语言模型 Gemini 1.0 一问世就技惊四座。表现方面，无论文字、图像、音讯理解，或 57 种领域文本及数学问题推理，几乎都超过自然语言界霸主 GPT-4，Google Gemini 官网还有一句话是“Gemini 是第一个 MMLU（大量多任务语言理解）超过人类专家的模型”。

为什么Google Gemini这么厉害？其实最核心原因来自训练Google Gemini两种服务器端推理晶片TPU v4和TPU v5e，虽然从结果看，TPU跟GPU都用于训练和推理，但两方“解题思路”相距甚远。

Google在TPU v4采用光学回路开关（optical circuit switch，OCS），顾名思义，就是服务器群组以光传递讯息。上方是注入模组，使用850奈米雷射二极体，发射850奈米的显示光。中间是用来分割或合并光的二向色分光器；下方是用来反射的2D MEMS阵列；左右两端是用来投射O波段讯号光的2D透镜阵列和光纤准直器阵列。

▲ 简易版OCS原理。

传统服务器群组用的是铜线导电，透过规定时间内铜线上电子传输的数量来传递讯息，但是任何介质、就算是不计成本的采用金或银，依然有电阻的存在，必然会减慢电子在这之间传递的速度。没有任何的光电转换环节，全都是由光来运送讯息，没有中间商赚差价。

我们不妨比较一下市面上最常见，也是Open AI目前的解决方案，辉达H100所使用的Infiniband技术。这个技术使用交换结构拓朴。所有传输都在通道配接器处开始或结束。每个处理器都包含一个主机通道配接器（HCA ），每个周边都有一个目标通道配接器（TCA）。

说的直白一点，H100就跟过去的驿站差不多。驿站会取代权利中心接收讯息，让管理者可以直接去驿站来查看自己未来的任务。但TPU v4则是直接烧狼烟，不仅快，而且跳过中间所有的消息转达设施，一步到位。根据Google的说法，OCS系统和底层光学组件成本价格不到TPU v4系统成本的5%，其功耗不到整个系统的5%，又便宜又好用。

说到这，不得不提一个Google创造的概念，叫做MFU。全称为模型FLOPs利用率（Model FLOPs Utilization），这是一个不同于其他衡量计算利用率的方法，不包含任何反向传递期间的作业，这意味着MFU衡量的效率直接转换为端到端的训练速度。也就是说，MFU最大上限一定是100%，同时数字越高代表训练速度越快。

Google想透过MFU这个概念，来评估TPU v4的负载能力以及运作效率，以此得出到底可以给Google Gemini多少强度。对一系列纯解码器变压器变压器语言模型（下图以GPT为例）配置进行了深入的基准测试，这些配置的参数从数十亿到数万亿不等。测试规定，模型大小（参数单位十亿）是晶片数的二分之一。

▲ TPU v4在不同场景下的MFU。

在Google的基准测试活动中，TPU v4实现了44-56%的MFU。根据下图的比较可以明显看到，尤其是多个TPU v4串联的情况。而这也正是OCS的神奇之处，同时Google 也希望借助OCS向世人们传达一个道理：要相信光。

▲ 不同晶片的MFU对比。

既然TPU v4都这么厉害了，那么TPU v5e做为迭代产品，效果只会更好。事实上Google之所以将这个模型命名为Gemini，也是因为这两个TPU。Gemini的本意是双子座，代表的是希腊神话中的天神宙斯与斯巴达王后勒达所生的双胞胎卡斯托耳和波鲁克斯。TPU v4和TPU v5e某种意义上也是双胞胎，因此命名为Gemini。当然，另外有一种可能是开发者特别喜欢《圣斗士星矢》，里面黄金十二宫篇大BOSS就是双子座的撒加，绝招是银河星爆。不过笔者觉得后者的可能性低一点。

还有一点，服务器最大的成本来自于营运和维护。但是在这种规模下，使用传统的定期对持久集群储存进行权重检查点操作的方法，是不可能保持高吞吐量的，毕竟要周期地关闭重启某个机组。所以对于Gemini，Google使用模型状态的冗余记忆体副本，并且在任何计划外的硬件故障时，可以直接从完整的模型副本中快速恢复。与PaLM和PaLM-2比，尽管使用了大量的训练资源，但这大大加快了恢复时间。结果，最大规模的培训工作的总体产出从85%增加到97%。

Google Gemini背后的服务器群组也是第一款支援嵌入的硬件的超级电脑。嵌入是一种比较贴近Google业务的演算法。嵌入本身是一种相对低维度的空间，模型可以将高维度向量转换为这种低维度空间。借助嵌入，可以更轻松地对表示字词的稀疏向量等大型资料输入进行机器学习。理想情况下，嵌入会将语义上相似的输入置于嵌入空间中彼此靠近的位置，以捕获输入的一些语义。

嵌入是广告、搜寻排名、YouTube和Google Play中使用的深度学习推荐模型（DLRM）的关键组成部分。每个TPU v4都包含第三代稀疏核心资料流处理器，可将依赖嵌入的模型加速5至7倍，但仅使用5%的晶片面积和功耗。

嵌入处理需要大量的端到端通信，因为嵌入分布在在模型上协同工作的TPU晶片周围。这种模式强调共享记忆体互连的频宽。这就是TPU v4使用3D环面互连的原因（相对于TPU v2和v3使用2D环面）。TPU v4的3D环面提供了更高的二等分带宽，即跨越互连中间从一半晶片到另一半的频宽，以帮助支援更多数量的晶片和更好地展现稀疏核心性能。

无疑问，Google是一家软件公司，GoogleGemini是一款软件产品，但是Google胜就胜在硬件上。Google强调Gemini是功能强大的多模态模型（Multimodal Model）。多模态指的是结合了多种感官输入形式来做出更明智的决策，相当于模型可以用复杂、多样和非结构化的资料来求解。

一个短视讯（360p到1080p）的资料量大约几十mb到几百mb，一条语音的资料量约为几百kb，一行文字的资料量约为几b。对于传统的大语言模型，如果只处理文字讯息，那么对服务器的负载要求不会很高，毕竟资料量小。可是一旦将影片、图片等一并处理，那么服务器的载重就会成指数倍增长。事实上不是其他模型不能弄多模态，是其他服务器扛不住这么大资料量，硬件拖了软件的后腿。Google 之所以敢弄，更多的原因是TPU v4和TPU v5e在大规模串联的场景下，高载荷高MFU无疑是Google的绝招。

然而Google并不能高兴太早，首先英伟达的张量计算GPU H200再过些日子就要发售了。像Open AI这样的大客户估计是第一时间就能拿到手。到时候GPT无论是推理还是训练，都可能会来到一个非常夸张的量级。

其次，微软也出手了。2019年时，微软启动了一个名为雅典娜的计划。透过设计和开发客制化人工智慧晶片，以满足训练大型语言模型和驱动人工智慧应用的独特需求。而且雅典娜和TPU相似，也是内部项目，能够减少对辉达等第三方硬件供应商的依赖。雅典娜是一个极其神秘的项目，它的性能是多少、外观怎样，外界一概不知。唯一能够了解的，是有些幸运的Open AI员工已经开始对雅典娜测试了。

虽然不清楚H200和雅典娜具体能为Open AI带来哪些变化，不过可以确定的是，Google以及Google Gemini压力都挺大的。

TPU对Google意味什么？

说到Google的TPU还有一个小故事，TPU的全名为Tensor Processing Unit，中文是张量处理单元，是Google开发的专用积体电路（ASIC），专门用于加速机器学习。虽然在公众视野中，Google是2016年5月的I/O大会上宣布使用TPU，但实际在2015年的时候TPU就已经问世。

神经网络翻译技术从2014年9月提出，百度2015年5月上线首个网络NMT系统（神经网络机器翻译系统）。NMT技术克服了传统方法将句子分割为不同片段进行翻译的缺点，而是充分利用上下文讯息，对句子进行整体的编码和解码，进而产生更为流畅的译文。

但以当时的技术，神经翻译对服务器造成的负载压力非常大，主要当时硬件没那么强大，也没有H100、A100这样的产品。从发表的论文和GoogleBlog来看，Google其实已经在当时具备了这样的技术，没有使用的核心原因就是硬件遭不住。经过大约半年的测试，TPU已经可以完美适应到服务器中，做为演算法加速器使用。那到了I/O大会那天，Google 一咬牙一跺脚，“我们也有NMT了！”

Google的TPU最早是不对外开放的，直到2018年才开始有云端TPU业务。就是用户可以在云端购买TPU，来快速解决需要张量运算的业务。2022年的时候，Google云端更新了TPU v4业务，这意味着现在用户也可以购买并使用上文提到的各种技术来享受更高的推理和训练能力。

Google和Open AI最大的不同在于，前者有很强的业务要求，Google Gemini不会是一个赚钱的工具，它对绝大多数人来说更像是个新鲜的高科技玩具。但云端TPU v4就不一样了，截至3月31日的季度，Google云端业务的营收为74亿美元，营运利润为1.91亿美元，利润率为2.5%。Google云端业务实现首次获利，但是利润率还是太低，尤其是比较亚马逊云端28%的利润。所以云端TPU就成为了Google业务的一个大型成长点，一旦Google Gemini的效果反应良好，那么对Google云端TPU业务的推广来说，无疑是绝招。

（本文由品玩授权转载；首图来源：Google）

延伸阅读：

挑战 OpenAI 关键利器终现身！Google 发表 Gemini 模型，Bard、Pixel 8 Pro 率先导入
Google 打造新一代 TPU v5p 和 AI 超级电脑，加速 Gemini 模型发展
Bard 两阶段导入 Gemini，Gemini Pro 模型即日起支援 Bard 英文版

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

TPU对Google意味什么？

延伸阅读：

相关文章