Google 史上最强模型 Gemini，真的全面辗压 GPT-4 吗？

AI与大数据 44分钟前 0

▼

12 月 7 日深夜，Google 突然重量级发布 AI 杀手锏──Gemini。多模态 Gemini 可以理解、操作和结合不同类型的资讯，包括文字、程式码、音讯、图像和视讯。

在去年ChatGPT发布不到两周后，Google就已经拉响“红色警报”来应对挑战。但紧急上线的Bard ，却在首次亮相就出现错误，一夜让Google蒸发了1,000亿美元市值。

在过去的一年里，基于大模型的聊天机器人单月访问量已经超过20亿，其中ChatGPT遥遥领先，Google Bard虽然排在第二，但和几个竞品一起归为“其他”更为合适。

因此，Gemini早已被寄予了追赶ChatGPT的厚望，无论成败，它就是Google过去对AI大模型孤注一掷的成果。

能看、能说、能推理

Gemini 1.0共有中杯、大杯、超大杯三种不同规格。

Gemini Nano──最高效的设备任务模型
Gemini Pro──适用于广泛的任务扩展的最佳模型
Gemini Ultra──最大且最能胜任高度复杂任务的模型

（Source：影片截图）

暂且抛开繁杂的参数讯息，先来用几个案例让你全面了解Gemini的能力。

当你随手画个鸭子，从曲线到鸭子成型，Gemini都可以精准辨识。给鸭子画条波浪线，它能理解你的言下之意，精准地指出鸭子在水中游泳的场景答案。同时它也能人性化地模仿鸭子的叫声，即使是用流利的普通话说出鸭子的叫法也不在话下。

闲着无聊，也可以和Gemini玩个游戏，你的手指指向哪个区域，Gemini就能说出那个地区及其代表性的事物。

三仙归洞，猜猜纸球在哪个杯子下面，手速再快，也躲不过Gemini的“眼睛”。

拿到毛线却毫无头绪，别着急，Gemini聪明的大脑在看到纱线的那一刻，就已经安排好成品，你只需要“照猫画虎”就好了。

辨识影像也只是Gemini的基础水准，看到乐器，Gemini还能产生符合环境氛围的音乐。

逻辑和谜题解决、影像序列分析、魔术技巧解释、记忆和逻辑，这些能力Gemini样样都有，样样精通。Google也发布了文字展示版本，如果你不想看影片，可以到这里查看。

或许是这支影片过于震撼，部分网友质疑Google这个影片有“造假”的可能性，不过Gemini很快就会在Google AI Studio向大众开放，届时便能一辩真假。

多模态Geminivs. GPT-4

根据Google官方显示，从自然图像、音讯和视讯理解到数学推理，Gemini Ultra的性能在32个广泛使用的大型语言模型（LLM）研究和开发的学术基准测试中，超过了30个当前最先进的结果。

从Google放出的测试结果来看，在文本、常规推理、数学、程式码等领域，Gemini的表现几乎是全方位碾压OpenAI的GPT-4。

（Source：Google）

MMLU（大规模多任务语言理解）是测试AI模型知识和解决问题能力的最受欢迎方式之一。Gemini Ultra在该测试中以90.0%的准确率成为首个超越人类专家的模型，做为对比，GPT-4只有86.4%的准确率。

新的MMMU基准测试包含了跨不同领域的多模态任务，对多模态大模型的检验程度更高，但Gemini Ultra同样取得了59.4%的高分。

Google CEO Sundar Picha在接受《麻省理工学院技术评论》的采访时表示，Gemini之所以令人瞩目，其中一个重要原因是它从根本上是一个多模态模型，就像人一样，它不仅从文本中学习，也能透过视讯、音讯和程式码进行学习。

多模态特性是Gemini花时间打磨的原生特性，Gemini 1.0能同时辨识和理解文字、影像、音讯等多种讯息，理解讯息能力更强，在回答与复杂主题相关的问题也能游刃有余。在多模态SOTA的测试中，Gemini影像、视讯、音讯的多模态测试水准再次遥遥领先。

程式码是检验大模型层级的重要指标之一，Gemini 1.0跨语言工作和推理复杂资讯的能力是它的强项，能够理解诸如Python、Java、C++等高品质程式码。两年前，Google推出了AlphaCode，这是第一个在程式设计比赛中达到竞争水平的AI程式码产生系统。

现在，AlphaCode推出了第二代，这是一个由Gemini微调的竞争性编码模型，与原始AlphaCode在相同的平台上较量时，AlphaCode-2在人类竞争对手中的得分为87%，而此前AlphaCode的得分只有46%（点此看AlphaCode-2技术报告）。

在技术报告中，Google DeepMind（AlphaCode 2出品人）分享了大量关于推理时搜寻、过滤和重新排名系统的细节。NVIDIA资深科学家Jim Fan直夸这些最新成果堪称Google的Q*（可以简单理解为AI的大突破）。

AlphaCode-2 is also announced today, but seems to be buried in news. It’s a competitive coding model finetuned from Gemini. In the technical report, DeepMind shares a surprising amount of details on an inference-time search, filtering, and re-ranking system. This may be Google’s… pic.twitter.com/rGVSFsWHMO

— Jim Fan (@DrJimFan) December 6, 2023

thehiredai CEO Arman大胆地预测：“Gemini AI刚刚杀了ChatGPT！”

Google’s Gemini AI has just killed ChatGPT!

Gemini is now the strongest AI tool to ever exist as of 2023.

Here are 5 reasons why: pic.twitter.com/tusnRAJEDh

— Arman (@ArmanSpeaks) December 6, 2023

值得一提的是，Google也宣布推出迄今为止最强大、最有效率、最可扩展的TPU系统：Cloud TPU v5p。

▲ Cloud TPU v5p。（Source：Google）

Gemini 1.0的训练正是在Google内部设计的Tensor处理单元（TPUs）v4和v5e的AI最佳化基础设施上进行的。

Google Cloud CEO Thomas Kurian对于自家产品，毫不吝啬地夸赞：“Cloud TPU v5p是我们迄今为止功能最强大、可扩展性最强的TPU加速器，其训练模式的速度比其前代产品快2.8倍。”

Our most powerful and scalable TPU accelerator to date, Cloud TPU v5p can train models 2.8X faster than its predecessor.

— Thomas Kurian (@ThomasOrTK) December 6, 2023

手机大模型的新玩家

手机是新科技破圈的重要媒介，Gemini想要大规模走进大众社会，Pixel 8一定是其不二之选。

Pixel 8 Pro做为第一款内建人工智慧的手机，已经在高新技术民用化的道路上建立了良好的口碑，从已经上手Pixel 8 Pro的用户反馈看，Google把AI和手机终端应用结合得相当不错。

Google也宣布，Gemini Nano大模型将在Pixel 8 Pro上正式运行。消息一出，PassionateGenius CTO Morimoto已经迫不及待想要体验在Pixel 8上跑大模型了。做为首款专为Gemini Nano设计的智慧型手机，Pixel 8 Pro有两项专属的拓展功能将在后续的更新中加入：“记录器摘要”和“Gboard智慧回应”。

即使没有网络连接，记录器也可以获得手机对话录音、采访、演示等内容的摘要，强大的终端硬件是支撑这个功能的基础，而最佳化的侧端演算法让“断网不断线”成为可能。

（Source：Google，下同）

智慧回复功能很像自动回复，但和传统的固定内容相比，Gemini Nano可以辨识来信的内容，根据不同的语句生成对应的回应，语言也会更加自然亲切，有种明星的营运团队在社群平台回复粉丝的即视感。

这两个功能目前只支援英文辨识，非英语地区用户还需要再静候一段时间。

而在生产力方面的最佳化，Pixel终于赶上了基本水准。

类似的照片和影片的AI编辑功能在新机首发时，就成了Google新机的代名词，现在的AI编辑最佳化，可以让手机再加一件“专业编辑器”的新装。

全新清洁功能可帮助去除扫描文件中的污迹和折痕。现在只需在相簿里滑动几下，即可消除图片中的污渍。

透过Google Tensor G3的强大功能，Pixel 8 Pro上的视讯增强模型，可在云端调整颜色、照明、稳定性和颗粒度。从官方展示的对比来看，影片被加了一层“鲜明”滤镜，颜色更饱满，明暗对比度更高，特别是在夜晚暗光环境中，这种AI优化的效果会更明显。

相较影片的编辑，影像美化应该是更多人的期待，特别是在拍动态物体的时候，模糊的画面总会让你在事后翻阅时留下一些遗憾，升级的AI编辑可以将Google照片中的模糊全部消除。以后记录自家宠物的高光时刻，不用担心相机没对焦了。

此外，Google将多重装置之间的连动也升级了。Pixel Watch能够成为手机解锁的另一种方式，也能帮你忽略不需要的来电，或接听电话之前确认对象以及通话原因。

Google手机的用户，可以试着检验这些新功能，会不会成为你购买或继续使用Google的推手。

从今天开始，透过全新升级的Gemini Pro版本，Bard将实现更高阶的推理、规划、理解等功能。它将在超过170个地区和地区提供英文版本。

在接受《麻省理工学院技术评论》的采访时，Sundar Pichai还说到：“Gemini Pro在基准测试中的表现非常出色，当整合到Bard时，我可以亲身感受到它的优势，我们一直在对它进行测试，所有类别任务的好评率都有显着的提升，因此，我们将其称为迄今为止最大的升级之一。”

在接下来的几个月里，Gemini还会陆续推出Google旗下更多的产品和服务，例如搜寻、广告、Chrome和Duet AI等。

从12月13日开始，开发者和企业客户可以透过Google AI Studio或Google Cloud Vertex AI中的Gemini API存取Gemini Pro。

目前，Gemini Ultra已经在内测中，并打算明年初推给开发者和企业用户，明年初，Google还将推出Bard Advanced，让更多的普通用户用上最强的Gemini Ultra。

Google CEO Sundar Pichai在发布Gemini时说到：

每一次科技转变都是推动科学发现、加速人类进步和改善生活的机会。

我相信我们现在看到的与AI有关的转变将是我们一生中最深远的，远大于先前的行动装置或网络的转变。

想要实现AGI（通用人工智慧），就需要AI做到像人类一样从容地解决不同领域、不同模式的复杂任务，在这个过程中，除了基本计算、推理等基础能力，相对应的文字、影像、影片等多模态能力也要跟上。

DeepMind曾提出AGI的评估和分类的框架，前两个阶段分别是：

AGI-0：基本的人工智慧，能够在特定的领域和任务上表现出智慧，如图像辨识、自然语言处理等，但是不能跨领域和跨模态地进行学习和推理，也不能与人类和其他AI进行有效和自然的沟通和协作，也不能感知和表达情感和价值。

AGI-1：初级的通用人工智慧，能够在多个领域和任务上表现出智慧，如问答、摘要、翻译、对话等，能够跨领域和跨模态地进行学习和推理，能够与人类和其他AI进行基本的沟通和协作，能够感知和表达简单的情感和价值。

Gemini的展示，充分展现了它对各个模态互动的深刻理解，能看、能说、能推理、能够感知和表达简单的情感和价值，也让我们看到了AGI-1的潜在可能性。

（本文由爱范儿授权转载；首图来源：影片截图）

延伸阅读：

Google 打造新一代 TPU v5p 和 AI 超级电脑，加速 Gemini 模型发展
Pixel 8 Pro 升级内建 Gemini 模型，增添两个 AI 新功能、离线也能用

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

能看、能说、能推理

多模态Geminivs. GPT-4

手机大模型的新玩家

延伸阅读：

相关文章