Google 史上最强模型 Gemini,真的全面辗压 GPT-4 吗?
▼
12 月 7 日深夜,Google 突然重量级发布 AI 杀手锏──Gemini。多模态 Gemini 可以理解、操作和结合不同类型的资讯,包括文字、程式码、音讯、图像和视讯。
在去年ChatGPT发布不到两周后,Google就已经拉响“红色警报”来应对挑战。但紧急上线的Bard ,却在首次亮相就出现错误,一夜让Google蒸发了1,000亿美元市值。
在过去的一年里,基于大模型的聊天机器人单月访问量已经超过20亿,其中ChatGPT遥遥领先,Google Bard虽然排在第二,但和几个竞品一起归为“其他”更为合适。
因此,Gemini早已被寄予了追赶ChatGPT的厚望,无论成败,它就是Google过去对AI大模型孤注一掷的成果。
能看、能说、能推理
Gemini 1.0共有中杯、大杯、超大杯三种不同规格。
- Gemini Nano──最高效的设备任务模型
- Gemini Pro──适用于广泛的任务扩展的最佳模型
- Gemini Ultra──最大且最能胜任高度复杂任务的模型
(Source:影片截图)
暂且抛开繁杂的参数讯息,先来用几个案例让你全面了解Gemini的能力。
当你随手画个鸭子,从曲线到鸭子成型,Gemini都可以精准辨识。给鸭子画条波浪线,它能理解你的言下之意,精准地指出鸭子在水中游泳的场景答案。同时它也能人性化地模仿鸭子的叫声,即使是用流利的普通话说出鸭子的叫法也不在话下。
闲着无聊,也可以和Gemini玩个游戏,你的手指指向哪个区域,Gemini就能说出那个地区及其代表性的事物。
三仙归洞,猜猜纸球在哪个杯子下面,手速再快,也躲不过Gemini的“眼睛”。
拿到毛线却毫无头绪,别着急,Gemini聪明的大脑在看到纱线的那一刻,就已经安排好成品,你只需要“照猫画虎”就好了。
辨识影像也只是Gemini的基础水准,看到乐器,Gemini还能产生符合环境氛围的音乐。
逻辑和谜题解决、影像序列分析、魔术技巧解释、记忆和逻辑,这些能力Gemini样样都有,样样精通。Google也发布了文字展示版本,如果你不想看影片,可以到这里查看。
或许是这支影片过于震撼,部分网友质疑Google这个影片有“造假”的可能性,不过Gemini很快就会在Google AI Studio向大众开放,届时便能一辩真假。
多模态Geminivs. GPT-4
根据Google官方显示,从自然图像、音讯和视讯理解到数学推理,Gemini Ultra的性能在32个广泛使用的大型语言模型(LLM)研究和开发的学术基准测试中,超过了30个当前最先进的结果。
从Google放出的测试结果来看,在文本、常规推理、数学、程式码等领域,Gemini的表现几乎是全方位碾压OpenAI的GPT-4。
(Source:Google)
MMLU(大规模多任务语言理解)是测试AI模型知识和解决问题能力的最受欢迎方式之一。Gemini Ultra在该测试中以90.0%的准确率成为首个超越人类专家的模型,做为对比,GPT-4只有86.4%的准确率。
新的MMMU基准测试包含了跨不同领域的多模态任务,对多模态大模型的检验程度更高,但Gemini Ultra同样取得了59.4%的高分。
Google CEO Sundar Picha在接受《麻省理工学院技术评论》的采访时表示,Gemini之所以令人瞩目,其中一个重要原因是它从根本上是一个多模态模型,就像人一样,它不仅从文本中学习,也能透过视讯、音讯和程式码进行学习。
多模态特性是Gemini花时间打磨的原生特性,Gemini 1.0能同时辨识和理解文字、影像、音讯等多种讯息,理解讯息能力更强,在回答与复杂主题相关的问题也能游刃有余。在多模态SOTA的测试中,Gemini影像、视讯、音讯的多模态测试水准再次遥遥领先。
程式码是检验大模型层级的重要指标之一,Gemini 1.0跨语言工作和推理复杂资讯的能力是它的强项,能够理解诸如Python、Java、C++等高品质程式码。两年前,Google推出了AlphaCode,这是第一个在程式设计比赛中达到竞争水平的AI程式码产生系统。
现在,AlphaCode推出了第二代,这是一个由Gemini微调的竞争性编码模型,与原始AlphaCode在相同的平台上较量时,AlphaCode-2在人类竞争对手中的得分为87%,而此前AlphaCode的得分只有46%(点此看AlphaCode-2技术报告)。
在技术报告中,Google DeepMind(AlphaCode 2出品人)分享了大量关于推理时搜寻、过滤和重新排名系统的细节。NVIDIA资深科学家Jim Fan直夸这些最新成果堪称Google的Q*(可以简单理解为AI的大突破)。
AlphaCode-2 is also announced today, but seems to be buried in news. It’s a competitive coding model finetuned from Gemini. In the technical report, DeepMind shares a surprising amount of details on an inference-time search, filtering, and re-ranking system. This may be Google’s… pic.twitter.com/rGVSFsWHMO
— Jim Fan (@DrJimFan) December 6, 2023
thehiredai CEO Arman大胆地预测:“Gemini AI刚刚杀了ChatGPT!”
Google’s Gemini AI has just killed ChatGPT!
Gemini is now the strongest AI tool to ever exist as of 2023.
Here are 5 reasons why: pic.twitter.com/tusnRAJEDh
— Arman (@ArmanSpeaks) December 6, 2023
值得一提的是,Google也宣布推出迄今为止最强大、最有效率、最可扩展的TPU系统:Cloud TPU v5p。
▲ Cloud TPU v5p。(Source:Google)
Gemini 1.0的训练正是在Google内部设计的Tensor处理单元(TPUs)v4和v5e的AI最佳化基础设施上进行的。
Google Cloud CEO Thomas Kurian对于自家产品,毫不吝啬地夸赞:“Cloud TPU v5p是我们迄今为止功能最强大、可扩展性最强的TPU加速器,其训练模式的速度比其前代产品快2.8倍。”
Our most powerful and scalable TPU accelerator to date, Cloud TPU v5p can train models 2.8X faster than its predecessor.
— Thomas Kurian (@ThomasOrTK) December 6, 2023
手机大模型的新玩家
手机是新科技破圈的重要媒介,Gemini想要大规模走进大众社会,Pixel 8一定是其不二之选。
Pixel 8 Pro做为第一款内建人工智慧的手机,已经在高新技术民用化的道路上建立了良好的口碑,从已经上手Pixel 8 Pro的用户反馈看,Google把AI和手机终端应用结合得相当不错。
Google也宣布,Gemini Nano大模型将在Pixel 8 Pro上正式运行。消息一出,PassionateGenius CTO Morimoto已经迫不及待想要体验在Pixel 8上跑大模型了。做为首款专为Gemini Nano设计的智慧型手机,Pixel 8 Pro有两项专属的拓展功能将在后续的更新中加入:“记录器摘要”和“Gboard智慧回应”。
即使没有网络连接,记录器也可以获得手机对话录音、采访、演示等内容的摘要,强大的终端硬件是支撑这个功能的基础,而最佳化的侧端演算法让“断网不断线”成为可能。
(Source:Google,下同)
智慧回复功能很像自动回复,但和传统的固定内容相比,Gemini Nano可以辨识来信的内容,根据不同的语句生成对应的回应,语言也会更加自然亲切,有种明星的营运团队在社群平台回复粉丝的即视感。
这两个功能目前只支援英文辨识,非英语地区用户还需要再静候一段时间。
而在生产力方面的最佳化,Pixel终于赶上了基本水准。
类似的照片和影片的AI编辑功能在新机首发时,就成了Google新机的代名词,现在的AI编辑最佳化,可以让手机再加一件“专业编辑器”的新装。
全新清洁功能可帮助去除扫描文件中的污迹和折痕。现在只需在相簿里滑动几下,即可消除图片中的污渍。
透过Google Tensor G3的强大功能,Pixel 8 Pro上的视讯增强模型,可在云端调整颜色、照明、稳定性和颗粒度。从官方展示的对比来看,影片被加了一层“鲜明”滤镜,颜色更饱满,明暗对比度更高,特别是在夜晚暗光环境中,这种AI优化的效果会更明显。
相较影片的编辑,影像美化应该是更多人的期待,特别是在拍动态物体的时候,模糊的画面总会让你在事后翻阅时留下一些遗憾,升级的AI编辑可以将Google照片中的模糊全部消除。以后记录自家宠物的高光时刻,不用担心相机没对焦了。
此外,Google将多重装置之间的连动也升级了。Pixel Watch能够成为手机解锁的另一种方式,也能帮你忽略不需要的来电,或接听电话之前确认对象以及通话原因。
Google手机的用户,可以试着检验这些新功能,会不会成为你购买或继续使用Google的推手。
从今天开始,透过全新升级的Gemini Pro版本,Bard将实现更高阶的推理、规划、理解等功能。它将在超过170个地区和地区提供英文版本。
在接受《麻省理工学院技术评论》的采访时,Sundar Pichai还说到:“Gemini Pro在基准测试中的表现非常出色,当整合到Bard时,我可以亲身感受到它的优势,我们一直在对它进行测试,所有类别任务的好评率都有显着的提升,因此,我们将其称为迄今为止最大的升级之一。”
在接下来的几个月里,Gemini还会陆续推出Google旗下更多的产品和服务,例如搜寻、广告、Chrome和Duet AI等。
从12月13日开始,开发者和企业客户可以透过Google AI Studio或Google Cloud Vertex AI中的Gemini API存取Gemini Pro。
目前,Gemini Ultra已经在内测中,并打算明年初推给开发者和企业用户,明年初,Google还将推出Bard Advanced,让更多的普通用户用上最强的Gemini Ultra。
Google CEO Sundar Pichai在发布Gemini时说到:
每一次科技转变都是推动科学发现、加速人类进步和改善生活的机会。
我相信我们现在看到的与AI有关的转变将是我们一生中最深远的,远大于先前的行动装置或网络的转变。
想要实现AGI(通用人工智慧),就需要AI做到像人类一样从容地解决不同领域、不同模式的复杂任务,在这个过程中,除了基本计算、推理等基础能力,相对应的文字、影像、影片等多模态能力也要跟上。
DeepMind曾提出AGI的评估和分类的框架,前两个阶段分别是:
AGI-0:基本的人工智慧,能够在特定的领域和任务上表现出智慧,如图像辨识、自然语言处理等,但是不能跨领域和跨模态地进行学习和推理,也不能与人类和其他AI进行有效和自然的沟通和协作,也不能感知和表达情感和价值。
AGI-1:初级的通用人工智慧,能够在多个领域和任务上表现出智慧,如问答、摘要、翻译、对话等,能够跨领域和跨模态地进行学习和推理,能够与人类和其他AI进行基本的沟通和协作,能够感知和表达简单的情感和价值。
Gemini的展示,充分展现了它对各个模态互动的深刻理解,能看、能说、能推理、能够感知和表达简单的情感和价值,也让我们看到了AGI-1的潜在可能性。
(本文由 爱范儿 授权转载;首图来源:影片截图)
延伸阅读:
- Google 打造新一代 TPU v5p 和 AI 超级电脑,加速 Gemini 模型发展
- Pixel 8 Pro 升级内建 Gemini 模型,增添两个 AI 新功能、离线也能用
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。