Google Brain 推出新的文字转图像模型──Imagen
▼
文字转图像界又出新工具!这次的主角是 Google Brain 推出的 Imagen,再一次突破人类想像力,将文字转图像的逼真度和语言理解提高到前所未有的新高度!比前段时间 OpeAI 家的 DALLE 2 更强!
话不多说,我们来欣赏这位AI画师的杰作:
▲ A dragon fruit wearing karate belt in the snow.(在雪地里戴着空手道腰带的火龙果。)(Source:Google,下同)
▲ A marble statue of a Koala DJ in front of a marble statue of a turntable. The Koala has wearing large marble headphones.(戴着巨大耳机的无尾熊DJ大理石雕像站在一个大理石转盘前。)
▲ An art gallery displaying Monet paintings. The art gallery is flooded. Robots are going around the art gallery using paddle boards.(陈列莫内画作的美术馆淹水了,机器人正在使用桨板在美术馆里划船。)
▲ A giant cobra snake on a farm.The snake is made out of corn(农场里有一根巨大玉米构成的眼镜蛇。)
▲ Teddy bears swimming at the Olympics 400m Butterfly event.(泰迪熊在奥运400公尺蝶泳项目中游泳。)
以及更多……
相同的文字提示,Imagen也可以产生不同类别的图像。比如下面这些图中,各组图片在物品的颜色、空间位置、材质等范畴上都不太相同。
Imagen的工作原理
Imagen的可视化流程
Imagen基于大型transformer语言模型在理解文本方面的能力,以及扩散模型在产生高画质图像方面的能力。
在用户输入文本要求后,如“一只戴着蓝色格子贝雷帽和红色圆点高领毛衣的金毛犬”,Imagen先是使用一个大的冻结(frozen)T5-XXL编码器将这段输入文本编码为嵌入。然后条件扩散模型将文本嵌入映射到6464的图像中。
Imagen进一步利用文本条件超解析度扩散模型对6464的图像进行升采样为256256,再从256256升到1,0241,024。结果表明,带噪声调节增强的级联扩散模型在逐步产生高画质图像方面效果很好。
▲ 输入“一只戴着蓝色格子贝雷帽和穿着红色圆点高领毛衣的黄金猎犬”后Imagen的动作。
▲ 6464产生图像的超解析度变化。对于产生的6464图像,将两种超解析度模型分别置于不同的提示下,产生不同的升采样变化。
大型预训练语言模型级联扩散模型
Imagen使用在纯文字语料中进行预训练的通用大型语言模型(例如T5),它能够非常有效地将文本合成图像:在Imagen中增加语言模型的大小,而不是增加图像扩散模型的大小,可以大大地提高样本画质和图像─文本对齐。
Imagen的研究突出体现在:
- 大型预训练冻结文本编码器对于文本到图像的任务来说非常有效。
- 缩放预训练的文本编码器大小比缩放扩散模型大小更重要。
- 引入一种新的阈值扩散采样器,这种采样器可以使用非常大的无分类器指导权重。
- 引入一种新的高效U-Net架构,这种架构具有更高的计算效率、更高的记忆体效率和更快的收敛速度。
- Imagen在COCO数据集上获得了最先进的FID分数7.27,而没有对COCO进行任何训练,人类评分者发现,Imagen样本在图像-文本对齐方面与COCO数据本身不相上下。
引入新基准DrawBench
为了更深入地评估文本到图像模型,Google Brain引入了DrawBench,这是一个全面的、具有挑战性的文本到图像模型基准。借由DrawBench,他们比较了Imagen与VQ-GAN+CLIP、Latent Diffusion Models和DALL-E 2等其他方法,发现人类评分者在比较中更喜欢Imagen而不是其他模型,无论是在样本质量上还是在图像─文本对齐方面。
- 并排人类评估。
- 对语意合成性、基数性、空间关系、长文本、生词和具有挑战性的提示几方面提出了系统化的考验。
- 由于图像─文本对齐和图像保真度的优势,相对于其他方法,用户强烈倾向于使用Imagen。
▲ Imagen与DALL-E 2、GLIDE、VQ-GAN+CLIP和Latent Diffusion Models在DrawBench上的比较:用户对图像─文本对齐和图像逼真度的偏好率(95%置信区间)。
Imagen与DALL-E 2产生图像的比较图例:
▲ “外星人绑架乳牛,将其吸入空中盘旋”(上);“一个被猫绊倒的希腊男性雕塑”(下)。
对于涉及颜色的文本提示,Imagen产生的图像也比DALL-E 2更优。DALL-E 2通常很难为目标图像分配正确的颜色,尤其是当文本提示中包含多个对象的颜色提示时,DALL-E 2会容易将其混淆。
▲ Imagen和DALL-E 2从颜色类文字转图像的比较。“一本黄X书籍和一个红花瓶”(上);“一个黑色苹果和一个绿色双肩包”(下)。
而在带引号文本的提示方面,Imagen产生图像的能力也明显优于DALL-E 2。
▲ Imagen和DALL-E 2从带引号文字转图像的比较。“纽约天空上有烟火写成的“Hello World”字样”(上);“一间写着Time to Image的店面”(下)。
打开了潘朵拉盒子?
像Imagen这样从文字转图像的研究面临着一系列伦理挑战。
首先,文本─图像模型的下游应用多种多样,可能会从多方面对社会造成影响。Imagen以及一切从文字转图像的系统都有可能被误用的潜在风险,因此社会要求开发方提供负责任的原始码和展示。基于以上原因,Google决定暂时不发布程式码或进行公开展示。而在未来的工作中,Google将探索一个负责任的外部化框架,进而将各类潜在风险最小化。
其次,文本到图像模型对数据的要求导致研究人员严重依赖于大型的、大部分未经整理的、网络抓取的数据集。虽然近年来这种方法使演算法快速进步,但这种性质的数据集往往会夹带社会刻板印象、压迫性观点、对边缘群体有所贬损等“有毒”资讯。
为了去除噪音和不良内容(如色X图像和“有毒”言论),Google对训练数据的子集进行过滤,同时Google还使用了众所周知的LAION-400M数据集进行过滤对比,该数据集包含网络上常见的不当内容,包括色X图像、种族主义攻击言论和负面社会刻板印象。Imagen依赖于在未经策划的网络规模数据上训练的文本编码器,因此继承了大型语言模型的社会偏见和局限性。这说明Imagen可能存在负面刻板印象和其他局限性,因此Google决定,在没有进一步安全措施的情况下,不会将Imagen发布给大众使用。
(本文由 雷锋网授权转载;首图来源:Google)
延伸阅读:
- 输入文字就能生成高解析图片!OpenAI 发表新版 DALLE 2 AI 系统
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。