大神微调 Stable Diffusion,就能打造宝可梦新世界

大神微调 Stable Diffusion,就能打造宝可梦新世界

强大、公开且够简单的模型,最近很红的 Stable Diffusion 在文字产生图像以外也有无限创作性,最近 Lambda Labs 机器学习研究员 Justin Pinkney 微调模型,做出精灵宝可梦产生器。

下图是输入戴珍珠耳环的少女、欧巴马、川普、强生、龙猫、Hello Kitty后产生的宝可梦:

大神微调 Stable Diffusion,就能打造宝可梦新世界 AI与大数据 图2张

Lady Gaga、强生、普丁、梅克尔、川普、柏拉图:

大神微调 Stable Diffusion,就能打造宝可梦新世界 AI与大数据 图3张

(Source:The Verge)

耶稣:

除了常见角色和公共人物,还能输入文字描述产生想像的宝可梦,如骷髅祭司:

大神微调 Stable Diffusion,就能打造宝可梦新世界 AI与大数据 图4张

(Source:The Verge)

也可输入姓名或帐号名,产生自己的宝可梦形象。网友纷纷用自己的名字试验,看自己如果是宝可梦会长什么样子。

网友 Jo Barf Creepy 是宝可梦的话:

网友 Upbeatblue 是宝可梦的话:

网友 Onion-sama 是宝可梦的话:

陪我们长大的皮卡丘、妙蛙种子、喷火龙、树才怪、路卡利欧、梦幻经过产生器也变成新模样:

大神微调 Stable Diffusion,就能打造宝可梦新世界 AI与大数据 图5张

(Source:TechCrunch)

宝可梦产生器如何“产生”

Pinkney 展示宝可梦产生器的训练过程。Stable Diffusion 是很好用的通用模型,但要稳定输出特定风格不容易,通常要大量枯燥步骤,制作复杂文字提示库,或也能偷懒只微调图像产生模型。Pinkney 用宝可梦图片资料库微调原始 Stable Diffusion 模型。

首先构建资料库,含宝可梦图片和文字描述,如妙蛙种子是“红眼睛的绿色神奇宝贝图”,绿毛虫为“有红鼻子的绿色黄X玩具”。

大神微调 Stable Diffusion,就能打造宝可梦新世界 AI与大数据 图6张

▲ 宝可梦资料库。

当然文字描述也不是人工输入,而是用神经网络代劳,即图像描述模型 BLIP。这些文字还不完美,但也够用。然后他在 A6000 只花几小时训练 AI 模型,学习以宝可梦风格产生图片,但保留知识一段时间,最后过拟合资料库。

开始样本为正常图像,逐渐学得宝可梦风格,训练越多,就会呈现与原始提示不同的宝可梦:

大神微调 Stable Diffusion,就能打造宝可梦新世界 AI与大数据 图7张

微调很简单,但执行起来效果非常好,微调模型训练好后,无论给什么提示,都会产生新宝可梦。所以不必煞费苦心创作了,需要新宝可梦时,只要选择输出多个:

大神微调 Stable Diffusion,就能打造宝可梦新世界 AI与大数据 图8张

▲ 有翅膀的机械猫。

Pinkney 表示,欢迎大家复杂使用模型于新领域,这种小工具就是 Stable Diffusion 这类 AI 模型开源的优点。

One more thing

这模型引发热潮后,Pinkney 又在部落格补充细节。

他发现,模型竟然记住原始 Stable Diffusion 的通用知识,但它只是用有限资料库训练了几千步的模型。微调宝可梦时模型很快会过拟合,如果只以简单方式采样,模型就会产生胡言乱语式宝可梦,也就是说,灾难性遗忘训练的原始资料库。但 Stable Diffusion 训练期间保持模型指数移动平均(EMA)版本,通常是推理用。

如果使用 EMA 权重,其实是用原始模型和微调模型的平均值。事实证明,这对产生宝可梦不可或缺。还能直接平均新模型与原始模型权重以微调,控制产生宝可梦的数量。微调和平均可将原始内容与微调风格有效混合。

大神微调 Stable Diffusion,就能打造宝可梦新世界 AI与大数据 图9张

▲ 左边是完全微调,右边是只微调注意力层。

也能冻结模型不同部分微调,如上图是两种微调效果,只微调注意力层模型产生更正常的尤达大师,但不太擅长创造新宝可梦。

(本文由 雷锋网 授权转载;首图来源:Justin Pinkney)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。