不满足只当“显卡一哥”,NVIDIA 推出 Perfusion 文生图模型
▼
NVIDIA 做显卡太出名,差点让人忽略也是生成式 AI 巨头。近日 NVIDIA 发表论文披露名为 Perfusion 的文生图个人化学习模型。
Perfusion 是由 NVIDIA 和以色列特拉维夫大学合作研发,帮助自由创造产生更个人化更生动的图片,更符合提示词,且不易受原始训练图背景特征影响。
图形研究副总裁 Aaron Lefohn 曾描述 Perfusion 是“高度紧凑的技术……允许使用者将多种个人化元素(如特定泰迪熊和茶壶)组合至 AI 产生的单一视觉效果”。NVIDIA 使用“密钥锁定”新机制,简单说就是把图像产生模型注意力机制分成两部分:位置和内容。位置决定画出什么物体,内容决定物体外观模样。
密钥会固定位置,不让物体随意变化,如特定泰迪熊位置会与所有修改后泰迪熊一样。内容允许物体外观变化,如帮泰迪熊换衣服。Perfusion 文生图时可选择控制物体变化程度,较像原始物也能偏向使用者提示词。产生结果的历史纪录还能组合成一张图。
得益于密钥机制的先进性,宣称 Perfusion 产生的图片品质与 Stable Diffusion v1.5 版不相上下,Perfusion 还更个人化,能快速学习处理新概念,无需重新训练模型,是 Stable Diffusion 没有的能力。Perfusion 控制力也更强,视觉品质和语义控制间能取得平衡,还可组合多个概念(如同时产生特定泰迪熊和特定茶壶)。
总体来说,Perfusion 于个人化学习和控制创新,使文生图系统更容易自定义。可能很多人不知道,NVIDIA 其实生成式 AI 领域颇有建树,图像辨识、深度计算等产生任务都有开创性贡献。
5 月创办人黄仁勋大胆预测:“计算机业同时经历两种转型:加速计算和生成式 AI。各公司竞相将生成式 AI 塞入每个产品、服务和业务流程,价值兆美元的资料中心基础设施将升级至加速计算。”
生成式 AI 训练大规模神经网络,需高度复杂的算力,GPU 通用性较强,更适合大规模并行计算,且设计及制程成熟,正好是 NVIDIA 掌握 AI 大模型“命脉”的舒适圈。
从市占看来,NVIDIA 占 GPU 市场 84% 份额,研调机构 TrendForce 集邦谘询数据显示,如果以 NVIDIA A100 显卡处理能力计算,执行 ChatGPT 需有 3 万片 NVIDIA GPU,代表 NVIDIA 赚进超过 3 亿美元。但 NVIDIA 现在不满足只做显卡,而是将“天赋异禀”资源于生成 AI 模型领域尽情释放。
2018 年 NVIDIA 研究员率先提出生成式对抗网络 StyleGAN,是第一个高品质产生人脸的 GAN 模型,时隔一年,NVIDIA 发表第一个输入语义就能产生逼真图片的模型。类似“第一个”还有很多,现在 Perfusion 便是 NVIDIA 最新生成式 AI 成果。
Perfusion 一方面继续展示 NVIDIA 生成式 AI 的技术力,建立 NVIDIA 领导力和影响力,另一方面也回应业界和学术界需求,将来整合至 NVIDIA 产品和服务。NVIDIA 目前只发表论文,程式码等也很快就会公开,届时文生图 AI 模型会有更多选择。
(本文由 爱范儿 授权转载;图片来源:Nvidia)
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。