不满足只当“显卡一哥”，NVIDIA 推出 Perfusion 文生图模型

AI与大数据 1小时前 0

▼

NVIDIA 做显卡太出名，差点让人忽略也是生成式 AI 巨头。近日 NVIDIA 发表论文披露名为 Perfusion 的文生图个人化学习模型。

Perfusion 是由 NVIDIA 和以色列特拉维夫大学合作研发，帮助自由创造产生更个人化更生动的图片，更符合提示词，且不易受原始训练图背景特征影响。

图形研究副总裁 Aaron Lefohn 曾描述 Perfusion 是“高度紧凑的技术……允许使用者将多种个人化元素（如特定泰迪熊和茶壶）组合至 AI 产生的单一视觉效果”。NVIDIA 使用“密钥锁定”新机制，简单说就是把图像产生模型注意力机制分成两部分：位置和内容。位置决定画出什么物体，内容决定物体外观模样。

密钥会固定位置，不让物体随意变化，如特定泰迪熊位置会与所有修改后泰迪熊一样。内容允许物体外观变化，如帮泰迪熊换衣服。Perfusion 文生图时可选择控制物体变化程度，较像原始物也能偏向使用者提示词。产生结果的历史纪录还能组合成一张图。

得益于密钥机制的先进性，宣称 Perfusion 产生的图片品质与 Stable Diffusion v1.5 版不相上下，Perfusion 还更个人化，能快速学习处理新概念，无需重新训练模型，是 Stable Diffusion 没有的能力。Perfusion 控制力也更强，视觉品质和语义控制间能取得平衡，还可组合多个概念（如同时产生特定泰迪熊和特定茶壶）。

总体来说，Perfusion 于个人化学习和控制创新，使文生图系统更容易自定义。可能很多人不知道，NVIDIA 其实生成式 AI 领域颇有建树，图像辨识、深度计算等产生任务都有开创性贡献。

5 月创办人黄仁勋大胆预测：“计算机业同时经历两种转型：加速计算和生成式 AI。各公司竞相将生成式 AI 塞入每个产品、服务和业务流程，价值兆美元的资料中心基础设施将升级至加速计算。”

生成式 AI 训练大规模神经网络，需高度复杂的算力，GPU 通用性较强，更适合大规模并行计算，且设计及制程成熟，正好是 NVIDIA 掌握 AI 大模型“命脉”的舒适圈。

从市占看来，NVIDIA 占 GPU 市场 84% 份额，研调机构 TrendForce 集邦谘询数据显示，如果以 NVIDIA A100 显卡处理能力计算，执行 ChatGPT 需有 3 万片 NVIDIA GPU，代表 NVIDIA 赚进超过 3 亿美元。但 NVIDIA 现在不满足只做显卡，而是将“天赋异禀”资源于生成 AI 模型领域尽情释放。

2018 年 NVIDIA 研究员率先提出生成式对抗网络 StyleGAN，是第一个高品质产生人脸的 GAN 模型，时隔一年，NVIDIA 发表第一个输入语义就能产生逼真图片的模型。类似“第一个”还有很多，现在 Perfusion 便是 NVIDIA 最新生成式 AI 成果。

Perfusion 一方面继续展示 NVIDIA 生成式 AI 的技术力，建立 NVIDIA 领导力和影响力，另一方面也回应业界和学术界需求，将来整合至 NVIDIA 产品和服务。NVIDIA 目前只发表论文，程式码等也很快就会公开，届时文生图 AI 模型会有更多选择。

（本文由爱范儿授权转载；图片来源：Nvidia）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

AI Nvidia 提示词文生图生成式 AI

相关文章