输入文字就能生成高解析图片！OpenAI 发表新版 DALL·E 2 AI 系统

AI与大数据 6小时前 0

▼

AI 人工智慧的发展一日千里，并在许多方面展现超越人类的能耐，AI 不但打败了世界棋王，也击溃电竞冠军团队（例如，Open AI 透过自家开发的 Bots 让《Dota 2》游戏顶尖高手在一场表演赛中首尝败北的滋味）。不仅如此，AI 还会写文章，由 OpenAI 研究实验室推出的 GPT-2 及 GPT-3 文字产生预训练语言模型，因为能书写出媲美人类文笔的文章，因而沦为撰写假新闻的利器。如今，OpenAI 推出新一代的 DALLE 2 系统，只要透过一段描述文字便能叫 AI 帮你产生各种图片。

去年 1 月 Open AI 推出基于 GPT-2/GPT-3 语言模型与 CLIP 影像辨识系统的 DALLE，可将使用者输入文字转变成生动的超现实主义图片。例如，使用者可以透过文字描述，要求 DALLE 产生一张太空人在外太空骑马的图片，或是两只泰迪熊在月球上致力新 AI 研究的图片，所以其超现实的程度甚至媲美超现实主义画家达利（Salvador Dal）。“DALLE”这个字就是达利与迪士尼电影《瓦力》（WALL-E）机器人这两个名字的组合。

但第一代的 DALLE 图片像素只有 256256，如今第二代的 DALLE 2 图片画质可达 10241024，所以解析度与低延迟的表现更胜一筹。如今 DALLE 2 更新了 CLIP 系统，并改名叫 unCLIP。该新系统支援名为扩散作用（diffusion）的处理程式，该程式会先从随机点形成的图案开始，一旦取得更具体的描述重点后，会渐近地转变成图片。

除了产生新图片外，使用者还可透过 DALLE 2 局部变更现有图片中的一部分，例如在水池中新增一只鸭子或去除某个物件，系统同时会将阴影、反光及材质等因素纳入考量。使用者还可以根据原始图片，发挥创意地额外产生不同风格、内容或角度的变体图片。

如同语言模型会被拿来产生假新闻一样，DALLE 2 之类的图片产生工具也有可能遭到滥用。对此，OpenAI 提供了一些到位的保护机制，包括使用者无法根据姓名生成人像照，也无法生成或上传令人反感的内容。再者，除了仇恨、骚扰、暴力、自残、裸露及非法活动等主题严禁涉及外，也禁止产生包括假新闻、政局、医疗乃至疾病相关的图片。

未来，Open AI 有可能不会直接公开推出 DALLE 2，而会提供给第三方 App 使用。

OpenAI’s Dall-E 2 generates all kind of images from text input faster and better

（首图来源：OpenAI）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

相关文章