输入文字就能生成高解析图片!OpenAI 发表新版 DALL·E 2 AI 系统

输入文字就能生成高解析图片!OpenAI 发表新版 DALLE 2 AI 系统

AI 人工智慧的发展一日千里,并在许多方面展现超越人类的能耐,AI 不但打败了世界棋王,也击溃电竞冠军团队(例如,Open AI 透过自家开发的 Bots 让《Dota 2》游戏顶尖高手在一场表演赛中首尝败北的滋味)。不仅如此,AI 还会写文章,由 OpenAI 研究实验室推出的 GPT-2 及 GPT-3 文字产生预训练语言模型,因为能书写出媲美人类文笔的文章,因而沦为撰写假新闻的利器。如今,OpenAI 推出新一代的 DALLE 2 系统,只要透过一段描述文字便能叫 AI 帮你产生各种图片。

去年 1 月 Open AI 推出基于 GPT-2/GPT-3 语言模型与 CLIP 影像辨识系统的 DALLE,可将使用者输入文字转变成生动的超现实主义图片。例如,使用者可以透过文字描述,要求 DALLE 产生一张太空人在外太空骑马的图片,或是两只泰迪熊在月球上致力新 AI 研究的图片,所以其超现实的程度甚至媲美超现实主义画家达利(Salvador Dal)。“DALLE”这个字就是达利与迪士尼电影《瓦力》(WALL-E)机器人这两个名字的组合。

但第一代的 DALLE 图片像素只有 256256,如今第二代的 DALLE 2 图片画质可达 10241024,所以解析度与低延迟的表现更胜一筹。如今 DALLE 2 更新了 CLIP 系统,并改名叫 unCLIP。该新系统支援名为扩散作用(diffusion)的处理程式,该程式会先从随机点形成的图案开始,一旦取得更具体的描述重点后,会渐近地转变成图片。

除了产生新图片外,使用者还可透过 DALLE 2 局部变更现有图片中的一部分,例如在水池中新增一只鸭子或去除某个物件,系统同时会将阴影、反光及材质等因素纳入考量。使用者还可以根据原始图片,发挥创意地额外产生不同风格、内容或角度的变体图片。

如同语言模型会被拿来产生假新闻一样,DALLE 2 之类的图片产生工具也有可能遭到滥用。对此,OpenAI 提供了一些到位的保护机制,包括使用者无法根据姓名生成人像照,也无法生成或上传令人反感的内容。再者,除了仇恨、骚扰、暴力、自残、裸露及非法活动等主题严禁涉及外,也禁止产生包括假新闻、政局、医疗乃至疾病相关的图片。

未来,Open AI 有可能不会直接公开推出 DALLE 2,而会提供给第三方 App 使用。

  • OpenAI’s Dall-E 2 generates all kind of images from text input faster and better

(首图来源:OpenAI)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。