模型开源又强大?神秘公司成了超越巨头和学阀的 AI“第三势力”

模型开源又强大?神秘公司成了超越巨头和学阀的 AI“第三势力”

AI 生成图片是最近热门的新技术。红到什么程度?有公司开始“套壳”出道。本周某新创 WriteSonic“抄袭”知名模型 Stable Diffusion,做出 AI 画图产品 Photosonic AI

这还没完,这家公司居然把产品堂而皇之发到产品社群 Product Hunt,甚至一度冲到第二名。Stable Diffusion 完全免费开源,所有程式码都在 GitHub 公开,任何人都可使用──前提是遵循原专案 CreativeML Open RAIL-M 许可证。

开发者 Louis Castricato 发现,WriteSonic 并没有注明许可证,Photosonic AI 任何地方也没标注技术来源。他对 WriteSonic 喊话:“希望你们在 VC 面前没有假装这东西是自己做的。”事情还没完全闹开,不过 Product Hunt 有不少人质疑。截稿前 WriteSonic 创始人都未回应。

Stable Diffusion 一周前才公开,这次抄袭事件反映出射出这项 AI 技术有多红、Stable Diffusion 有多受欢迎。AI 图片生成技术有 DALLE、Midjourney、DALLE mini(现用名 Craiyon)、Imagen、TikTok AI 绿幕等知名产品。

Stable Diffusion 有强大生成能力和泛用性,模型可直接用消费级显卡执行,生成速度也相当快。免费开放更让 AI 图片生成模型不再是少数人的玩具。

在强者如云、巨头纷纷入局的 AI 图片生成领域,Stable Diffusion 背后的“神秘”机构 Stability AI 也像“世外高僧”,创办人不是太出名,创办故事和融资细节也不公开;加上免费开源 Stable Diffusion 的慈善行为,更增加对这家神秘 AI 机构的兴趣。

今天就来深入了解一下 Stable Diffusion 和 Stability AI,在 AI 领域异军突起的“第三势力”。

消费级显卡秒速生成,完全开源

Stable Diffusion 是文字转图片的生成模型,只要几秒就能生成比同类技术解析度、清晰度更高,更具“真实性”或“艺术性”的图片。

开发领导者有两位,分别是 AI 影视剪辑技术创业公司 Runway 的 Patrick Esser,和慕尼黑大学机器视觉学习组的 Robin Romabach。计划技术基础主要来自开发者在计算机视觉大会 CVPR22 合作发表的潜伏扩散模型(Latent Diffusion Model)研究。

计划也得到外部开发社群及 Stability AI 机构生成技术团队支援,且从 DALLE 2、Imagen 等巨头模型计划整合经验参考。发表时还专门感谢这些“竞品”。

模型开源又强大?神秘公司成了超越巨头和学阀的 AI“第三势力” AI与大数据 图2张

(Source:Stability AI)

训练方面,模型采用 4 千台 A100 显卡集群,花了一个月训练。训练资料库来自大规模 AI 开放网络计划旗下的注重“美感”子集 LAION-Aesthetics,有近 59 亿条图片─文字平行数据。

虽然训练过程的算力要求特别高,Stable Diffusion 用起来还是相当亲民:可用普通显卡执行,即使记忆体不到 10GB,仍可几秒内生出高解析度的图片。

模型专门针对消费级计算设备最佳化,意味更多入门级研究者、内容创作者及普通大众,都可频繁接触和使用 Stable Diffusion,感受 AI 内容生成技术的最尖端,为工作和生活创造便利和乐趣。

8 月初团队先大范围公测,回响非常热烈,受大批研究者和测试用户欢迎。于是团队很快就在 8 月 29 日公开 Stable Diffusion 模型,只要遵循 OpenRAIL-M 许可证规定,且不挪用至非法和非道德场合,任何人都可商业或非商业使用、改造和再发表模型。

Stable Diffusion 并不是 AI 内容创作、AI 艺术领域的第一个模型,很多人都以为它只是跟随者。

但不是这样。

模型开源又强大?神秘公司成了超越巨头和学阀的 AI“第三势力” AI与大数据 图3张

(Source:Stability AI)

首先,和其他开放程度相似的模型(如 Craiyon、Disco Diffusion 等)相比,Stable Diffusion 结果更写实,完全不亚于 DALLE、Imagen 等巨头开发的超大模型。

其他同类模型往往只选择一种风格,如 TikTok AI 绿幕模型,艺术风格就明显偏油画;Midjourney 偏现代抽象艺术作品;Googlre Imagen 有明显写实+渲染动画风格,DALLE mini 则是迷因图风。

且 Stable Diffusion 完全开源,以及商业/非商业的超高自由度,成为“离群者”(outlier),和 DALLE、Imagen 等封闭/半封闭产品间形成巨大鸿沟。任何人都可不花钱,只要复制 Stable Diffusion 原始码,按照喜欢的方式研究,并处理需要的文字生成图片任务,甚至开发独立应用或服务。

从 Stability AI 公开模型后,有相当多人用它完成艺术创作,开发各式各样 demo、产品及非常有趣的小计划。如下面 Anthony Cao 开发的设计软件 Figma 工具,就是藉 Stable Diffusion 的能力,一句话生成用户介面元素。

模型开源又强大?神秘公司成了超越巨头和学阀的 AI“第三势力” AI与大数据 图4张

(Source:Anthony Cao)

Xander Steenbrugge 更厉害,大量尝试后锁定 36 条连续文字输入提示,成功调教 Stable Diffusion 模型,输出非常震撼的影片。他取名为〈穿越时空的旅行〉:

AI 学术大老 Andrej Karpathy 卸任特斯拉 AI 总监后,于 YouTube 频道开了 2 小时多的机器学习 Python 入门课。有趣的是除了这堂课,所有影片都是用 Stable Diffusion 生成的。

就连“竞品”Midjourney 都整合 Stable Diffusion 开发功能,让用户同时用两个模型生成图片:

模型开源又强大?神秘公司成了超越巨头和学阀的 AI“第三势力” AI与大数据 图5张

就这样,Stable Diffusion 做到“开源”和“高品质结果”两全其美,正是它最受关注的原因。特别是开源属性,不仅打开 AI 艺术创作的新大门,更重要的是这扇门比以往的门更宽、门槛更低。

公开同时,Stability AI 也上线新工具网站,名为 DreamStudio Lite,帮助更多普通用户和创意玩家方便使用 Stable Diffusion 模型。网页下方有个文字框,用户可直接输入提示;网页右边工具栏还能调节图大小、扩散模型步骤数量、生成图片的数量等。顾名思义,现在 DreamStudio Lite 只是轻量版,Stability AI 团队正在加速开发高级功能,包括使用设备显卡、动画支援、更新生成、插值修复等。

Stable Diffusion 让创作这件事不再只是有高级创意训练的人专属的游戏,让更多人受益。从这角度看,力推模型开发和开源的背后组织 Stability AI 厥功至伟。然而很多人并不熟悉这家名不见经传的神秘机构。

延续 OpenAI 火种,成为“第三种力量”

约 10 年前,深度学习 AI 浪潮刚起步,研究者一边亲眼目睹潮流到来,一边却异常尴尬苦闷。当时算力和资金限制都非常高,研究者只有两种选择:不是停在学术界,但没有任何算力可用,不然就跳槽到大公司,签一堆 NDA,并在大公司产品团队里工作,很不自由,做出来的东西也是公司的,不能贡献社会。

OpenAI 的出现,在学术和业界之外创造了“第三种”可能性:既有学术界相对轻松自由的环境,又有巨头公司近乎无限的现金和充足算力,且以推动技术疆界扩展,造福社会为核心。

然而约 2 年前,OpenAI 累积的问题突然爆发。非营利模式难以为继,机构也终于成立营利部门。那段时间一波大神级核心研究员,由于无法接受这一转型,愤然离职。

后来的 OpenAI 还是推出了包括 GPT-3、DALLE 等知名作品,但名声早已大不如前。特别是 DALLE 二代,明明是当时最领先的 AI 图片生成技术之一,在网络的影响力却不如 DALLE mini──由一个完全无关的个人开发者所做的业余开源计划。

对于 OpenAI 的窘境,“超级富豪”Emad Mostaque 看在眼里,疼在心里。

此人身价究竟几何,并没有特别清楚详尽的资料。已经公开的资讯显示,他有至少 20 年的投资基金工作经历,曾经在多家技术和基金公司担任工程师、战略分析师、首席投资长等职位。

在累积了巨额财富之后,对于利用自己的技术和资金来开展慈善和推动社会平等、技术普及等事业,这位英华人的兴趣越来越高。

他在 2019 年创办了一家采用技术降低手机套餐成本费用的公司,新冠袭来后又出资并亲自主导在史丹佛大学组建了一个非营利性质的大数据平台计划,与联合国合作,旨在辅助各地区官方制定防疫政策。

而在 2020 年创办的 Stability AI,则是他的“慈善”事业的最新篇章。根据并不充分的资料,这家机构早期的绝大部分资金都来自 Mostaque 本人。

从这个角度来看,他的身分确实有点像马斯克之于 OpenAI。

他决定自己接过使命,成立一家和 OpenAI 早期的非商业模式差不太多,但开放程度更高的机构。总而言之,就是要比 OpenAI 更“open”。

借由 Stability AI,Mostaque 希望能够延续 OpenAI 缔造并发扬光大的 AI 科研“第三种力量”,同时避免重蹈其覆辙。

这家新机构也确实在贯彻开放、公益的 OpenAI 早期科研思路:它的第一个对外亮相的产品/技术,就是免费、开源、几乎没有任何商业味道的 Stable Diffusion 模型。

Mostaque 曾经表示,目前大约八成的 AI 研究资金全都流向了下一代技术,而这些技术从构思到开发,再到测试和发布的整个过程里,往往都是高度封闭的。

一个最典型的案例就是 Google。

做为硅谷大公司里面投身 AI 基础科研最早,投资额最大的公司,Google 近年开发的 PaLM、LaMDA、Imagen 等模型的封闭性越来越强,使用门槛相当之高,几乎没有开放给大众的可能性。该公司的 AI 道德委员会,则被一些前委员、公司前员工以及第三方研究人士指责为“没用”,反而成为公司内部 AI 研究部门非道德问题的“遮羞布”。

Mostaque 就在想,算力、资金,和大众参与这三个问题,能否一同解决?“这里一定有更好的办法。”

幸运的是,他和团队成功做到了这一点。

有一位网友甚至将 Mostaque 形容为 AI 科研领域的“Gigachad”(超级猛男):“他为人类未来做出的贡献,比其他顶级 AI 公司加起来还要多。”

AI 技术分析师 Alberto Romero 则指出,Stability AI 的工作之重要性在于:人们不想看到其他人如何用最先进的技术创造出厉害的艺术作品,他们真正想要的是能够自己上手尝试。

而 Stability AI 不光把程式码和模型权重放出来,甚至还更进一步,开发了一个相当友好的无程式码、“开袋即食”的网站DreamStudio Lite,让那些不想、也不会写程式的人都能够使用。

借助 Mostaque 之前做新冠大数据计划时积累的人脉,Stability AI 目前已经和联合国达成了合作,成为了地区间、学校间和跨国公司之间 AI 技术研发合作的桥梁。

最初,整个团队还是在 Discord 聊天应用上运作的──目前很大程度上仍然如此。但今天的 Stability AI,似乎已经超越了 OpenAI 的范畴和意义,在包括学术和工业界的整个 AI 研究和应用领域都受到了巨大的欢迎。借由 Stable Diffusion,更多人体会到了 AI 图片生成技术的强大和美好。最尖端的 AI 模型,不再是少数人独享的玩具,更多用户都能够享受和利用这项技术。

Stability AI 的口号是“AI by the people, for the people.”它能做到吗?

(本文由 品玩 授权转载;首图来源:Stability AI)

延伸阅读:

  • 演算法鬼斧神工,AI 画作的神来之笔
  • 特斯拉自动驾驶之父离职教线上课程,AI 大老原来热爱授业解惑
  • 输入文字就能生成高解析图片!OpenAI 发表新版 DALLE 2 AI 系统

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。