人类忙着内耗竞争时,AI 已完成近年最大进化

人类忙着内耗竞争时,AI 已完成近年最大进化

AI人工智慧)不太让人兴奋有段时间了,人们虽躲不开,但也发觉无论 AI 技术进步或商用似乎都遇到瓶颈。已经很多年没有像 AlphaGo 那时惊艳,业界也没有像语音助理普及时的机会,甚至许多投资人没什么新鲜故事可用时,才不情愿转身回头看看 AI 界。

不过就在全人类忙着竞争的2022年,AI又经历近年来最大进化。

突然翻红

10月18日因推出Stable Diffusion文字─图像AI产生模型大红的人工智慧公司Stability.Ai,宣布完成1.01亿美元种子轮融资,估值达10亿美元,成为独角兽新创,距成立仅两年。即便以科技网络产业发展标准看,Stability.Ai成长速度也很惊人,是今年全球AI产业爆发式增长的缩影,旗下Stable Diffusion开源模型风靡全球不到两个月。

疾风骤雨的进化堪称革命,尤其全球经济转弱的背景下,与所有革命一样,AI革命也不是一夕间成功。

人们一直有个梦想,即用AI技术拓展人类智慧、知识和创造力的边界,但人脑复杂结构的学习能力远超过构建AI的能力,于是AI只能透过各种特定深度学习模型单点突破特定领域,如AlphaGo学围棋,又如天文大数据帮助寻找脉冲星。

AIGC即基于AI能力的内容创作(包括文字、图片和影片),也是重要类别,今年以前囿于核心技术局限性,这领域一直不温不火,因AI并没有点石成金法术,不具人类平空创造的能力。AI深度学习训练并不是有自我意识的学习,而是收集大量样本让AI总结规律,根据人类指令再生产内容,同时受核心演算法、硬件条件、资料库样本等多方限制。

人类忙着内耗竞争时,AI 已完成近年最大进化 AI与大数据 图2张

▲ 2018年神经网络产生的作品,研究员Robbie Barrat用大量裸T绘画(主要是女性)训练而成。(Source:Robbie Barrat)

今年以前AIGC领域使用最多的演算法模型名为对抗生成网络GAN(Generative adversarial networks),顾名思义就是让AI两个程式互比,产生最接近人类心中的正确形象。但这演算法有个严重问题,为程式比较标准是现成样本,产生内容是无限接近模仿已有内容,而模仿,代表AI无法自己创作。

人类忙着内耗竞争时,AI 已完成近年最大进化 AI与大数据 图3张

(Source:Google Developers)

GAN的缺点最终被Diffusion扩散化模型克服,就是今年陆续涌现的Stable Diffusion开源模型等众多AIGC图片产生模型的技术核心。

Diffusion扩散化模型原理类似帮照片去杂讯,学习过程理解有意义的图片如何产生,因此Diffusion模型产生图片比GAN模型精确度更高,更符合人类视觉和审美逻辑,同时样本数量和深度学习时长累积,Diffusion模型展现出对艺术表达风格更佳的模仿能力。

人类忙着内耗竞争时,AI 已完成近年最大进化 AI与大数据 图4张

(Source:Towards Data Science)

今年初引起广泛关注的Disco Diffusion到DALL‧E 2、Midjourney等都是基于Diffusion模型,拿到融资的Stable Diffusion最受欢迎。Stability.Ai拥护科技社群氛围和认同技术中立原则,主动开放原始码,不仅方便人们在终端运算(普通消费级显卡就能满足Stable Diffusion硬件要求),还有魔法般的体验:打开网址,输入想要图片的关键字,等几分钟,模型就会产生完成度非常高的图像,让普通人使用最尖端AI技术的门槛降到最低,上线后仅官方平台DreamStudio制作的生成图片就超过1.7兆张。

AIGC沉寂许久的革命火种,瞬间燎原

绚烂的蓝海

以Stability.Ai为代表的AIGC图片产生模型如此短时间发展就极为成熟,预告从传统设计绘图、插画、游戏视觉、电子商务等领域到元宇宙和虚拟实境,都有巨大发展潜力。

人类忙着内耗竞争时,AI 已完成近年最大进化 AI与大数据 图5张

▲ 输入“AI wins”后DreamStudio基于Stable Diffusion产生的图像。

想像一下,未来VR / AR虚拟世界,脑海想到的画面可藉AI帮助即时渲染,将对娱乐和取得资讯的方式产生多大颠覆?

但这不是市场经济大环境极低迷之际投赞成票的全部原因,潜在商业性固然吸引人,但更值得投资的是AI技术。革命尚未完结,下一章已向我们走来,就是文字产生影片。从本质讲,影片就是静态图片连续播放,随着AI图片产生技术日益成熟,许多人开始专注产生影片,9月Meta和Google先后公布AIGC最前线领域的新成果。

Meta模型名为Make-A-Video,学习大量文本─图像组合样本和无标记影片理解真实世界物体运动逻辑,Make-A-Video能初步在构建图像的基础上让图动起来,同时有理解3D结构的能力。

人类忙着内耗竞争时,AI 已完成近年最大进化 AI与大数据 图6张

(Source:论文)

imagen video模型则透过称为联级扩散系列模型产生影片。先以基础扩散模型产生解析度较低影片,然后再用一系列时间、空间超解析度模型提升解析度和帧数。

人类忙着内耗竞争时,AI 已完成近年最大进化 AI与大数据 图7张

横向比较,imagen解析度1,280768高于Make-A-Video,长度也略长。

人类忙着内耗竞争时,AI 已完成近年最大进化 AI与大数据 图8张

(Source:论文)

突破还不只这些,另一个Phenaki AI影片产生模型(也来自Google团队)公布根据文本产生可变时长影片的技术,也就是从文本提炼故事情节并转为影片的能力。Phenaki示范影片基于几百个单词组成一连串有前后逻辑的指令,产生一支2分多钟影片,充满镜头感、丰富情节和转场的故事雏形,假以时日势必对影视相关工作如网络平台、电视电影等产生不小冲击。

人类忙着内耗竞争时,AI 已完成近年最大进化 AI与大数据 图9张

产生影片模型尚在起步阶段,运动细节、画面精细度、不同物体和人的互动等还显稚嫩,从解析度到画质也有浓浓人工智慧痕迹,然而回想AI图片产生模型同样经历过从群嘲到逆袭,未尝不是AIGC革命下一个高潮即将来临的征兆。

剧变下的争议

剧烈变化总是伴随争议,以Stable Diffusion为首的AIGC革命“图像阶段”也如此,笔者试着归纳成几个问题并简单回答。

1. AI产生内容的版权问题该如何界定?

内地着作权法规定只有自然人或组织可认定为作者,因此AI产生内容没有着作权实体。如果没有更多协定,AI产生内容可任意使用,商用也可以。Midjourney、DALL‧E等都明确表示用户拥有产生作品的所有权。

人类忙着内耗竞争时,AI 已完成近年最大进化 AI与大数据 图10张

人类忙着内耗竞争时,AI 已完成近年最大进化 AI与大数据 图11张

▲ stability.ai回答版权问题。

很多AI产生技术深度学习训练的资料库可能含版权内容,但导致使用者有侵权可能性非常低,因产生内容充满高度随机和不确定性,即使有版权争议,举证也极度困难。

2. AI产生内容是否有艺术性? 如果有,该如何评定?

AI产生内容是否有艺术性半年前还是个无聊问题,但〈Thtre d’Opra Spatial〉(太空歌剧院)得奖后,人们开始谈论。总体来说,AI产生内容不是创作,受模型演算法和资料库样本容量影响,这也是许多人声称AI产生内容“没有灵魂”的原因。

然而仅把AI产生技术看成纯工具也不公平,因它不仅会模仿,且演算法和样本一起提供人类可能想不到的视角。现有AI产生图像技术已让人们进入图像创作的门槛变得极低,艺术性欣赏或许该从更细角度入手,如NFT之于传统艺术品,价值需经市场检验,艺术品市场也处于理解和接受的初阶。

3. AIGC革命的“图像阶段”对绘图工作者和艺术创作者来说代表什么?

AI产生技术“平民化”,将来中低阶绘图和市场会被AI取代,大批腰部以下绘画工作者、插画师、设计师等都会失业。若AI产生图像越来越丰富逼真,算根本上解构商业图库赖以维生的经营模式──如果电脑可产生图片,谁要花钱买图库?

人类忙着内耗竞争时,AI 已完成近年最大进化 AI与大数据 图12张

▲ Gettyimages的AI产生图像使用声明。

但AI产生技术同样拓展人们对绘画工具的理解。对艺术创作者来说,AI产生技术有利基于自身理念(而不是技术)创造更多更具创造性的作品。未来将是创作者创造力的比拼,因AI可“消除外行人的表达障碍”(Bjrn Ommer 所说,他的团队开发了Stable Diffusion基础演算法)。

4. AI产生内容如何监管,防止假讯息传播?

秉持技术中立态度的研究者如Stability.Ai会尽量减少控制干预,开放和充分讨论的社群将逐步形成资讯传播的监督机制。“消费者需为如何使用技术负责,包括道德和法律性。”CEO Emad Mostaque受访时说。

尽管深度学习资料库多经严格筛选,筛掉色X、暴力、恐怖等内容,但刻板印象、种族歧视、性别歧视等问题无法根除,更重要的是,如何界定偏见对伦理学仍是颇具争议的问题,正因如此,Google决定排除风险前延后发表imagen video模型,许多已发表模型选择为产生作品加上不可去除的浮水印避免争议。

AIGC革命如火如荼进行,不是未来式,而是现在进行式。我们都身处其中。现在就是未来。

(本文由 品玩 授权转载;首图来源:Stability.Ai)

延伸阅读:

  • 模型开源又强大?神秘公司成了超越巨头和学阀的 AI“第三势力”

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。