估值 20 亿美元的“笑脸”正在拆掉 OpenAI 的围墙
▼
ChatGPT 引发的人工智慧风潮还在猛烈吹袭,但各角度看,都是巨头争霸场:更大模型、更强算力、更多用户、更雄厚资金,都成为想加入角逐的门票。同时核心技术研究也从开放逐渐走向封闭。高墙筑起过程,也有新创公司想高举旗帜来场革命,尤其引人注目的是开源新创公司 Hugging Face。
Hugging Face已是全球最受欢迎开源机器学习社群平台,不仅创下GitHub有史以来增长最快的AI专案纪录,估值也一路冲破20亿美元。微软和浙江大学联合发表的HuggingGPT论文,更把Hugging Face推到舞台中心,让更多人注意到这股与众不同的发展力量。
HuggingGPT红了,但Hugging是啥?
月初微软亚洲研究院和浙江大学联合发表最新研究HuggingGPT,介绍全新协作系统,开发者能于ChatGPT帮助下快速准确选择合适的人工智慧模型,完成综合文字、影片、语音等复杂任务。专案于Github开源,还取了超中二的名字JARVIS(没错,就是钢铁人AI管家的名字)。研究涉及两个主体,一是众所周知的ChatGPT,另一个就是AI社群Hugging Face。
▲ HuggingGPT研究论文。
Hugging Face到底是做什么的?
简单说Hugging Face是人工智慧开源平台,用户发表和共享预训练模型、资料库和示范档案等。Hugging Face共享超过10万个预训练模型,上万资料库,包括微软、Google、彭博、英特尔等各行业上万机构都有使用Hugging Face。
在HuggingGPT,ChatGPT扮演“操作大脑”角色,自动分析用户需求,再至Hugging Face“AI模型池”自动选择模型、执行和报告,让开发者更快速开发更复杂的人工智慧程式。
虽然ChatGPT与Hugging Face能牵手,但本质来说,Hugging Face跟OpenAI方向相反。最大不同在开发者服务方面,OpenAI正在搭建人工智慧围墙,仅允许满足条件的机构和个人进入,但Hugging Face希望每人都能做出生成式AI模型,包括各企业和普通开发者。
2月OpenAI上线Foundry新开发者平台,用户可执行OpenAI最新机器学习模型,但产品描述,OpenAI明确表示Foundry是为运行较大工作负载的尖端客户设计,价格表显示即使GPT-3.5轻量版,三个月费用高达7.8万美元,一年费用26.4万美元。
Foundry公开后,Hugging face立刻宣布与AWS成为合作伙伴,并呼吁“让人工智慧走向开放”,所有开发人员都能使用AWS托管服务并处理Hugging Face任何模型。
(Source:Hugging Face)
巨头林立的AI战场,Hugging Face就像强力民兵,当巨头努力保持自己的生成式AI地位,Hugging Face目标则是找寻各种途径确保AI研究空间开放。这点让Hugging Face颇具“中立”色彩,无论微软、Google、亚马逊、Meta等大公司打得再激烈,也几乎都是Hugging Face的支持者。
而Hugging Face是如何发展成长,业务内容又是什么?
歪打正着的创业,造就AI界顶端“笑脸”
普通人眼中,人工智慧一向属于“冷酷感”很强的领域,无论充斥大量数字、模型演算法,还是各种零件组成的机器人,都让人有距离感。但专为人工智慧开发者服务的Hugging Face却主打反差萌,笑脸Emoji加上摊开的双手,Logo甚至算过分可爱。
会用可爱型Logo,是因一开始Hugging Face其实是针对青少年开发的聊天机器人。Hugging Face想法是基于自然语言处理(NLP)AI技术,为年轻人开发有娱乐性、类似电子宠物的个性化聊天机器人,让大家无聊时跟它聊八卦、问它问题、产生有趣图片等。
这种新鲜的人机社交得到关注。2017年3月9日,Hugging Face App在iOS App Store上架,并拿下SV Angel、NBA球星杜兰特等120万美元天使投资。之后一年多,Hugging Face都主攻聊天机器人业务,自然语言理解训练并开发产品,高峰期每天处理消息量达100万笔。2018年5月再获400万美元种子轮融资。
虽然发展算不错,但当时AI理解力和聊天水准远不及ChatGPT有趣,加上并非刚需,Hugging Face规模一直难扩大。
但为了开发这聊天机器人,Hugging Face团队做了很重要的事,就是构建底层库容纳各种机器学习模型和各类型资料库。帮助训练聊天机器人检测文本情绪、产生连贯回应、理解不同对话主题等,并在GitHub始终以开源形式持续公布底层资料库内容。
就这样不愠不火发展,2018年底Hugging Face出现重要转折。11月Google宣布推出基于双向Transformer的大规模预训练语言模型BERT,瞬间成为自然语言领域最受开发者关注的模型。但Google只公布BERT的TensorFlow版,Hugging Face就想为何没有Pytorch版?于是创办人之一Thomas Wolf就花几天时间完成并开源PyTorch-BERT,没想到就是这“无心插柳”专案让Hugging Face一炮而红。
藉BERT东风,Hugging Face Pytorch-pretrained-BERT发表三个多月后,快速达成Github有5,000+星数的成就,到7月星数更破万,走红速度远超过同类开源项目,在Github的AI领域一飞冲天。乘着发展势头,Hugging Face产品战略开始调整,花更多精力开源模型建设,将Pytorch-pretrained-BERT项目正式命名为Transformers,同时支援Pytorch和Tensorflow 2.0。
借助Transformers库,开发者快速使用BERT、GPT、XLNet、T5、DistilBERT等NLP大模型,并使用这些模型执行文本分类、文本总结、文本生成、讯息抽取、自动QA等任务,节省大量时间和计算资源,使Hugging Face的名气越来越响亮。
▲ Hugging Face的Github的星数成长曲线。(Source:Lux Capital)
到2019年12月,Hugging Face拿到Lux Capital领投的A轮融资,融资额也比前一轮上升一个等级达1,500万美元。从这轮开始,Hugging Face标签不再是聊天机器人,而把AI开源放在首位。可爱的笑脸emoji开始传遍人工智慧开发者群。
朝人工智慧界Github前进
2019年底All in AI开源后,Hugging Face着手构建完整开源产品生态。用Hugging Face的话讲,他们做的就是架起人工智慧科研和应用的桥梁(bridges the gap from research to production)。
过去几年,人工智慧研究和商业应用相对独立,研究部门任务就是找寻尖端技术,建模型、发论文,应用部门则要将最新技术放入产品追求变现。如何将研究成果系统性整合成开源产品,让开发者能很快上手转化,是长期困扰业界的问题。
Hugging Face歪打正着摸到痛点,接着开始认真向下挖掘,可说是承担了人工智慧研究走向应用过程几乎所有复杂繁琐的细碎工作,方便任何人工智慧从业者都能便捷使用研究模型和资源。
除了头号产品Transformers,Hugging Face还建立Tokenizers、Datasets、Accelerate等资料库,从模型到资料库、从托管平台到性能最佳化,以开源社群为载体,Hugging Face建立完整人工智慧开发生态,涵盖NLP、计算机视觉、语音、时间序列、生物学、强化学习等各领域。
且Hugging Face并不是受ChatGPT带动,2022年5月市场注意力都还停在Web3、元宇宙时,Hugging Face拿到红杉、Lux Capital参与的1亿美元融资,估值一举突破20亿美元。
▲ Hugging Face的融资历史。(Source:企查查)
Hugging Face目标是成为人工智慧领域的Github,创始团队认为,只有将少数人掌握的技术推广出去,才能最大程度推动整个行业进步。商业角度来说,Hugging Face认为赋能整个AI社群的价值可能比专有工具高千倍,只要将1%变现就够撑起高市值公司,类似例子有MongoDB、Elastic等。
除了蓬勃发展的开源社群,2020年开始,Hugging Face也做起企业客制自然语言模型,彭博社、高通、英特尔都是客户,还推出AutoTrain、Inference API & Infinity、Private Hub、Expert Support等不同开发者取向的产品。报道显示,2021年开始Hugging Face就是正现金流。
▲ Hugging Face的产品服务。
Hugging Face能以开源社群模式异军突起,有些偶然也有必然。首先,过去几年,人工智慧技术的进步是由全世界产学界共同推动,技术基因就有开放这点,因此建立平台链接研究者和开发者,是顺应行业发展历史和趋势。此外,Hugging Face做完大量基础工作,弥补人工智慧领域长期科学与生产的鸿沟,是很多开源平台没做到的。
Hugging Face另一次采访时CEO Clment Delangue表示,机器学习仍处于早期阶段,开源社群提供的帮助很大,5~10年内,一定会有更多开源机器学习公司崛起。
(本文由 品玩 授权转载;首图来源:Hugging Face)
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。