Google 人工智慧伦理团队前负责人加入新创公司 Hugging Face

Google 人工智慧伦理团队前负责人加入新创公司 Hugging Face

8 月 25 日 Google Ethical AI 人工智慧伦理研究小组前负责人玛格丽特米契尔(Margaret Mitchell)将加入人工智慧新创公司 Hugging Face,帮助企业开发确保演算法公平的工具。她因与他人合着的重要论文引起争议,今年 2 月被 Google 解雇。

Hugging Face有何吸引力?

Hugging Face总部位于纽约,是聊天机器人新创服务商,专注NLP技术,拥有大型开源社群。尤其Github开源的自然语言处理、预训练模型库 Transformers下载超过100万次,Github有超过24,000个星星。Transformers提供NLP领域大量state-of-art预训练语言模型结构模型和调用框架。

Transformers最早名称为pytorch-pretrained-bert,于Google BERT之后推出。顾名思义是基于pytorch对BERT的实现。pytorch框架上手简单,BERT模型性能卓越,集合两者优点的pytorch-pretrained-bert不易外吸引大批追随者和贡献者。

在社群努力下,GPT、GPT-2、Transformer-XL、XLNET、XLM等模型也相继引入,家族愈发壮大,更名为pytorch-transformers。

2019年6月Tensorflow2的beta版发表,Huggingface达成TensorFlow 2.0和PyTorch模型深层互相操作,可在TF2.0 / PyTorch框架间随意迁移模型。之后发表2.0版,更名为transformers。到目前为止,transformers提供超过100种语言32种预训练语言模型。

Hugging Face维护一储存库,人们可在储存库共享AI模型并合作。这是开源平台,已有5千多家机构使用,包括Google 、Facebook和微软。米契尔计划10月启动,并先开发工具,确保训练人工智慧算法的资料库没有偏见。目前“教导”模型如何预测或确定的资料库,通常因原始数据不完整导致AI软件对女性、少数群体成员还有老年人表现不佳。

米契尔和Hugging Face已建立关系,为确保模型公平性,Hugging Face建议工程师和科学家发表计划时使用米契尔在Google时开发的“Model Cards”工具评估人工智慧系统,以找出优缺点。Hugging Face首席执行长兼联合创始人克莱门特德兰吉(Clement Delangue)表示,放在Hugging Face的2万个计划,约四分之一使用Model Cards工具。

Hugging Face有50名员工和几位人工智慧伦理专家,但德兰吉想让所有员工一起负责这项工作。德兰吉表示:“我们不想建立辅助人工智慧伦理团队,而是真正成为公司核心,确保真正融入每个人的工作。米契尔不会建立少数人组成、偶尔提供谘询的团队。”

米契尔受访时表示,用软件评估人工智慧系统方面,要用非常严肃和积极的态度工作。“这对我来说是非常好的机会,帮助模型构建者更理解正在构建的模型危害和风险。 ”

米契尔从Google离职后表示,她希望在规模较小的公司工作,这样可从一开始就将人工智慧伦理纳入考量。她说Hugging Face“有很多基本道德价值观。很明显,我不必强行插手或改善伦理流程。”

Google 人工智慧伦理团队前负责人加入新创公司 Hugging Face AI与大数据 图2张

(Source:Margaret Mitchell)

米契尔为何被解雇?

米契尔解雇源于Google人工智慧伦理研究团队动荡。去年Google就解雇团队另一位联合负责人蒂姆妮盖布鲁(Timnit Gebru),原因是她拒绝撤回与米契尔等人共同撰写的论文,这篇文章涉及批评Google技术。Gebru离职后,身为团队负责人的米契尔公开强烈批评Google及管理层,指责Google未认真对待人工智慧产品的问题以及解雇Gebru,因Gebru是人工智慧研究领域为数不多的杰出黑人女性。Google表示Gebru已辞职,米契尔违反Google行为准则和安全政策。

Google员工对高层处理此事的方式表示愤慨,今年稍早十多名现任和前任员工及人工智慧学术研究人员的采访表明,两年多内Google的人工智慧,处理骚扰、种族主义和性别歧视指控一直有争议。

这篇论文大致集中攻击大规模语言模型(如BERT)的消极影响,而BERT模型是Google的王牌AI产品。论文名为《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?》。论文基于其他研究人员的工作,参考128篇学术文献,展示自然语言处理的发展历史与大型语言模型的四大危害,呼吁更深入研究语言模型。

四大危害包括:

  1. 训练大型AI模型会消耗大量能源(训练一个BERT模型约产生1,438磅二氧化碳,相当于纽约与旧金山一次往返航班产生的碳排量)。
  2. 大型语言模型基于大量文本训练,无法避免偏见存在,包括涉及种族歧视、性别歧视色彩与其他虐待性语言。
  3. 大型语言模型无法理解语言,但公司由于利益关系会增加投资,带来机会成本。
  4. 由于大型语言模型非常擅长模仿真实人类语言,所以很容易用来欺骗人类。

Google许多基础研究遥遥领先,带来大型语言模型爆炸式增长。如果真如论文所说大规模语言模型“危害大于利益”,而Google解雇一票员工,对这件事的态度就不言而喻。或许从此角度就能理解米契尔加入Hugging Face的原因。

(本文由 雷锋网 授权转载;首图来源:Hugging Face)

延伸阅读:

  • Google 遭指内容审查论文,不得负面描述 AI 技术

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。