人脸辨识准确率黑人比白人差很多，主要受限于资料库与光影呈现问题

▼

纽约时报 2 月 9 日发表了一篇文章，指出如今非常热门的 AI 应用人脸辨识，不同种族的准确率差异甚大。其中，黑人女性的错误率高达 21%~35%，而白人男性的错误率则低于 1%。

文章参考 MIT 媒体实验室（MIT Media Lab）研究员 Joy Buolamwini 与微软科学家 Timnit Gebru 合作的一篇研究论文《性别图谱：商用性别分类技术的种族准确率差异》（Gender Shades: Intersectional Accuracy Disparities in Commercial Gender Classification）的资料。

论文作者选择了微软、IBM 和旷视（Face++）3 家人脸辨识 API，测试性别判定的人脸辨识功能。以下为两组准确率差异最大的人群。

▲ 一组 385 张照片中，白人男性的辨识误差最高只有 1%。（Source：Joy Buolamwini / M.I.T. Media Lab）

▲ 一组 271 张照片中，肤色较黑的女性辨识误差率高达 35%。（Source：Joy Buolamwini / M.I.T. Media Lab）

论文研究使用了自行收集的一组名为 Pilot Parliaments Benchmark（PPB）资料库测试，包含 1,270 张人脸，分别来自 3 个非洲地区和 3 个欧洲地区。

判断照片人物性别方面，以下是论文作者测试后得到的关键发现：

所有分类器在辨识男性人脸的表现要优于女性人脸（8.1%~20.6% 错误差别）。
所有分类器在肤色较白的人脸表现优于肤色较深的人脸（11.8%~19.2% 错误差别）。
所有分类器在肤色较深的女性人脸表现最差（错误率 20.8%~34.7%）。
微软和 IBM 的分类器在浅肤色男性人脸表现最好（错误率为 0% 及 0.3%）。
Face++ 的分类器在肤色较深的男性人脸表现最好（错误率 0.7%）。
最差组与最好组差距高达 34.4%。

需要指出的是，3 家人脸辨识 API 都没有很详细解释使用的分类法，也没有提及使用的训练资料。

不过，微软在服务中表明“不一定每次都有 100% 准确率”；Face++ 则特别在使用条款表明调校确性不予保证。

关于可能的原因，纽时表示，目前人工智慧是资料为王，资料好坏和多寡会影响 AI 的智慧程度。如果训练 AI 模型的资料集中，白人男性的资料多于黑人女性，那么系统对后者的辨识能力就会不如前者。

现有的资料集中这现象，比如根据另一项研究发现，一个广泛使用的人脸辨识资料集中，75% 都是男性，同时 80% 是白人。

旷视回复表示，深色人种资料集相对难获得，所以会差一些；另外，使用 RGB 镜头人脸辨识时，深肤色人的特征较难找，特别是在光线不足条件下，这也是另一个原因。

IBM 回应：论文版本太老，新版已改善

针对 Buolamwini 和 Gebru 的论文发现，2 月 6 日，IBM 在自家 IBM Research 部落格发表了一篇回应文。

文章并未否认论文的发现，而是指出，IBM 的 Watson Visual Recognition 服务一直在持续改善，最新发现将于 2 月 23 日推出的新版服务，使用比论文更广泛的资料集，拥有强大的辨识能力，比论文的错误率有近 10 倍下降。

文章表示 IBM Research 用类似论文方法进行实验，发现如下：

结果显示整体错误率都很低，虽然肤色较黑的女性错误率仍是所有人群最高，但较论文结果有很大下降。

旷视回应：深肤色人种辨识错误率高是普遍现象，商用产品会改善

针对这篇论文向旷视询问，对方给予了非常详细的解答。旷视首先对论文的研究方法表示认可，但同时指出研究所用的线上 API 是较旧版本，商用产品不会出现这类问题；且此类问题是业界普遍都有，不仅限于测试这 3 家。原因主要有两点，一是缺乏深色人种资料集，二是深色人种人脸特征较难撷取。

以下为回应全文：

我们相信文章（论文）立意不是针对哪一家的技术，基本是不吹不黑的中立态度，而且从文章的测试方法来看还是比对科学的，但是文章中所用的“PPB”（Pilot Parliaments Benchmark）资料集在 GitHub 的发表位址已经失效，所以我们目前无法自行侦测以验证文章的结论。

在集成到 Face++ API 中的时候，旷视研究院有针对不同人种进行侦测、辨识等测试。但是就目前国际范围内的研究水平来说，不管是在学界还是产业界，对于肤色人种的辨识表现都没有对“肤色较浅”（参照文章用词）人种优秀，从此文的测试结果中也可以看出，微软、IBM 和 Face++ 在肤色较深人种辨识的表现中（尤其是肤色较深女性）机器的误实率会更高。

一方面从人类基因和人脸辨识技术角度来说，皮肤的色彩越深对于基于 RGB 可见光的人脸辨识的难度就越大，因为机器在进行人脸侦测、分析和辨识的过程中需要对人脸影像进行前处理和特征撷取，所以皮肤色彩越深，脸部的特征资讯就越难撷取，尤其是在一些暗光情况下，更加难以侦测和区分。另一方面，人脸辨识很大程度上依赖于资料训练，而在整个工业中黑色人种的可训练资料量较少，所以辨识的结果在某些程度上不尽人意，所以文章呈现的测试结果是工业普遍存在的现象。文章中只是选择了 3 家工业代表来进行了测试，如果样本量足够大，那可能还会得出其他的结论。

不过测试结果也显示，Face++ 对于黑人男性的辨识错误率（0.7%）是最低的，且在 PPB 的南非子测试集中，Face++ 辨识肤色较浅人种的表现是完美无瑕的，这些其实也间接说明 Face++ 的人脸辨识能力是处于全球领先的地位。

文章作者提出了一个很好的问题，但文章中测试的 API 线上版本和我们为用户提供的商业版本无关，用户在业务使用中不会有任何影响。

当然我们也相信工业内都在针对人种辨识最佳化做着各种努力。而就 Face++ 来讲，未来研究院会从几个角度去改善目前的状况，如增加训练资料，针对不同人种进行专门训练，另外是从演演算法层面最佳化现在的流程，提升对不同人种的辨识效能，此外，旷视也在加大 3D 感知的研发力度，将三维特征资讯融合到应用中弥补二维资讯的不足使模型更加强健。

AI 真有歧视吗？

根据纽时报道，论文作者之一黑人女性 Buolamwini 做这项研究之前，曾遇到过人脸辨识无法辨识她的脸，只有在她戴上一张白色面具时才行，因而引发了她开启这项研究。很明显，这项研究尝试探讨 AI 时代是否有社会不公甚至种族歧视的问题。

种族歧视是非常敏感的话题，许多事情只要沾上边就会引发强烈反弹。在人脸辨识这块，无论论文作者的研究，还是厂商的实验，都明确发现女性深色人种辨识误差率更高。但这就能代表 AI 歧视吗？

显然并不是，细究其中原因，之所以肤色较深女性较难辨识，除了天然人脸特征更难撷取，还有可供训练的资料集较少。从市场角度来说，IBM 和微软的服务在白人男性表现最好，是因为其市场主要在欧美，白人占多数；旷视的主要市场在东亚和东南亚，因此黄种人表现会好很多，这跟歧视没有关系，而是市场导向的技术研发。

话又说回来，这篇论文确实显示，AI 的智慧性跟训练资料有很大关系，因此设计 AI 应用时，我们应尽量使用广泛且代表性强的资料，照顾不同人群；同时要积极对公众解释 AI 的达成原理。

最后，这件事表明，鼓励新技术的发展惠及更多少数族裔需要更多人重视，不仅是人脸辨识，还有语言、文化等各方面。

（本文由雷锋网授权转载；首图来源：论文）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

AI IBM Pi 微软测试

IBM 回应：论文版本太老，新版已改善

旷视回应：深肤色人种辨识错误率高是普遍现象，商用产品会改善

AI 真有歧视吗？

相关文章