科技公司的尴尬战争:演算法“好意”险毁人一生

科技公司的尴尬战争:演算法“好意”险毁人一生

住在旧金山的马克怎么都没想到,儿子生病,因线上看诊传给医生儿子隐私照片,却让自己差点身败名裂。

事情发生在 2021 年初,当时疫情高峰期,一些非紧急医疗机构都停止服务,也包括马克家的家庭医生。马克发现儿子生殖器肿起来,故和医生视讯通话,通话前护理师请马克拍一张照片先给医生看,马克照做,却让他惹上大祸。

爱子心切的父亲,演算法眼中的“恋童癖”

照片传出去两天后,马克突然接到 Google 通知,说他涉嫌储存和散播有害内容,严重违反用户协定和公司政策且违法,马克的帐号将全部封锁。由于马克是 Google 全家方案用户,后果相当惨重:

马克不仅 Gmail、通讯录、日历不能用,还因是 Google Fi 虚拟营运商使用者,连手机号码一起冻结了。

恶梦还没结束。Google不仅封帐号,还自动回报打击儿童色X/性虐待内容的监督机构,机构又通报旧金山警局。2021 年底警方向 Google 调阅马克资料,对马克展开调查。而长达一年马克面临“恋童癖”指控,工作生活都停摆,几乎身败名裂。

《纽约时报》报道使马克处于如此尴尬境地的,正是 Google 鲜为人知的儿童性虐待打击系统。美国官方定义儿童性虐待内容(Child Sexual Abuse Material,CSAM)包括照片、影片等,只要涉及未成年人露骨色X画面,都属此类。更具体说,涉及诱骗、勒索、展示/鼓动/宣扬性化(sexualization)未成年人、拐卖儿童内容,都属 Google明令禁止的CSAM 范围。

科技公司的尴尬战争:演算法“好意”险毁人一生 AI与大数据 图2张

(Source:Google)

为了防止平台、产品和技术传播 CSAM,Google投入大量资源扫描、阻止、移除和举报 CSAM──但这次让马克遭殃的并不是 Google 搜寻技术,而是 Google人工查验流程有疏漏。

各大公司 CSAM 检索和事后举报流程,都包括演算法扫描和人工查验双重保险系统,Google也不免俗。然而马克这例子是演算法发现照片,自动触发系统锁上马克帐号,交由人工查验后,审查员似乎没考虑事发背景,未发现这张照片是传给医疗专业人士。事后马克立即申诉,然而 Google不仅拒绝复审,甚至不让他先下载自己的资料。封锁帐号的所有资料两个月后会自动删除,故马克损失了多年积累的各样档案。

事情就这样拖过一年,去年底警方才开始调查。一年赴马来西亚克几近“社死”,很难跟同事和朋友老实解释手机号码、信箱为什么凭空消失。直到今年初,警方才完成调查结案。

结果毫无意外:马克无罪

把忠实用户推入深渊,Google 以法律为挡箭牌解释,合情合理却绵软无力。发言人表示,美国儿童保护法要求 Google这种公司必须发现 CSAM 马上回报。Google透明度报告仅 2021 年度就屏蔽近 120 万个 CSAM 嫌疑的超连结,向美国相关监督机构全国失踪与受虐儿童服务中心(NCMEC)提交 87 万次报告,涉及约 670 万条内容,封锁约 27 万个帐号。

遗憾的是,马克就是那 27 万分之一。身处 27 万人群内,就像进监狱却高喊无辜的人,有苦说不出,说了也没人信的滋味,简直无法想像。

好心办坏事

打击 CSAM 的页面介绍,Google 称公司组织并训练团队,使用最尖端技术辨识 CSAM。美国大公司检索 CSAM 有两种技术:杂凑函式比对和电脑视觉辨识。

杂凑函式比对较简单,就是取第三方机构资料库条目和平台图片比较,检测是否有 CSAM 内容。早年 Google曾用微软 PhotoDNA 资料库,不只 Google,Meta、Reddit、Twitter 等,CSAM 领域权威公共监督机构 NCMEC 都有使用。

科技公司的尴尬战争:演算法“好意”险毁人一生 AI与大数据 图3张

(Source:微软)

YouTube 也在使用自研 CSAI Match 技术的串流影音杂凑函式比对。当然每天都有大量违法图片和影片诞生,所以除了杂凑函式比对,Google还自研部署基于电脑视觉辨识的机器学习分类器,检索未见过的内容。Google将技术整合到 Content Safety API,开放第三方使用,Meta、Reddit、Adobe、雅虎等都是 Google自研 CSAM 检索技术的用户和合作伙伴。

科技公司的尴尬战争:演算法“好意”险毁人一生 AI与大数据 图4张

(Source:Google)

此案 Google似乎是从马克 Google Photos 找到有问题照片,Google Photos 是照片备份和云端相册服务,自有品牌及其他主流 Android 手机都有预装。使用者 Google Photos 登入 Google帐号后,会提示建议使用者打开自动上传备份──马克可能就是在这里中招。如果打开自动上传功能,除了某些第三方应用(如 Twitter、Instagram)下载的照片,相机照片及手机其他照片,都会经 Google Photos 自动上传云端。

官网和发言人透露,Google不只明令限制使用者用 Google Photos 上传和分享内容,CSAM 打击系统也会扫描比对 Google Photos 照片。问题在 Google发言人叙述,CSAM 打击系统对象仅限使用者“主动行为”(affirmative action)的图片。实际角度看,马克开启 Google Photos 自动上传,是急着让儿子看病,拍照自动上传后忘了删,被 Google 发现──这样也算主动行为有点牵强。

扫描 CSAM 能保护儿童安全,有效打击恋童癖和犯罪者,听起来怎样都是好事。然而近年美国大型网络科技公司做这件事时各种问题丑闻不断──结果就是,演算法自动化打击 CSAM 技术道德和隐私权都引起巨大争议。如果把 Google这次乌龙事件称为“人祸”,去年同时间苹果事故就可称得上“天灾”了。

去年8月初苹果突然宣布,将在 iOS 推出专门扫描 CSAM 的用户端工具。

科技公司的尴尬战争:演算法“好意”险毁人一生 AI与大数据 图5张

(Source:苹果)

关键在“用户端”:和 Google 扫描云端服务器内容不同,苹果表示只会在用户设备做这件事,系统会下载 NCMEC 资料库,然后完全在本地比对杂凑函式。但苹果“用户端”、“注重隐私”等只是表面说辞,有专家发现,使用者发送到 iCloud 储存的照片也会成为检测对象。还有研究者发现苹果的比对演算法 NeuralHash 有缺陷,技术不是即将推出,而是好久前就偷偷植入 iOS,苹果还混淆 API 名称以便“隐姓埋名”。

苹果宣布后不到一个月,就有人检验 NeuralHash 演算法会造成杂凑碰撞和“原像攻击”。

简单来说,杂凑碰撞就是找到两张杂凑函式相同的随机照片,原像攻击则是“刻意生成的碰撞”,也即先决定用某张照片,然后生成另一张和前者杂凑函式相同但内容不同的照片。有人直接在广受欢迎的 ImageNet 标注图像资料库找到几对天然 NeuralHash“双胞胎”(不同的原视图杂凑函式却相同),攻击结果从原理和逻辑都直接推翻苹果 CSAM 检索技术,使其一文不值。

科技公司的尴尬战争:演算法“好意”险毁人一生 AI与大数据 图6张

(Source:Cory Cornelius)

早期测试结果显示,NeuralHash 杂凑碰撞发生率和苹果宣称误报率差不多,属可接受范围。然而考虑到苹果全球有超过 15 亿台设备,基数太庞大,若 NeuralHash 误报,甚至杂凑碰撞导致出事,都会波及大量使用者。

总体来看,Google、苹果两大行动平台公司对找寻和打击儿童色X都有努力做事,也值得鼓励,然另一面却大为遗憾:因一张随手拍的照片,工作和生活陷入僵局,甚至险些身败名裂,这恐怕是马克及不少和他经历相似的人没预料到的。这也是整件事的尴尬之处:在美国科技公司和不完善的演算法面前,好心真的可能做坏事。

(本文由 品玩 授权转载;首图来源:shutterstock)

延伸阅读:

  • 争议太大,苹果暂缓儿童色X审查机制推出
  • 苹果 CSAM 丑闻再升级:扫描演算法有严重缺陷,三年前就开始“偷窥”使用者

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。