科技公司的尴尬战争:演算法“好意”险毁人一生
▼
住在旧金山的马克怎么都没想到,儿子生病,因线上看诊传给医生儿子隐私照片,却让自己差点身败名裂。
事情发生在 2021 年初,当时疫情高峰期,一些非紧急医疗机构都停止服务,也包括马克家的家庭医生。马克发现儿子生殖器肿起来,故和医生视讯通话,通话前护理师请马克拍一张照片先给医生看,马克照做,却让他惹上大祸。
爱子心切的父亲,演算法眼中的“恋童癖”
照片传出去两天后,马克突然接到 Google 通知,说他涉嫌储存和散播有害内容,严重违反用户协定和公司政策且违法,马克的帐号将全部封锁。由于马克是 Google 全家方案用户,后果相当惨重:
马克不仅 Gmail、通讯录、日历不能用,还因是 Google Fi 虚拟营运商使用者,连手机号码一起冻结了。
恶梦还没结束。Google不仅封帐号,还自动回报打击儿童色X/性虐待内容的监督机构,机构又通报旧金山警局。2021 年底警方向 Google 调阅马克资料,对马克展开调查。而长达一年马克面临“恋童癖”指控,工作生活都停摆,几乎身败名裂。
《纽约时报》报道使马克处于如此尴尬境地的,正是 Google 鲜为人知的儿童性虐待打击系统。美国官方定义儿童性虐待内容(Child Sexual Abuse Material,CSAM)包括照片、影片等,只要涉及未成年人露骨色X画面,都属此类。更具体说,涉及诱骗、勒索、展示/鼓动/宣扬性化(sexualization)未成年人、拐卖儿童内容,都属 Google明令禁止的CSAM 范围。
(Source:Google)
为了防止平台、产品和技术传播 CSAM,Google投入大量资源扫描、阻止、移除和举报 CSAM──但这次让马克遭殃的并不是 Google 搜寻技术,而是 Google人工查验流程有疏漏。
各大公司 CSAM 检索和事后举报流程,都包括演算法扫描和人工查验双重保险系统,Google也不免俗。然而马克这例子是演算法发现照片,自动触发系统锁上马克帐号,交由人工查验后,审查员似乎没考虑事发背景,未发现这张照片是传给医疗专业人士。事后马克立即申诉,然而 Google不仅拒绝复审,甚至不让他先下载自己的资料。封锁帐号的所有资料两个月后会自动删除,故马克损失了多年积累的各样档案。
事情就这样拖过一年,去年底警方才开始调查。一年赴马来西亚克几近“社死”,很难跟同事和朋友老实解释手机号码、信箱为什么凭空消失。直到今年初,警方才完成调查结案。
结果毫无意外:马克无罪。
把忠实用户推入深渊,Google 以法律为挡箭牌解释,合情合理却绵软无力。发言人表示,美国儿童保护法要求 Google这种公司必须发现 CSAM 马上回报。Google透明度报告仅 2021 年度就屏蔽近 120 万个 CSAM 嫌疑的超连结,向美国相关监督机构全国失踪与受虐儿童服务中心(NCMEC)提交 87 万次报告,涉及约 670 万条内容,封锁约 27 万个帐号。
遗憾的是,马克就是那 27 万分之一。身处 27 万人群内,就像进监狱却高喊无辜的人,有苦说不出,说了也没人信的滋味,简直无法想像。
好心办坏事
打击 CSAM 的页面介绍,Google 称公司组织并训练团队,使用最尖端技术辨识 CSAM。美国大公司检索 CSAM 有两种技术:杂凑函式比对和电脑视觉辨识。
杂凑函式比对较简单,就是取第三方机构资料库条目和平台图片比较,检测是否有 CSAM 内容。早年 Google曾用微软 PhotoDNA 资料库,不只 Google,Meta、Reddit、Twitter 等,CSAM 领域权威公共监督机构 NCMEC 都有使用。
(Source:微软)
YouTube 也在使用自研 CSAI Match 技术的串流影音杂凑函式比对。当然每天都有大量违法图片和影片诞生,所以除了杂凑函式比对,Google还自研部署基于电脑视觉辨识的机器学习分类器,检索未见过的内容。Google将技术整合到 Content Safety API,开放第三方使用,Meta、Reddit、Adobe、雅虎等都是 Google自研 CSAM 检索技术的用户和合作伙伴。
(Source:Google)
此案 Google似乎是从马克 Google Photos 找到有问题照片,Google Photos 是照片备份和云端相册服务,自有品牌及其他主流 Android 手机都有预装。使用者 Google Photos 登入 Google帐号后,会提示建议使用者打开自动上传备份──马克可能就是在这里中招。如果打开自动上传功能,除了某些第三方应用(如 Twitter、Instagram)下载的照片,相机照片及手机其他照片,都会经 Google Photos 自动上传云端。
官网和发言人透露,Google不只明令限制使用者用 Google Photos 上传和分享内容,CSAM 打击系统也会扫描比对 Google Photos 照片。问题在 Google发言人叙述,CSAM 打击系统对象仅限使用者“主动行为”(affirmative action)的图片。实际角度看,马克开启 Google Photos 自动上传,是急着让儿子看病,拍照自动上传后忘了删,被 Google 发现──这样也算主动行为有点牵强。
扫描 CSAM 能保护儿童安全,有效打击恋童癖和犯罪者,听起来怎样都是好事。然而近年美国大型网络科技公司做这件事时各种问题丑闻不断──结果就是,演算法自动化打击 CSAM 技术道德和隐私权都引起巨大争议。如果把 Google这次乌龙事件称为“人祸”,去年同时间苹果事故就可称得上“天灾”了。
去年8月初苹果突然宣布,将在 iOS 推出专门扫描 CSAM 的用户端工具。
(Source:苹果)
关键在“用户端”:和 Google 扫描云端服务器内容不同,苹果表示只会在用户设备做这件事,系统会下载 NCMEC 资料库,然后完全在本地比对杂凑函式。但苹果“用户端”、“注重隐私”等只是表面说辞,有专家发现,使用者发送到 iCloud 储存的照片也会成为检测对象。还有研究者发现苹果的比对演算法 NeuralHash 有缺陷,技术不是即将推出,而是好久前就偷偷植入 iOS,苹果还混淆 API 名称以便“隐姓埋名”。
苹果宣布后不到一个月,就有人检验 NeuralHash 演算法会造成杂凑碰撞和“原像攻击”。
简单来说,杂凑碰撞就是找到两张杂凑函式相同的随机照片,原像攻击则是“刻意生成的碰撞”,也即先决定用某张照片,然后生成另一张和前者杂凑函式相同但内容不同的照片。有人直接在广受欢迎的 ImageNet 标注图像资料库找到几对天然 NeuralHash“双胞胎”(不同的原视图杂凑函式却相同),攻击结果从原理和逻辑都直接推翻苹果 CSAM 检索技术,使其一文不值。
(Source:Cory Cornelius)
早期测试结果显示,NeuralHash 杂凑碰撞发生率和苹果宣称误报率差不多,属可接受范围。然而考虑到苹果全球有超过 15 亿台设备,基数太庞大,若 NeuralHash 误报,甚至杂凑碰撞导致出事,都会波及大量使用者。
总体来看,Google、苹果两大行动平台公司对找寻和打击儿童色X都有努力做事,也值得鼓励,然另一面却大为遗憾:因一张随手拍的照片,工作和生活陷入僵局,甚至险些身败名裂,这恐怕是马克及不少和他经历相似的人没预料到的。这也是整件事的尴尬之处:在美国科技公司和不完善的演算法面前,好心真的可能做坏事。
(本文由 品玩 授权转载;首图来源:shutterstock)
延伸阅读:
- 争议太大,苹果暂缓儿童色X审查机制推出
- 苹果 CSAM 丑闻再升级:扫描演算法有严重缺陷,三年前就开始“偷窥”使用者
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。