Tumblr 夺老司机“珍爱”,AI 除黄计划难度高

Tumblr 夺老司机“珍爱”,AI 除黄计划难度高

12 月 5 日是各位老司机、福利姬的末日,因美国名社交分享网站Tumblr当天突然推出新的政策──Tumblr将全面禁止任何成人内容,新规定于17日正式施行。

这不是天经地义的事吗,有何大惊小怪?

和多数人心中的“和谐社群”定义不同,新规定发表之前,Tumblr这个以年轻人为中心的社群网络平台以收容大量色X内容(主要为文章、静态图和 gif图)闻名全球。

Tumblr 夺老司机“珍爱”,AI 除黄计划难度高 AI与大数据 图2张

▲Tumblr截图。

Tumblr 创始人 David Carp 曾表示,色X相关内容占网站流量2~4个百分点。2012年,一份当月刊发的义大利研究报告显示,这数字迅速增长,甚至有近半网友遇过避无可避的成人内容,对此评论Tumblr 没有回应。

时至今日,雅虎旗下这家社交网站,尽管只有超出0.1% 帐号出产色X内容,但却有22%甚至更多用户关注、点赞、转寄上述帐号的发文。有研究指出,正是这种“分享”行为,导致另外28.5%Tumblr用户无意中接触到色X内容。

Tumblr 夺老司机“珍爱”,AI 除黄计划难度高 AI与大数据 图3张

俗话说得好,常在河边走,哪有不湿鞋?

就在两周前,苹果将Tumblr App从 App Store 移除,原因是侦测和移除儿童色X的自动化系统故障。从类别来看,尽管Tumblr也能看到类似天文地理历史科学的各种“小清新”内容,但相比前者来说只是冰山一角罢了。

至此,Tumblr启动AI黄计划,并郑重表示要将成人内容“赶尽杀绝”。

AI黄靠谱吗?

Tumblr CEO Jeff D’Onofrio声明表示,TumblrAI黄计划并不是禁止裸T政Z抗议或大卫雕像。这要求AI具备极强的成人内容辨识能力,同时也依靠人类帮助训练和控制系统。

简单来说,Tumblr希望打造可辨识裸T但又不会将裸T雕像误认为成人内容的人工智慧系统。尽管这对人来说是一件再简单不过的事,但对AI来说可是难度达到“鸡蛋里挑骨头”等级。

Tumblr 夺老司机“珍爱”,AI 除黄计划难度高 AI与大数据 图4张

▲换做你是AI,看到这种场景有没有想骂人的冲动?

说到这里,想必会有人问:“Why?”

实际上,AI辨识影像的过程分为资讯抓取、前处理、特征抽取;选择、分类器设计;分类决策三大块。第一部分,AI将图片特征点取出来,并透过符合资料库获得属性,并最终生成判定。

也就是说,除了成人内容相关的敏感辞汇、特征点抓取,想让AI 区分真人与雕塑就需要在此基础上再符合特征点的材质等特性。难点在于,初期AI只能按照指定几个“标签”分析图片类别,对图片物体是肉体还是大理石、是塑胶还是泡沫……这种问题无法精确分析。

简单的智慧系统更无法像人立刻在随机图片找到哪些标签应该衡量,哪些不值得衡量。将这问题对应Tumblr的除黄计划,解决问题的唯一办法就是尽可能全面地抓取图片、文字的特征,这对系统而言必将承受巨大负荷。

Tumblr 夺老司机“珍爱”,AI 除黄计划难度高 AI与大数据 图5张

▲特征点辨识。

如何避免这样的恶性循环?Tumblr CEO Jeff D’Onofrio表示,公司不断增加投资推动此政策,包括符合产业标准的机器监控、不断壮大的人类仲裁团队及便于举报滥用行为的用户工具。透过让更多用户及相关人员参与,Tumblr希望人工智慧的学习能力能逐步培养成AI 除黄系统,获得精准的筛选能力。

除了人工合作,针对以上问题雷锋网曾在《世界最大黄网要用 AI “鉴黄”,还号称要让鉴黄师下岗》文章向图普科技营运总监姜泽荣提出疑问,他的回答是:“如果是一支1.5小时的影片,一秒一张截图,上述数量影片的基础上足以训练出效果尚可的模型。”

由此来看,尽管Tumblr辨识物件是图片和文字,但对此量级的社交网站(也不只这家在做类似的事)来说,训练出“可用”的AI 除黄系统自然不在话下。

Tumblr来说任重而道远

既然不在话下,为啥还任重道远?

从目前效果来看,尽管声明Tumblr明确提出会着重训练AI在性取向言论和色X内容方面的筛选能力,以便避免前者被认为是不当内容萤幕蔽掉。但有回馈称被错误禁止的内容甚至包括加菲猫的图片、蝙蝠侠吃法兰克福的图片和英国名厨戈登‧拉姆齐拿着一块米糕并称之为“隆胸”的图片。

Tumblr 夺老司机“珍爱”,AI 除黄计划难度高 AI与大数据 图6张

▲AI:嗯,这只喵长得灰常儿童不宜,屏蔽!

纽约自由摄影师罗拉‧汤普森表示,不得不手动申诉团队解锁这些图片,虽然他贴的标签确实是“色X”(如“食品色X”),但显然和色X无关。

从成本方面看,Tumblr的社交网站属性让内容量源源不断,这就需要AI除黄系统具备强大的GPU运算能力,高速端对端影像处理速度及较高频宽标准。雷锋网文章曾提到:“算力方面,原本千万等级的样本在GPU为单机单卡情况下训练时间要接近一个月,仅1 万张图片常只有一张色X图,为了辨识这张图片,AI扫描的成本即为1 万次。”由此可见,AI 除黄确是费钱费力的大工程。

从风险系数看,AI 除黄计划执行同时也伴随各种其他风险。首先,针对用户属性的AI 除黄师必须要尽量全面抓取用户在平台的各类资料,谁都无法担保这些资料最终会流向何处(尽管每家都说“我们绝对安全”)。

316日,Facebook被曝在2014年有超过5 千万用户资料遭“剑桥分析”公司非法传送政Z广告,此次事件曝光后,Facebook 一天内市值蒸发60亿美元。尽管直到目前Facebook仍因此事深陷动荡中,但CEO马克祖克柏却在多次听证会否定公司有意侵犯用户隐私并参与相关交易。

Tumblr 夺老司机“珍爱”,AI 除黄计划难度高 AI与大数据 图7张

真相浮出水面之前我们不知道真相究竟是什么,但这足以证明──当你尝试开始收集并利用用户资料达成某些目的时,一旦出事,即使你浑身都是嘴巴也难洗白。

短期效果、长期成本及风险系数,对Tumblr来说,AI 除黄系统不同于某成人影片网站,除了有效筛选成人向内容,还要从中将正常性谈论筛选出来建议给大家,如果为做这件事的难度打分数,我给五颗星!

可见,TumblrAI 除黄计划的确任重而道远,现在我们看到的仅是一条规定,一切将在1217日分晓。

(本文由 雷锋网 授权转载;首图来源:shutterstock)

延伸阅读:

  • 遭苹果下架,Tumblr 痛定思痛宣布禁情色内容

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。