Facebook 的智慧聊天装置虽不热销,但背后 AI 不容小觑

Facebook 的智慧聊天装置虽不热销,但背后 AI 不容小觑

承认吧,每次开启视讯聊天,我们总得花上至少 1 分钟调整位置,才能确保大家不是盯着对方的双下巴和大鼻孔。

从这个角度来看,Facebook 去年 10 月发表的智慧聊天装置Portal Plus提供的解决方案颇为创新。

简单来说,Portal Plus 采用的智慧镜头可自动关注用户,确保你不会走出可视范围,且还会根据用户离装置的实际距离来调整音量。也就是说,即使你聊天聊到一半,忽然起身去房间另一头拿东西,对方也不会因此看不到或听不清楚你讲话。

这种体验,就像有摄影师专门在拍你。实际上,为了达到这个效果,Facebook 的工程师的确找来好莱坞专业摄影师谘询学习。

和很多智慧手机的相机演算法不同,Portal 背后的演算法关注的不是人脸,而是人的姿势和动作。

Facebook 的智慧聊天装置虽不热销,但背后 AI 不容小觑 AI与大数据 图2张

早在 2017 年,Facebook 的人工智慧团队就已建立一套名为Mask R-CNN的计算机视觉模型,可关注人类 2D 动作姿态。Portal 将这套演算法精简优化至小型行动装置晶片也能跑的 R-CNN2Go 模型。

在这个阶段,虽然镜头已懂得跟人走,但影像看起来还是“僵硬又死板”,于是 Portal 团队找来好莱坞外援──摄影师、电影摄影技师和纪录片制作人,一方面学习广泛接受的摄影“基本功”,另一方面,抛出在家聊天情景下可能遇到的刁钻角度,看看专业人士会如何处理。

我觉得团队算是成功让镜头拍出比较成熟的构图,就是那种得有点技术、以及对人的行为有了解才能做的决策。

Rafa Camargo说,她是 Facebook 硬件业务副总裁,同时也是 Portal 计划的负责人。加入 Facebook 之前,Camargo 是 Google 创新部门 ATAP(Advanced Technologies and Projects)的成员。

对发展人工智慧来说,“自然”这个标准门槛其实很高,因为那意味着机器(或背后的工程师)找到了让模拟成果“像人”的关键。

Facebook 的智慧聊天装置虽不热销,但背后 AI 不容小觑 AI与大数据 图3张

2018 年的 Google I/O 大会,打电话到理发店预约的Google Assistant曾以语气词“Mm-Hmm”惊艳全场,而现在的 Portal,则借用好莱坞培养好观众的观影习惯来打造“自然”感。

这给人的感觉很自然。其实他们在电视和电影采用这种构图,也是因为在这些年里,大家发现这就是人类大脑喜欢的方式。

除了要做到“自然”,Portal 团队在设计模型时还做了一些很有意思的选择题。

譬如:一家人和奶奶视讯聊天,突然间,孩子从妈妈怀抱里跳起来,开始到处跑,最后还跑到很暗的角落。这样的情况下,Portal 要不要继续关注孩子呢?

有人从偏理性角度出发,觉得如果小孩跑太快,关注他会让画面效果不好,所以还是别拍小孩了。但当 Portal 团队询问奶奶类用户这问题时,大部分人都说,用视讯聊天大多只为了见见镜头另一边的人,尤其是孩子。

Portal 团队最后还是为用户留下手动控制权,他们既可用自动模式跟拍所有进入镜头的人,或选择专注在特定人身上,忽略其他人。

虽然在这里,Portal 将选择权交给用户,但我们不能忽视的是,现在一些智慧手机的相机甚至视讯聊天会默认“美颜”,用户看不到“原始模样”;而 Netflix 这类串流媒体服务也默认只提供“推荐内容”,想看“原始”的完整列表还要“秘密代码”。

这些演算法服务的本质,是用户“缴械”了选择权,很多时候这不止于决策权,同时还有获取“原始”内容的权利。

也许这也是为什么,当谈论到人工智慧服务,“信任”是用户选择服务方的关键之一。

这不仅牵涉隐私权,还关乎我们让谁为我们选择。经过过去两年种种丑闻,Facebook 这个名字成为 Portal 尚未热销的主要原因,同时,这个名字也让一般人对安全性特别敏感。

无可否认的是,Facebook 在 Portal 背后的演算法对视讯聊天体验的确带来全新提升,或只需要换个名字,它就能红起来。Facebook 团队也有计划将 R-CNN2Go 这套模型推广到手机应用等产品。多项调查指出,大部分美华人都不知道Instagram和WhatsApp是 Facebook 的。

(本文由 爱范儿 授权转载;首图来源:Portal)

延伸阅读:

  • Facebook 发表智慧家庭装置 Portal,主打追着人跑的视讯功能

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。