Google 新研究:让失语者在视讯会议时以手语自然交流

Google 新研究:让失语者在视讯会议时以手语自然交流

视讯会议任何人都能用,也应该包括以手语沟通的用户,但由于大多数视讯会议系统会自动关注讲话者提示视窗,对使用手语者而言,很难轻松沟通。

因此视讯会议采用即时手语侦测就很有挑战性,系统需要使用大量影片回馈分类汇入的资料,计算工作十分繁重。某种程度这些挑战也导致很少有手语侦测的研究。

近日 ECCV 2020 和 SLRTP 2020 全球高峰会,Google 研究团队提出即时手语侦测模型,并详述模型如何用于视讯会议系统辨识“发言人”的过程。

Google 新研究:让失语者在视讯会议时以手语自然交流 AI与大数据 图2张▲ 以色列手语翻译 Maayan Gazuli 示范手语检测系统。

设计思路

为了主动搭配主流视讯会议系统的解决方案,研究团队采取轻型、即插即用的模型,占用 CPU 小,以最大程度降低对用户端通话品质的影响。为了减少汇入维度,采用从视讯分离所需资讯,分类每帧。

“由于手语包括用户身体和手两部分,我们先执行人体姿态估计模型 PoseNet,这样可将汇入从整个高清影像大幅减少到用户身体一小部分,如眼睛、鼻子、肩膀、手等关键特征点(landmarks)。然后再将这些关键特征点用于计算每帧光流(Optical Flow),不保留用户特定资讯的前提下就能量化用户姿态特征。每个姿态都透过肩膀宽度统一,以确保模型在离镜头一定距离内注意到用户手势。最后,透过影片帧速率统一光流,再传给模型。”

为了测试有效性,研究团队采用德语手语资料库(DGS),包含人体手势的长片(含跨度注释)。基于训练好的线性回归模型基线,使用光流数预测人体手势何时发出。模型基线可达 80% 准确度,每帧仅需约 3s(0.000003 秒)处理时间。透过将前 50 帧光流当作模型上下文,最终达到 83.4% 准确度。

团队使用长短期记忆网络(LSTM)架构,可达成 91.5% 准确度,每帧处理时间约 3.5 毫秒(0.0035 秒)。

Google 新研究:让失语者在视讯会议时以手语自然交流 AI与大数据 图3张

概念验证

实际场景有了执行完备手语侦测模型仅为第一步,团队还需要设计方法让视讯会议系统的主动式扬声器功能有用。团队开发轻型级线上手语侦测示范 demo,可连到任何视讯会议系统,并将手语使用者设定为“发言人”。

当手势侦测模型确定用户正使用手语时,会透过虚拟音讯电缆传递超声波,任何视讯会议系统都能侦测到,好像手语使用者正在“讲话”。音讯以 20kHz 传送,通常在人类听觉范围以外。视讯会议系统通常将音讯音量当成侦测是否正在讲话的标准,而不是侦测是否有声音,所以应用程式会误以为手语使用者正在讲话。

Google 新研究:让失语者在视讯会议时以手语自然交流 AI与大数据 图4张

此模型影片示范原始码已于GitHub公开。

示范过程

研究团队示范如何使用模型。黄X图表反映模型侦测到手语交流时的确认值。当用户使用手语时,图表值将增到接近 100,用户停止使用手语时,图表值降低至 0。

为了进一步验证模型效果,团队还进行用户体验回馈调查,要求参与者于视讯会议时使用模型,并像往常一样以手语交流,还被要求互相使用手语,以侦测切换说话人功能。回馈结果是,模型侦测到手语,辨识为可听见的语音,并成功辨识了手语参与人。

总结

目前来看,此次尝试的出发点及过程采用的一系列方法可操作性,均基于实际使用为出发点,尽管应用时可能还会出现更多没想到的用户需求,如不同地区地区的手语有差异等问题。如何将这些功能做出来满足更多族群,将是接下来这项工作在商业环境真正应用要积极思考的方向。

  • Developing Real-Time, Automatic Sign Language Detection for Video Conferencing

(本文由 雷锋网 授权转载;首图来源:Created by Freepik)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。