Google 的手语辨识演算法,让你透过 AI 辨识手语的意思
▼
对大部分人来说,透过说话交流是理所当然的事。但世界还有一部分群体,他们由于先天或后天原因,无法做到我们认为理所当然的事。对有听觉与语言障碍的人来说,手语才是交流的方式。
问题是,手语虽然解决交流问题,但对习惯说话的大部分人来说,手语和外星语言可能没什么差别。如何便利地将手语转化成口语,成为近年来新的研究课题,Google AI 实验室的新演算法可能成为解决问题的新方案。
新技术采用一些巧妙的方法,且随着机器学习效率越来越高,仅使用手机就能做道高精确度的手部与手指关注,带来很多新可能性。
“目前最先进的方法都是依赖效能强大的桌机环境,而我们的方法可在手机做到即时关注,甚至能延伸到多手部。”Google 研究人员于官方部落格写道。强悍的手部关注演算法是具挑战性的电脑视觉工作,因手部经常会被动作遮挡,且缺乏高对比模式。
不仅如此,手部动作通常速度很快且微妙,这不是电脑擅长的即时关注,即便使用多镜头和深度感测装置的 SignAll,关注每个动作依然很困难。
在这种情况下,研究人员只能尽量减少电脑需筛选的资料量,才能提高反应速度和关注精确度。
首先,他们放弃关注整个手部大小和位置,相反地,让系统只找到手掌部位,这不仅是手最独特可靠的部分,且接近矩形,这意味着系统不用处理大量复杂的图案。
当手掌首先辨识时,延伸出的手指会单独辨识和分析,一个单独演算法将之配置为 21 个座标,大致描绘指关节及指尖,包括手指部分伸出多远,且系统还可根据手掌大小和角度猜测。
为了完成手指辨识部分,研究人员必须手动将这 21 个座标点加到各种姿势和光照条件下约 3 万张手掌图。就像往常,每个强悍的机器学习系统开始阶段都需要研究人员大量辛苦的喂资料。
确定手姿势后就简单了,将这些姿势与已知的手语含义连结,从简单的字母、数字直到具特定含义的手势都包括。最后,一种反应迅速且准确的手势辨识演算法诞生了,且可在智慧手机执行而不是桌机端。
这种演算法出现还能改进现有的辨识系统,不过距离 AI 真正理解手语依然还有很长的路要走,因为这是使用手势、脸部表情和其他细节呈现的与众不同的交流形式。但现在我们正向越来越好的方向前进。
最后 Google 研究人员说:“我们希望向更广泛的研究和开发社群提供这种手势感测功能,并期望创造性案例出现,以刺激新应用和研究途径。”
(本文由 爱范儿 授权转载;首图来源:Google AI)
延伸阅读:
- 互动手语翻译手套比划手语时转换为语音,聋哑和一般人双向沟通不成烦恼
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。