看下巴就行了?辨识无声语言的项炼来了

看下巴就行了?辨识无声语言的项炼来了

想像一下,如果你坐在掉针可闻的会议室或图书馆里,脱口而出“Siri,明天天气如何”,或许不太合适。当一个人不能说话或必须保持安静,却想对智慧设备下指令,该怎么办?

康乃尔大学讯息科学助理教授 Cheng Zhang 和博士生 Ruidong Zhang 设计了叫“SpeeChin”的项炼。它基于下巴运动,捕捉“颈部和脸部皮肤变形图”,辨识无声语言,目前可辨识英语和中文简单短词。

看下巴就行了?辨识无声语言的项炼来了 AI与大数据 图2张

SpeeChin 红外线镜头装在 3D 列印的“项炼盒”上,项炼盒可用银炼挂在脖子上,镜头指向配戴者下巴。为了提高稳定性,开发人员设计了“机翼”,并在底部放一枚硬币。除了这些,SpeeChin 还配备微处理器、电池和蓝牙模组。

利用机器学习演算法,能据配戴者的下巴运动确定说了哪些命令,然后将命令传到配对的智慧手机,就像用另一种方式沟通的 Siri。为了避免隐私,SpeeChin 只会对准下巴,不会拍到使用者的脸。

最初实验有 20 名参与者(10 名说英语,10 名中文),研究人员测量下巴基线位置,然后使用差分图像训练 SpeeChin 辨识简单命令。10 位英语参与者无声说 54 条命令,包括数字、互动、呼叫语音助理、标点和导航,10 位中文参与者 44 条命令也一样。

实验结果,SpeeChin 辨识英文和中文命令平均准确率分别为 90.5% 和 91.6%。 研究人员表示,这款设备可能学习无声语音模式,研究人员还要求 6 名参与者行走时默默说 10 个中文和英文片语,但成功率较低,主要是参与者头部以不可预测的方式移动。

为什么无声语音辨识要做成项炼?研究人员阐述目的:

我们认为项炼是人们习惯的装饰品,而不是耳挂式设备,后者可能不太舒服;至于无声语音,人们可能会想“我的手机就是语音辨识设备了”,但还是会遇到要为无法出声的人和场合发声。

SpeeChin 外观与NeckFace 类似。NeckFace 是 Cheng Zhang 和 SciFi Lab 团队去年推出的设备,使用红外线摄影机,从颈部下方捕捉下巴和脸部影像,生成完整 3D 表情重建,可持续关注脸部表情。

看下巴就行了?辨识无声语言的项炼来了 AI与大数据 图3张

NeckFace 在心理健康领域可能特别有用,因可关注一天情绪变化。虽然人类情绪不一定会表现出来,但随着时间过去,表情变化量还是可显示情绪波动。NeckFace 也可用于其他场景,如无法选择前置镜头时开虚拟会议、虚拟实境脸部表情检测等。如果 SpeeChin 更发展,使用场景会越来越多,包括必须静音的环境、无法辨识的嘈杂环境及语言能力有障碍的族群。

(本文由 爱范儿 授权转载;首图来源:影片截图)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。