以后公共场合讲话请摀嘴,Google 人工智慧现在用看的就知道你在说什么
▼
还记得 AlphaGo 吗?DeepMind 这家专门研究人工智慧的英国公司,于 2014 年被 Google 收购,经 过 AlphaGo 与职业棋师的围棋大战胜利后一炮而红。而近期,他们与牛津大学的研究员利用人工智慧设计出史上最精准的读唇语软件。
究竟他们是如何办到的?DeepMind 研究员训练一个神经网络系统(称为 Watch, Listen, Attend, and Spell),让它看上千小时的 BBC 政论节目,涉及 118,000 条句子还有 17,500 个特殊词汇,再来解读每一支影片的唇语,准确率可达 46.8%。这个数据看起来好像没有很好,但相比专业读唇师仅有 12.4% 的准确率而言,人工智慧真的厉害多了。
▲ 就算是人类,也仅能读出 12.4% 的唇语。(Source:New Scientist)
这项研究后来被牛津大学拿去研究并开发出新的一套技术,称之为 LipNet,在测试中竟然可以达到 93.4% 的准确率,高出真人读唇 40 个百分点。但要声明的是,这项测试是牛津大学研究员请志愿者读出制式化的句子,并录制下来给系统及专业读唇人士看的,而且该影片涉及到的特殊词汇仅有 51 个。而 DeepMind 的实验则是拿更生活化的影片给系统看,当然准确度也就没有那么高。
DeepMind 的研究员表示,这项研究可以用来帮助听力受损的人们理解他人的对话,同时也可被利用来替影片下字幕。另外,像是 Siri 或是 Alexa 这类语音助理,也可利用这项技术扩充,让使用者只要对着镜头说话,不用出声语音助理也能辨识,之后大家总算不用在大庭广众之下对着手机下指令了。
▲ DeepMind 开发出的 AlphaGo 先前与职业棋师大比棋艺,以全胜的姿态一举成名。(Source:Nerdist)
- Google’s AI can now lip read better than humans after watching thousands of hours of TV
(本文由 T客邦 授权转载)
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。