OpenAI 发表新语音系统 Whisper,英文辨识能力接近人类程度
▼
9 月 21 日 OpenAI 发表“Whisper”神经网络,声称英文辨识力接近人类程度。
Whisper是自动语音辨识(ASR)系统,研究团队透过网络收集68万小时多语音和多任务监督数据训练。研究团队发现,使用如此庞大且多样化的资料库可提高口音、背景噪音和技术语言的强健性。
之前不同研究表明,虽然无监督预训练提高音频编码器品质,但缺乏同样高品质的预训练解码器,以及特定资料库的微调协议,一定程度限制模型有效性和强健性;部分有监督预训练语音辨识系统,表现会比单一源训练模型有更高强健性。
OpenAI在Whisper新资料库比现有高品质资料库总和大几倍的基础上,将弱监督语音辨识的等级扩展至68万小时;研究团队还示范这种规模,训练模型转移现有资料库的零射击表现,可消除任何特定资料库微调的影响,以达到高品质结果。
▲ 方法概述。(Source:OpenAI)
许多语音处理任务训练序列到序列的转换器模型,包括多语言语音辨识、语音翻译、口头语言辨识和语音活动检测;所有任务都表示为由解码器预测的标记序列,允许单一模型取代传统语音处理管道的不同阶段;多任务训练格式使用一组特殊标记,为任务指定者或分类目标。
Whisper架构采用简单点到点方法,透过编码器─解码器Transformer做到:汇入音频分成30秒一块,转换成log-Mel频谱图后传递到编码器。解码器可预测相应文本标题,并与特殊标记混合,由这些标记指导单个模型执行诸如语言辨识、短语级时间戳、多语言语音转录和英语语音翻译等任务。
▲ Whisper架构。(Source:OpenAI)
由于Whisper是在庞大且多样的资料库上进行,没有针对任何特定资料库微调,因此不会击败专门研究LibriSpeech性能的模型。许多资料库测量Whisper的零样本性能时,Whisper比其他模型更稳定,错误率降低50%。
除了够大资料库,Whisper还支援多种语言转录,以及将之翻成英语。68万小时音频,共11.7万小时涵盖96种语言,和12.5万小时转录和翻译数据,即约有三分之一非英语。Whisper会交替执行以原始语言转录或翻译成英语的任务,这种方法学习语音到文本翻译特别有效,且优于CoVoST2到英语翻译零样本的监督SOTA。
Whisper已开源,可用于语音辨识研究。OpenAI创始人Ilya Sutskever表示“终于有个能理解我说话的可靠语音辨识系统。”
特斯拉人工智慧和自动驾驶部门前负责人Andrej Karpathy也转推,称“OpenAI处于最佳状态”。
但对Whisper不少用户有疑虑。网友Vincent Lordier提出“之前GTP-3和Dalle-2出现言论禁止,是否使用Whisper时也会有,是否会出现Whisper编辑/删除用户语音?”
大家又怎么看这类语音辨识?
- Introducing Whisper
(本文由 雷锋网 授权转载;首图来源:shutterstock)
▼
特别声明 本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。