Google 开放 BERT 模型原始码,提供顶尖自然语言处理表现

Google 开放 BERT 模型原始码,提供顶尖自然语言处理表现

Google人工智慧相关研究的成果一向相当优异,之前公布的 BERT 模型更在自然语言处理方面再次打破纪录,获得不少垂青。最近 Google 终于把模型原始码等组件开源,为开发者社群带来强力工具。

BERT 模型是预先训练语言特征,透过大型文本数据库训练,获得通用语言理解模型。此模型可应用在自然语言处理下游工作,包括常用问答处理等。BERT 是首个用于预先训练自然语言处理的无监督、双向深层系统,只需要应用文本资料库就可训练,减少大量开发程序,效果也相当出色。

Google 在 Github 开源的除了 BERT 模型的 TensorFlow 原始码,也有 BERT-Base 与 BERT-Large 模型的预先训练检查点、微调实验结果的自动化复现 TensorFlow 原始码、预先训练数据生成和数据训练的原始码,可谓相当全面。

BERT 于史丹佛 SQuAD 阅读理解测试,取得 93.2% 准确度的极高分数,比人类阅读的基准分数 91.6% 还高,在另一个 GLUE 基准测试也取得 80.4% 准确率。有了这工具,开发者就可制作更准确理解自然语言的应用,对人工智慧开发有不小帮助。

  • Google open-sources BERT, a state-of-the-art pretraining technique for natural language processing

(本文由 Unwire Pro 授权转载;首图来源:Google AI)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。