1.2 毫秒!Nvidia TensorRT 8 运行 BERT-Large 推理创纪录

1.2 毫秒!Nvidia TensorRT 8 运行 BERT-Large 推理创纪录

自今年 5 月 TensorRT 8-EA 版(Early Access,尝鲜版)发表后,Nvidia 终于在 20 日发表 TensorRT 8 正式版。

支援Nvidia GPU平台的深度学习推理框架,TensorRT 8正式版与以往版本相比,能在1.2毫秒内运行全球广为采用的基于transforemer模型之一BERT-Large,即将语言查询推理时间缩短至上一版一半,创下最新纪录,为搜寻引擎、广告推荐和聊天机器人AI模型提供支援。

Nvidia声称,TensorRT8不仅针对transformer突破性最佳化,还新增其他两项关键特性,突破AI推理。

推理时间缩短至1.2毫秒,速度提升1倍

AI模型以指数级的速度增长,很多公司不得不缩减模型大小以追求回应速度。Nvidia 2016年推出的TensorRT可帮助这些企业扩大规模,提升精确度。”AI软件部的产品管理总监Kari Briski回顾TensorRT推出背景时说。1.2 毫秒!Nvidia TensorRT 8 运行 BERT-Large 推理创纪录 AI与大数据 图2张

TensorRT是Nvidia自家深度学习推理框架,模型推理过程可将Pytorch、TensorFlow等其他框架训练好的模型转化为TensorRT格式,再使用TensorRT推理引擎运行,提升模型在GPU的运行速度。支援更多模型和进一步缩短推理时间,提高推理速度是广大AI软件开发者对TensorRT升级的普遍期望。

2019年,黄仁勋在GTC China发表TensorRT 7。相比只支援30多种模型的TensorRT 5,TensorRT 7支援各种类型RNN、Transformer和CNN,支援多达1千多种不同类型的计算变换和优化,还能让推理时间缩短至0.3秒,为此黄仁勋称为“最大飞跃”。

这次更新的TensorRT 8版本,虽然升级“飞跃”程度比不上从5.0版本到7.0版本的升级,但也有一定程度更新。Nvidia宣称,TensorRT 8各项最佳化为语言带来创纪录速度,能在1.2毫秒内运行全球广为采用的基于transforemer模型之一BERT-Large,帮助企业将模型扩大1倍或2倍,提高精确度。

落实到应用,这种推理速度能让对话式AI更智慧,互动应用程式性能也能提升。

新增两项核心技术,是推理速度提升的关键

凭藉TensorRT提升模型在Nvidia GPU的运行速度,主要得益于TensorRT一系列最佳化:

  • 权重与启动精确度校准:透过将模型量化为INT8更提升输送量,同时保持高精确度,力求精确度和输送量的最大平衡。
  • 层与张量融合:透过融合内核节点,最佳化GPU视讯记忆体和频宽使用。
  • 内核自动调整:基于目标GPU选择最佳的数据层和演算法。
  • 动态张量显存:更大限度减少视讯记忆体占用,为张量高效重复利用记忆体。
  • 多流执行:并行处理多个输入流的可扩展设计。

简单而言,就是在力求以低混合精确度提升输送量的同时,减少计算和记忆体存取,合并网络层。1.2 毫秒!Nvidia TensorRT 8 运行 BERT-Large 推理创纪录 AI与大数据 图3张

TensorRT 8版本,Nvidia又新加入两个关键特性,以突破AI推理性能。一是稀疏性,TensorRT 8精确度推理时,降低深度学习模型部分权重,减少模型所需频宽和记忆体,提升效率时使开发者减少计算操作并加速神经网络。此技术能帮助NVIDIA Ampere架构GPU性能提升。

二是量化感知训练。开发者使用训练好的模型,以INT8精确度推理,且不会造成精确度损失,大大减少计算和储存成本,在Tensor Core核心上高效推理。

TensorRT诞生第五年,下载次数近250万次

推理模型的速度优势让TensorRT广受欢迎。五年来有医疗、汽车、金融和零售等各领域27,500家企业,超过25万名开发者下载使用TensorRT,累计次数近250万次。1.2 毫秒!Nvidia TensorRT 8 运行 BERT-Large 推理创纪录 AI与大数据 图4张

GE医疗是TensorRT消费者之一,使用TensorRT助力加速早期检测疾病的关键工具:超音波计算机视觉创新,使临床医生透过职能医疗解决方案提供最高品质的护理。

GE医疗心血管超声首席工程师Erik Steen表示:“临床医生需要花费宝贵时间选择和评估超音波图。Vivid Patient Care Elevated Release专案研发过程,希望透过Vivid E95扫描器执行自动心脏视图检测。心脏检视演算法将选择合适的图像分析心壁运动。TensorRT凭着即时推理能力,提高视图检测演算法性能,同时缩短研发产品上市时间。”

开源AI技术的领导者Hugging Face也与Nvidia密切合作,产品总监Jeff Boudier表示,透过TensorRT 8,Hugging Face在BERT实现1毫秒推理延迟,十分期待今年稍晚为客户提供新性能。

TensorRT 8已全面上市,免费提供Nvidia计划开发者成员,用户能从TensoRT GitHub库取得最新版外挂程式、解析器和样本开放原始程式码。

(本文由 雷锋网 授权转载;首图来源:AI资源网)

   特别声明    本页内容仅供参考,版权终归原著者所有,若有侵权,请联系我们删除。