1.2 毫秒！Nvidia TensorRT 8 运行 BERT-Large 推理创纪录

AI与大数据 14小时前 0

▼

自今年 5 月 TensorRT 8-EA 版（Early Access，尝鲜版）发表后，Nvidia 终于在 20 日发表 TensorRT 8 正式版。

支援Nvidia GPU平台的深度学习推理框架，TensorRT 8正式版与以往版本相比，能在1.2毫秒内运行全球广为采用的基于transforemer模型之一BERT-Large，即将语言查询推理时间缩短至上一版一半，创下最新纪录，为搜寻引擎、广告推荐和聊天机器人的AI模型提供支援。

Nvidia声称，TensorRT8不仅针对transformer突破性最佳化，还新增其他两项关键特性，突破AI推理。

推理时间缩短至1.2毫秒，速度提升1倍

“AI模型以指数级的速度增长，很多公司不得不缩减模型大小以追求回应速度。Nvidia 2016年推出的TensorRT可帮助这些企业扩大规模，提升精确度。”AI软件部的产品管理总监Kari Briski回顾TensorRT推出背景时说。

TensorRT是Nvidia自家深度学习推理框架，模型推理过程可将Pytorch、TensorFlow等其他框架训练好的模型转化为TensorRT格式，再使用TensorRT推理引擎运行，提升模型在GPU的运行速度。支援更多模型和进一步缩短推理时间，提高推理速度是广大AI软件开发者对TensorRT升级的普遍期望。

2019年，黄仁勋在GTC China发表TensorRT 7。相比只支援30多种模型的TensorRT 5，TensorRT 7支援各种类型RNN、Transformer和CNN，支援多达1千多种不同类型的计算变换和优化，还能让推理时间缩短至0.3秒，为此黄仁勋称为“最大飞跃”。

这次更新的TensorRT 8版本，虽然升级“飞跃”程度比不上从5.0版本到7.0版本的升级，但也有一定程度更新。Nvidia宣称，TensorRT 8各项最佳化为语言带来创纪录速度，能在1.2毫秒内运行全球广为采用的基于transforemer模型之一BERT-Large，帮助企业将模型扩大1倍或2倍，提高精确度。

落实到应用，这种推理速度能让对话式AI更智慧，互动应用程式性能也能提升。

新增两项核心技术，是推理速度提升的关键

凭藉TensorRT提升模型在Nvidia GPU的运行速度，主要得益于TensorRT一系列最佳化：

权重与启动精确度校准：透过将模型量化为INT8更提升输送量，同时保持高精确度，力求精确度和输送量的最大平衡。
层与张量融合：透过融合内核节点，最佳化GPU视讯记忆体和频宽使用。
内核自动调整：基于目标GPU选择最佳的数据层和演算法。
动态张量显存：更大限度减少视讯记忆体占用，为张量高效重复利用记忆体。
多流执行：并行处理多个输入流的可扩展设计。

简单而言，就是在力求以低混合精确度提升输送量的同时，减少计算和记忆体存取，合并网络层。

TensorRT 8版本，Nvidia又新加入两个关键特性，以突破AI推理性能。一是稀疏性，TensorRT 8精确度推理时，降低深度学习模型部分权重，减少模型所需频宽和记忆体，提升效率时使开发者减少计算操作并加速神经网络。此技术能帮助NVIDIA Ampere架构GPU性能提升。

二是量化感知训练。开发者使用训练好的模型，以INT8精确度推理，且不会造成精确度损失，大大减少计算和储存成本，在Tensor Core核心上高效推理。

TensorRT诞生第五年，下载次数近250万次

推理模型的速度优势让TensorRT广受欢迎。五年来有医疗、汽车、金融和零售等各领域27,500家企业，超过25万名开发者下载使用TensorRT，累计次数近250万次。

GE医疗是TensorRT消费者之一，使用TensorRT助力加速早期检测疾病的关键工具：超音波计算机视觉创新，使临床医生透过职能医疗解决方案提供最高品质的护理。

GE医疗心血管超声首席工程师Erik Steen表示：“临床医生需要花费宝贵时间选择和评估超音波图。Vivid Patient Care Elevated Release专案研发过程，希望透过Vivid E95扫描器执行自动心脏视图检测。心脏检视演算法将选择合适的图像分析心壁运动。TensorRT凭着即时推理能力，提高视图检测演算法性能，同时缩短研发产品上市时间。”

开源AI技术的领导者Hugging Face也与Nvidia密切合作，产品总监Jeff Boudier表示，透过TensorRT 8，Hugging Face在BERT实现1毫秒推理延迟，十分期待今年稍晚为客户提供新性能。

TensorRT 8已全面上市，免费提供Nvidia计划开发者成员，用户能从TensoRT GitHub库取得最新版外挂程式、解析器和样本开放原始程式码。

（本文由雷锋网授权转载；首图来源：AI资源网）

▼

特别声明本页内容仅供参考，版权终归原著者所有，若有侵权，请联系我们删除。

推理时间缩短至1.2毫秒，速度提升1倍

新增两项核心技术，是推理速度提升的关键

TensorRT诞生第五年，下载次数近250万次

相关文章