利用 TensorRT 优化深度学习模型,在英伟达™(NVIDIA®)GPU 上实现更快、更高效的推理。利用 YOLO 和 AI 应用程序实现实时性能。
TensorRT 是英伟达™(NVIDIA® )开发的高性能深度学习(DL)推理优化器和运行时库。它专为在英伟达™(NVIDIA®)GPU 上运行的深度学习应用而设计,旨在最大限度地提高推理吞吐量并减少推理延迟。TensorRT 从各种框架中提取训练有素的神经网络模型,并进行大量优化,生成高度优化的运行时引擎,以供部署。这一过程对于在生产环境中高效部署模型至关重要,尤其是在速度和响应速度至关重要的情况下。
TensorRT 通过几种复杂的技术显著提高了性能:
工作流程通常包括获取训练有素的模型(例如来自PyTorch或TensorFlow 的模型,通常通过ONNX 等中间格式)并将其输入 TensorRT 优化器。TensorRT 对模型进行解析,根据指定的精度和目标 GPU 执行图优化和目标特定优化,最后生成优化推理计划,即 TensorRT 引擎。然后就可以部署该引擎文件,进行快速推理。
TensorRT 与机器学习生命周期中的模型部署阶段密切相关。TensorRT 能够显著加快推理速度,因此对于需要实时推理的应用(如使用Ultralytics YOLO 等模型进行物体检测、图像分割和自然语言处理)来说是不可或缺的。Ultralytics 是英伟达™(NVIDIA®)软件栈中的一个关键组件,与CUDA 等工具一起使开发人员能够充分利用英伟达™(NVIDIA®)硬件的全部潜力,从强大的数据中心 GPU到用于边缘人工智能的高能效英伟达™(NVIDIA®)Jetson模块。Ultralytics 提供无缝集成,允许用户将YOLO 模型导出为 TensorRT 格式,以便优化部署,通常与Triton Inference Server 等平台一起使用。
TensorRT 广泛应用于需要快速高效人工智能推理的各行各业:
虽然 TensorRT 专注于专门针对英伟达™(NVIDIA®)GPU 的推理优化,但生态系统中也存在其他工具:
TensorRT 的关键优势在于其与英伟达™(NVIDIA®)硬件的深度集成,以及专为 GPU 量身定制的积极优化策略,与更通用的运行时相比,TensorRT 经常能在英伟达™(NVIDIA®)平台上实现最高的性能基准(参见MLPerf 基准)。使用Ultralytics HUB 等平台可以简化模型和部署管理。