Optimice los modelos de aprendizaje profundo con TensorRT para una inferencia más rápida y eficiente en las GPU NVIDIA. Consigue rendimiento en tiempo real con YOLO y las aplicaciones de IA.
TensorRT es una biblioteca de tiempo de ejecución y optimizador de inferencia de aprendizaje profundo (DL) de alto rendimiento desarrollada por NVIDIA. Está diseñada específicamente para maximizar el rendimiento de inferencia y minimizar la latencia de inferencia para aplicaciones de aprendizaje profundo que se ejecutan en GPUs NVIDIA. TensorRT toma modelos de redes neuronales entrenados a partir de diversos marcos de trabajo y aplica numerosas optimizaciones para generar un motor de ejecución altamente optimizado para su implantación. Este proceso es crucial para implantar modelos de forma eficiente en entornos de producción, especialmente cuando la velocidad y la capacidad de respuesta son fundamentales.
TensorRT consigue importantes mejoras de rendimiento gracias a varias técnicas sofisticadas:
El flujo de trabajo normalmente implica tomar un modelo entrenado (por ejemplo, de PyTorch o TensorFlow, a menudo a través de un formato intermedio como ONNX) e introducirlo en el optimizador TensorRT. TensorRT analiza el modelo, realiza optimizaciones de grafos y optimizaciones específicas del objetivo basadas en la precisión especificada y la GPU objetivo, y finalmente genera un plan de inferencia optimizado, conocido como motor TensorRT. Este archivo de motor puede desplegarse para una inferencia rápida.
TensorRT es muy relevante para la fase de despliegue de modelos del ciclo de vida del aprendizaje automático. Su capacidad para acelerar significativamente la inferencia lo hace indispensable para aplicaciones que requieren inferencia en tiempo real, como la detección de objetos con modelos como Ultralytics YOLO, la segmentación de imágenes y el procesamiento del lenguaje natural. Es un componente clave de la pila de software de NVIDIA, junto con herramientas como CUDA, que permite a los desarrolladores aprovechar todo el potencial del hardware NVIDIA, desde las potentes GPU para centros de datos hasta los módulos NVIDIA Jetson de bajo consumo para Edge AI. Ultralytics proporciona una integración perfecta, lo que permite a los usuarios exportar modelos YOLO al formato TensorRT para una implantación optimizada, que suele utilizarse con plataformas como Triton Inference Server.
TensorRT se utiliza ampliamente en diversos sectores en los que se necesita una inferencia de IA rápida y eficiente:
Aunque TensorRT se centra en optimizar la inferencia específicamente para las GPU NVIDIA, existen otras herramientas en el ecosistema:
El principal factor diferenciador de TensorRT es su profunda integración con el hardware de NVIDIA y sus agresivas estrategias de optimización adaptadas a las GPU, que a menudo proporcionan el mayor rendimiento en las pruebas comparativas (véase MLPerf Benchmarks) en plataformas NVIDIA en comparación con otros tiempos de ejecución de uso más general. La gestión de modelos e implantaciones puede agilizarse utilizando plataformas como Ultralytics HUB.