Ottimizzate i modelli di deep learning con TensorRT per un'inferenza più rapida ed efficiente sulle GPU NVIDIA. Ottenere prestazioni in tempo reale con YOLO e le applicazioni di AI.
TensorRT è un ottimizzatore di inferenza (DL) ad alte prestazioni e una libreria di runtime sviluppata da NVIDIA. È stato progettato specificamente per massimizzare il throughput di inferenza e minimizzare la latenza di inferenza per le applicazioni di deep learning in esecuzione sulle GPU NVIDIA. TensorRT prende i modelli di rete neurale addestrati da vari framework e applica numerose ottimizzazioni per generare un motore di runtime altamente ottimizzato per la distribuzione. Questo processo è fondamentale per distribuire i modelli in modo efficiente negli ambienti di produzione, soprattutto quando velocità e reattività sono fondamentali.
TensorRT ottiene miglioramenti significativi delle prestazioni grazie a diverse tecniche sofisticate:
Il flusso di lavoro prevede tipicamente l'acquisizione di un modello addestrato (ad esempio, da PyTorch o TensorFlow, spesso tramite un formato intermedio come ONNX) e la sua alimentazione nell'ottimizzatore TensorRT. TensorRT analizza il modello, esegue ottimizzazioni del grafo e ottimizzazioni specifiche in base alla precisione e alla GPU di destinazione specificate e infine genera un piano di inferenza ottimizzato, noto come motore TensorRT. Questo file di motore può essere distribuito per un'inferenza veloce.
TensorRT è molto importante per la fase di implementazione dei modelli nel ciclo di vita dell'apprendimento automatico. La sua capacità di accelerare in modo significativo l'inferenza lo rende indispensabile per le applicazioni che richiedono un'inferenza in tempo reale, come il rilevamento di oggetti con modelli come Ultralytics YOLO, la segmentazione delle immagini e l'elaborazione del linguaggio naturale. È un componente chiave dello stack software di NVIDIA, insieme a strumenti come CUDA, che consente agli sviluppatori di sfruttare tutto il potenziale dell'hardware NVIDIA, dalle potenti GPU per data center ai moduli NVIDIA Jetson a basso consumo energetico per l'Edge AI. Ultralytics offre una perfetta integrazione, consentendo agli utenti di esportare i modelli YOLO in formato TensorRT per una distribuzione ottimizzata, spesso utilizzata con piattaforme come Triton Inference Server.
TensorRT è ampiamente utilizzato in diversi settori in cui è necessaria un'inferenza AI rapida ed efficiente:
Mentre TensorRT si concentra sull'ottimizzazione dell'inferenza specificamente per le GPU NVIDIA, esistono altri strumenti nell'ecosistema:
Il principale elemento di differenziazione di TensorRT è la sua profonda integrazione con l'hardware NVIDIA e le sue strategie di ottimizzazione aggressiva su misura per le GPU, che spesso producono i benchmark più performanti (si vedano i benchmark MLPerf) sulle piattaforme NVIDIA rispetto a runtime più generici. La gestione dei modelli e delle distribuzioni può essere semplificata utilizzando piattaforme come Ultralytics HUB.