Glossario

TensorRT

Ottimizzate i modelli di deep learning con TensorRT per un'inferenza più rapida ed efficiente sulle GPU NVIDIA. Ottenere prestazioni in tempo reale con YOLO e le applicazioni di AI.

TensorRT è un ottimizzatore di inferenza (DL) ad alte prestazioni e una libreria di runtime sviluppata da NVIDIA. È stato progettato specificamente per massimizzare il throughput di inferenza e minimizzare la latenza di inferenza per le applicazioni di deep learning in esecuzione sulle GPU NVIDIA. TensorRT prende i modelli di rete neurale addestrati da vari framework e applica numerose ottimizzazioni per generare un motore di runtime altamente ottimizzato per la distribuzione. Questo processo è fondamentale per distribuire i modelli in modo efficiente negli ambienti di produzione, soprattutto quando velocità e reattività sono fondamentali.

Caratteristiche principali e ottimizzazioni

TensorRT ottiene miglioramenti significativi delle prestazioni grazie a diverse tecniche sofisticate:

Calibrazione della precisione: Riduce la precisione del modello da FP32 a precisioni inferiori come FP16 o INT8 (precisione mista o quantizzazione del modello) con una perdita minima di accuratezza, che porta a calcoli più veloci e a un minore utilizzo della memoria.
Fusione di livelli e tensori: Combina più livelli o operazioni in un unico kernel(Layer Fusion), riducendo l'utilizzo della larghezza di banda della memoria e l'overhead del lancio del kernel.
Kernel Auto-Tuning: Seleziona i migliori algoritmi preimplementati (kernel) per l'architettura della GPU NVIDIA di destinazione, garantendo prestazioni ottimali per l'hardware specifico.
Memoria dinamica dei tensori: Riduce al minimo l'ingombro della memoria riutilizzando la memoria allocata per i tensori la cui durata non si sovrappone.
Esecuzione multi-stream: Consente l'elaborazione parallela di più flussi di ingresso.

Come funziona TensorRT

Il flusso di lavoro prevede tipicamente l'acquisizione di un modello addestrato (ad esempio, da PyTorch o TensorFlow, spesso tramite un formato intermedio come ONNX) e la sua alimentazione nell'ottimizzatore TensorRT. TensorRT analizza il modello, esegue ottimizzazioni del grafo e ottimizzazioni specifiche in base alla precisione e alla GPU di destinazione specificate e infine genera un piano di inferenza ottimizzato, noto come motore TensorRT. Questo file di motore può essere distribuito per un'inferenza veloce.

Rilevanza nell'IA e nel ML

TensorRT è molto importante per la fase di implementazione dei modelli nel ciclo di vita dell'apprendimento automatico. La sua capacità di accelerare in modo significativo l'inferenza lo rende indispensabile per le applicazioni che richiedono un'inferenza in tempo reale, come il rilevamento di oggetti con modelli come Ultralytics YOLO, la segmentazione delle immagini e l'elaborazione del linguaggio naturale. È un componente chiave dello stack software di NVIDIA, insieme a strumenti come CUDA, che consente agli sviluppatori di sfruttare tutto il potenziale dell'hardware NVIDIA, dalle potenti GPU per data center ai moduli NVIDIA Jetson a basso consumo energetico per l'Edge AI. Ultralytics offre una perfetta integrazione, consentendo agli utenti di esportare i modelli YOLO in formato TensorRT per una distribuzione ottimizzata, spesso utilizzata con piattaforme come Triton Inference Server.

Applicazioni del mondo reale

TensorRT è ampiamente utilizzato in diversi settori in cui è necessaria un'inferenza AI rapida ed efficiente:

Veicoli autonomi: Nelle auto a guida autonoma(AI in Automotive), TensorRT ottimizza i modelli di percezione (come il rilevamento degli oggetti e la segmentazione della corsia) in esecuzione su piattaforme NVIDIA DRIVE integrate, garantendo un processo decisionale in tempo reale fondamentale per la sicurezza. Modelli come RTDETR possono essere ottimizzati utilizzando TensorRT per l'implementazione in tali sistemi(confronto tra RTDETRv2 e YOLOv5).
Analisi di immagini mediche: ospedali e istituti di ricerca utilizzano TensorRT per accelerare l'inferenza di modelli di IA che analizzano scansioni mediche (TC, RM) per attività come il rilevamento di tumori o l'identificazione di anomalie(AI in Healthcare), consentendo diagnosi più rapide e supportando i flussi di lavoro clinici. Spesso questo fa parte di sistemi di Computer Vision (CV) più ampi.

TensorRT vs. tecnologie correlate

Mentre TensorRT si concentra sull'ottimizzazione dell'inferenza specificamente per le GPU NVIDIA, esistono altri strumenti nell'ecosistema:

Quadri di apprendimento profondo (PyTorch, TensorFlow): Sono utilizzati principalmente per l'addestramento dei modelli, ma offrono anche funzionalità di inferenza di base. TensorRT ottimizza i modelli addestrati in questi framework per la distribuzione.
Runtime ONNX: Un motore di inferenza multipiattaforma che supporta diversi acceleratori hardware, tra cui le GPU NVIDIA (spesso utilizzando TensorRT come fornitore di esecuzione), le CPU e altri. Offre una compatibilità hardware più ampia, ma potrebbe non raggiungere lo stesso livello di ottimizzazione sull'hardware NVIDIA di TensorRT direttamente.
Intel OpenVINO: simile a TensorRT ma ottimizzato per l'hardware Intel (CPU, iGPU, VPU). I modelli Ultralytics possono essere esportati anche in formato OpenVINO.

Il principale elemento di differenziazione di TensorRT è la sua profonda integrazione con l'hardware NVIDIA e le sue strategie di ottimizzazione aggressiva su misura per le GPU, che spesso producono i benchmark più performanti (si vedano i benchmark MLPerf) sulle piattaforme NVIDIA rispetto a runtime più generici. La gestione dei modelli e delle distribuzioni può essere semplificata utilizzando piattaforme come Ultralytics HUB.

TensorRT

Soluzione flessibile di licensing aziendale per alimentare la vostra innovazione

Addestrare modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

Addestrare i modelli YOLO in modo semplice con Ultralytics HUB

Caratteristiche principali e ottimizzazioni

Come funziona TensorRT

Rilevanza nell'IA e nel ML

Applicazioni del mondo reale

TensorRT vs. tecnologie correlate

Per saperne di più in questa categoria

Cos'è un algoritmo evolutivo? Una guida rapida

Esplorazione di Google Beam: uno strumento di videoconferenza 3D di nuova generazione

Esportazione dei modelli Ultralytics YOLO11 in formato modello NCNN

Unitevi alla comunità di Ultralytics