Glossario

Trasformatore

Scoprite come le architetture Transformer rivoluzionano l'IA, consentendo di ottenere risultati rivoluzionari in NLP, computer vision e attività di ML avanzate.

I trasformatori rappresentano un'architettura di rete neurale fondamentale che ha fatto progredire in modo significativo i campi dell'intelligenza artificiale (AI) e dell'apprendimento automatico (ML), in particolare nell'elaborazione del linguaggio naturale (NLP) e sempre più nella visione artificiale (CV). Introdotte nell'influente articolo"Attention Is All You Need", le reti neurali elaborano dati sequenziali, come testi o serie temporali, utilizzando un meccanismo chiamato auto-attenzione. Ciò consente al modello di pesare dinamicamente l'importanza delle diverse parti dell'input, superando le limitazioni chiave di architetture più vecchie come le reti neurali ricorrenti (RNN).

Come funzionano i trasformatori

L'innovazione principale di Transformers è il meccanismo di autoattenzione. A differenza delle RNN, che elaborano l'input in modo sequenziale (un elemento dopo l'altro) e possono avere difficoltà con le sequenze lunghe a causa di problemi come la scomparsa dei gradienti, i Transformer possono considerare tutte le parti della sequenza di input simultaneamente. Questa capacità di elaborazione in parallelo accelera notevolmente l'addestramento su hardware moderno come le GPU di aziende come NVIDIA.

Mentre le tipiche reti neurali convoluzionali (CNN) si concentrano sulle caratteristiche locali attraverso filtri di dimensioni fisse che eseguono la convoluzione, il meccanismo dell'attenzione consente ai trasformatori di catturare le dipendenze a lungo raggio e le relazioni contestuali nell'intero input. Questa capacità di comprendere il contesto globale è fondamentale per i compiti che implicano relazioni complesse, sia nel testo che nelle patch di immagini utilizzate nei Vision Transformers (ViT).

Rilevanza e impatto

I trasformatori sono diventati la base di molti modelli di IA all'avanguardia, grazie alla loro efficacia nel catturare il contesto e nel gestire sequenze lunghe. La loro natura parallelizzabile ha permesso l'addestramento di modelli massivi con miliardi di parametri, come GPT-3 e GPT-4 sviluppati da OpenAI, portando a scoperte nell'IA generativa. Questa scalabilità e queste prestazioni hanno reso i Transformer centrali per il progresso di varie attività di IA, guidando l'innovazione nella ricerca e nell'industria. Molti modelli Transformer popolari, come BERT, sono facilmente disponibili attraverso piattaforme come Hugging Face e implementati utilizzando framework come PyTorch e TensorFlow, spesso integrati in piattaforme MLOps come Ultralytics HUB.

Applicazioni in AI e ML

I trasformatori sono altamente versatili e alimentano numerose applicazioni AI:

Modelli linguistici di grandi dimensioni (LLM): Alimentazione di modelli come ChatGPT per compiti complessi di comprensione e generazione del linguaggio.
Traduzione automatica: Servizi come Google Translate utilizzano modelli basati su Transformer per la traduzione di alta qualità tra le lingue.
Riassunto del testo: Condensare documenti di grandi dimensioni in riassunti concisi.
Sentiment Analysis: Determinare il tono emotivo dei dati di testo.
Chatbot e assistenti virtuali: Consentire conversazioni più naturali e consapevoli del contesto.
Trasformatori di visione (ViT): Applicazione dell'architettura Transformer ai compiti visivi.
Classificazione delle immagini: Categorizzazione delle immagini in base al loro contenuto utilizzando caratteristiche globali.
Rilevamento di oggetti: Identificazione e localizzazione di oggetti all'interno delle immagini, come si vede in modelli come RT-DETR. Alcuni modelli offrono backbone basati su Transformer. È possibile esplorare confronti tecnici come RTDETRv2 vs YOLOv5.
Analisi delle immagini mediche: Assistenza nel rilevamento di anomalie nelle scansioni, contribuendo ai progressi dell'IA nell'assistenza sanitaria.
Generazione di sequenze in biologia: Modellazione di strutture proteiche e sequenze genomiche.

Transformer vs. altre architetture

È utile distinguere i trasformatori da altre architetture di reti neurali comuni:

Trasformatori vs. RNN: Le RNN elaborano i dati in modo sequenziale, il che le rende adatte alle serie temporali, ma inclini a dimenticare le informazioni precedenti nelle sequenze lunghe(problema del gradiente che svanisce). I trasformatori elaborano le sequenze in parallelo utilizzando l'autoattenzione, catturando le dipendenze a lungo raggio in modo più efficace e allenandosi più velocemente su hardware parallelo(GPU).
Trasformatori e CNN: Le CNN eccellono nell'identificazione di schemi locali in dati simili a griglie (ad esempio, i pixel di un'immagine) utilizzando filtri convoluzionali. Sono molto efficienti per molti compiti di visione, come quelli affrontati dai modelli YOLO di Ultralytics. I trasformatori, in particolare i ViT, dividono le immagini in patch e utilizzano l'autoattenzione per modellare le relazioni tra di esse, catturando il contesto globale in modo potenzialmente migliore, ma spesso richiedono più dati e risorse computazionali, soprattutto durante l'addestramento del modello. Le architetture ibride, che combinano le caratteristiche delle CNN con gli strati di Transformer, mirano a sfruttare i punti di forza di entrambe, come si vede in alcune varianti di RT-DETR. La scelta dipende spesso dal compito specifico, dalle dimensioni del dataset e dalle risorse di calcolo disponibili.

Trasformatore

Soluzione flessibile di licensing aziendale per alimentare la vostra innovazione

Addestrare modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

Addestrare i modelli YOLO in modo semplice con Ultralytics HUB

Come funzionano i trasformatori

Rilevanza e impatto

Applicazioni in AI e ML

Transformer vs. altre architetture

Per saperne di più in questa categoria

Cos'è un algoritmo evolutivo? Una guida rapida

Esplorazione di Google Beam: uno strumento di videoconferenza 3D di nuova generazione

Esportazione dei modelli Ultralytics YOLO11 in formato modello NCNN

Unitevi alla comunità di Ultralytics