Glossario

Trasformatore

Scoprite come le architetture Transformer rivoluzionano l'IA, consentendo di ottenere risultati rivoluzionari in NLP, computer vision e attività di ML avanzate.

I trasformatori rappresentano un'architettura di rete neurale fondamentale che ha fatto progredire in modo significativo i campi dell'intelligenza artificiale (AI) e dell'apprendimento automatico (ML), in particolare nell'elaborazione del linguaggio naturale (NLP) e sempre più nella visione artificiale (CV). Introdotte nell'influente articolo"Attention Is All You Need", le reti neurali elaborano dati sequenziali, come testi o serie temporali, utilizzando un meccanismo chiamato auto-attenzione. Ciò consente al modello di pesare dinamicamente l'importanza delle diverse parti dell'input, superando le limitazioni chiave di architetture più vecchie come le reti neurali ricorrenti (RNN).

Come funzionano i trasformatori

L'innovazione principale di Transformers è il meccanismo di autoattenzione. A differenza delle RNN, che elaborano l'input in modo sequenziale (un elemento dopo l'altro) e possono avere difficoltà con le sequenze lunghe a causa di problemi come la scomparsa dei gradienti, i Transformer possono considerare tutte le parti della sequenza di input simultaneamente. Questa capacità di elaborazione in parallelo accelera notevolmente l'addestramento su hardware moderno come le GPU di aziende come NVIDIA.

Mentre le tipiche reti neurali convoluzionali (CNN) si concentrano sulle caratteristiche locali attraverso filtri di dimensioni fisse che eseguono la convoluzione, il meccanismo dell'attenzione consente ai trasformatori di catturare le dipendenze a lungo raggio e le relazioni contestuali nell'intero input. Questa capacità di comprendere il contesto globale è fondamentale per i compiti che implicano relazioni complesse, sia nel testo che nelle patch di immagini utilizzate nei Vision Transformers (ViT).

Rilevanza e impatto

I trasformatori sono diventati la base di molti modelli di IA all'avanguardia, grazie alla loro efficacia nel catturare il contesto e nel gestire sequenze lunghe. La loro natura parallelizzabile ha permesso l'addestramento di modelli massivi con miliardi di parametri, come GPT-3 e GPT-4 sviluppati da OpenAI, portando a scoperte nell'IA generativa. Questa scalabilità e queste prestazioni hanno reso i Transformer centrali per il progresso di varie attività di IA, guidando l'innovazione nella ricerca e nell'industria. Molti modelli Transformer popolari, come BERT, sono facilmente disponibili attraverso piattaforme come Hugging Face e implementati utilizzando framework come PyTorch e TensorFlow, spesso integrati in piattaforme MLOps come Ultralytics HUB.

Applicazioni in AI e ML

I trasformatori sono altamente versatili e alimentano numerose applicazioni AI:

Transformer vs. altre architetture

È utile distinguere i trasformatori da altre architetture di reti neurali comuni:

  • Trasformatori vs. RNN: Le RNN elaborano i dati in modo sequenziale, il che le rende adatte alle serie temporali, ma inclini a dimenticare le informazioni precedenti nelle sequenze lunghe(problema del gradiente che svanisce). I trasformatori elaborano le sequenze in parallelo utilizzando l'autoattenzione, catturando le dipendenze a lungo raggio in modo più efficace e allenandosi più velocemente su hardware parallelo(GPU).
  • Trasformatori e CNN: Le CNN eccellono nell'identificazione di schemi locali in dati simili a griglie (ad esempio, i pixel di un'immagine) utilizzando filtri convoluzionali. Sono molto efficienti per molti compiti di visione, come quelli affrontati dai modelli YOLO di Ultralytics. I trasformatori, in particolare i ViT, dividono le immagini in patch e utilizzano l'autoattenzione per modellare le relazioni tra di esse, catturando il contesto globale in modo potenzialmente migliore, ma spesso richiedono più dati e risorse computazionali, soprattutto durante l'addestramento del modello. Le architetture ibride, che combinano le caratteristiche delle CNN con gli strati di Transformer, mirano a sfruttare i punti di forza di entrambe, come si vede in alcune varianti di RT-DETR. La scelta dipende spesso dal compito specifico, dalle dimensioni del dataset e dalle risorse di calcolo disponibili.

Unitevi alla comunità di Ultralytics

Entrate a far parte del futuro dell'IA. Connettetevi, collaborate e crescete con gli innovatori globali.

Iscriviti ora
Link copiato negli appunti