Scoprite come le architetture Transformer rivoluzionano l'IA, consentendo di ottenere risultati rivoluzionari in NLP, computer vision e attività di ML avanzate.
I trasformatori rappresentano un'architettura di rete neurale fondamentale che ha fatto progredire in modo significativo i campi dell'intelligenza artificiale (AI) e dell'apprendimento automatico (ML), in particolare nell'elaborazione del linguaggio naturale (NLP) e sempre più nella visione artificiale (CV). Introdotte nell'influente articolo"Attention Is All You Need", le reti neurali elaborano dati sequenziali, come testi o serie temporali, utilizzando un meccanismo chiamato auto-attenzione. Ciò consente al modello di pesare dinamicamente l'importanza delle diverse parti dell'input, superando le limitazioni chiave di architetture più vecchie come le reti neurali ricorrenti (RNN).
L'innovazione principale di Transformers è il meccanismo di autoattenzione. A differenza delle RNN, che elaborano l'input in modo sequenziale (un elemento dopo l'altro) e possono avere difficoltà con le sequenze lunghe a causa di problemi come la scomparsa dei gradienti, i Transformer possono considerare tutte le parti della sequenza di input simultaneamente. Questa capacità di elaborazione in parallelo accelera notevolmente l'addestramento su hardware moderno come le GPU di aziende come NVIDIA.
Mentre le tipiche reti neurali convoluzionali (CNN) si concentrano sulle caratteristiche locali attraverso filtri di dimensioni fisse che eseguono la convoluzione, il meccanismo dell'attenzione consente ai trasformatori di catturare le dipendenze a lungo raggio e le relazioni contestuali nell'intero input. Questa capacità di comprendere il contesto globale è fondamentale per i compiti che implicano relazioni complesse, sia nel testo che nelle patch di immagini utilizzate nei Vision Transformers (ViT).
I trasformatori sono diventati la base di molti modelli di IA all'avanguardia, grazie alla loro efficacia nel catturare il contesto e nel gestire sequenze lunghe. La loro natura parallelizzabile ha permesso l'addestramento di modelli massivi con miliardi di parametri, come GPT-3 e GPT-4 sviluppati da OpenAI, portando a scoperte nell'IA generativa. Questa scalabilità e queste prestazioni hanno reso i Transformer centrali per il progresso di varie attività di IA, guidando l'innovazione nella ricerca e nell'industria. Molti modelli Transformer popolari, come BERT, sono facilmente disponibili attraverso piattaforme come Hugging Face e implementati utilizzando framework come PyTorch e TensorFlow, spesso integrati in piattaforme MLOps come Ultralytics HUB.
I trasformatori sono altamente versatili e alimentano numerose applicazioni AI:
È utile distinguere i trasformatori da altre architetture di reti neurali comuni: