Glossario

Modello linguistico di grandi dimensioni (LLM)

Scoprite come i Large Language Models (LLM) rivoluzionano l'IA con l'NLP avanzato, alimentando chatbot, creazione di contenuti e altro ancora. Imparate i concetti chiave!

I modelli linguistici di grandi dimensioni (LLM) rappresentano un progresso significativo nel campo dell'intelligenza artificiale (AI), in particolare nell'ambito dell'elaborazione del linguaggio naturale (NLP). Questi modelli sono caratterizzati da una scala immensa, spesso contenente miliardi di parametri, e vengono addestrati su vasti set di dati comprendenti testo e codice. Questo addestramento approfondito consente ai LLM di comprendere il contesto, generare testi coerenti e simili a quelli umani, tradurre le lingue, rispondere alle domande ed eseguire un'ampia gamma di compiti basati sul linguaggio con notevole competenza. Si tratta di un tipo specifico di modello di Deep Learning (DL), che guida l'innovazione in numerose applicazioni e costituisce una pietra miliare della moderna IA generativa.

Definizione

Un Large Language Model è fondamentalmente una sofisticata rete neurale (NN), tipicamente basata sull'architettura Transformer, introdotta nell'influente articolo"Attention Is All You Need". Il termine "grande" in LLM si riferisce all'enorme numero di parametri - variabiliregolate durante l'addestramento - che può variare da miliardi a trilioni. In genere, un numero maggiore di parametri consente al modello di apprendere modelli più complessi dai dati.

I LLM apprendono questi schemi attraverso l'apprendimento non supervisionato su enormi corpora di testo raccolti da Internet, libri e altre fonti, spesso definiti Big Data. Questo processo li aiuta a comprendere la grammatica, i fatti, le capacità di ragionamento e persino sfumature come il tono e lo stile, ma può anche portarli ad apprendere pregiudizi presenti nei dati di addestramento. Una capacità fondamentale sviluppata durante l'addestramento è la previsione delle parole successive in una frase. Questa capacità predittiva costituisce la base per compiti più complessi come la generazione di testi, la modellazione del linguaggio e la risposta alle domande.

Esempi noti sono la serie GPT di OpenAI (come GPT-4), i modelli Llama di Meta AI come Llama 3, Gemini di Google DeepMind e Claude di Anthropic.

Applicazioni

La versatilità delle LLM consente di applicarle a diversi ambiti. Ecco due esempi concreti:

Concetti chiave

La comprensione degli LLM implica la familiarità con diversi concetti correlati:

  • Modelli di fondazione: I LLM sono spesso considerati modelli di base perché sono stati addestrati su dati ampi e possono essere adattati (o messi a punto) per un'ampia gamma di attività a valle senza dover essere addestrati da zero.
  • Meccanismi di attenzione: In particolare, questi meccanismi permettono al modello di valutare l'importanza delle diverse parole (token) nella sequenza di input quando elabora una particolare parola. Questo è fondamentale per comprendere il contesto e le relazioni all'interno del testo.
  • Ingegneria tempestiva: Si tratta dell'arte e della scienza di progettare prompt di input efficaci per guidare un LLM verso la generazione dell'output desiderato. La qualità del prompt influenza in modo significativo l'accuratezza e la pertinenza della risposta. Tecniche come il prompt a catena di pensieri aiutano a migliorare il ragionamento in compiti complessi.
  • Tokenizzazione: Prima di elaborare il testo, i LLM lo suddividono in unità più piccole, chiamate token. Questi token possono essere parole, sottoparole o caratteri. La tokenizzazione converte il testo grezzo in un formato numerico che il modello può comprendere. Piattaforme come Hugging Face forniscono strumenti e informazioni sulle diverse strategie di tokenizzazione.

LLM e modelli di visione artificiale

Pur eccellendo nei compiti linguistici, i LLM differiscono in modo significativo dai modelli progettati principalmente per la visione artificiale (CV). I modelli CV, come i modelli Ultralytics YOLO (ad esempio, YOLOv8, YOLOv9, YOLOv10 e YOLO11), sono specializzati nell'interpretazione di informazioni visive da immagini o video. I loro compiti comprendono il rilevamento di oggetti, la classificazione di immagini e la segmentazione di istanze.

Tuttavia, il confine si sta attenuando con l'avvento dei modelli multimodali e dei modelli linguistici di visione (VLM). Questi modelli, come GPT-4o di OpenAI o Gemini di Google, integrano la comprensione attraverso diverse modalità (ad esempio, testo e immagini), consentendo di svolgere compiti come la descrizione di immagini o la risposta a domande su contenuti visivi.

Piattaforme come Ultralytics HUB forniscono strumenti e infrastrutture per l'addestramento e la distribuzione di vari modelli di IA, compresi quelli per le attività di visione, facilitando lo sviluppo di diverse applicazioni di IA. Man mano che gli LLM e altri modelli di IA diventano più potenti, le considerazioni sull'etica dell'IA, sulle distorsioni degli algoritmi e sulla privacy dei dati diventano sempre più importanti. Per ulteriori informazioni sui concetti di IA e sul confronto dei modelli, esplorare la documentazione di Ultralytics e le pagine di confronto dei modelli.

Unitevi alla comunità di Ultralytics

Entrate a far parte del futuro dell'IA. Connettetevi, collaborate e crescete con gli innovatori globali.

Iscriviti ora
Link copiato negli appunti