Glossario

Modello multimodale

Scoprite come i modelli di intelligenza artificiale multimodale integrano testo, immagini e altro ancora per creare sistemi robusti e versatili per applicazioni reali.

I modelli multimodali rappresentano un progresso significativo nell'intelligenza artificiale (IA) grazie all'elaborazione e all'integrazione di informazioni provenienti da diversi tipi di fonti di dati, note come modalità. A differenza dei modelli tradizionali, che possono concentrarsi solo su immagini o testo, i sistemi multimodali combinano input come testo, immagini, audio, video e dati dei sensori per ottenere una comprensione più olistica e simile a quella umana di scenari complessi. Questa integrazione consente di cogliere relazioni e contesti complessi che i modelli a modalità singola potrebbero non cogliere, portando ad applicazioni di IA più robuste e versatili, approfondite in risorse come il blog Ultralytics.

Definizione

Un modello multimodale è un sistema di intelligenza artificiale progettato e addestrato per elaborare, comprendere e mettere in relazione simultaneamente informazioni provenienti da due o più modalità di dati distinte. Le modalità più comuni includono dati visivi (immagini, video), uditivi (parlato, suoni), testuali(elaborazione del linguaggio naturale - NLP) e altri dati di sensori (come LiDAR o letture della temperatura). L'idea di base è la fusione delle informazioni: combinare i punti di forza di diversi tipi di dati per ottenere una comprensione più approfondita. Per esempio, la comprensione completa di un video implica l'elaborazione dei fotogrammi visivi, del dialogo parlato (audio) e potenzialmente delle didascalie o dei sottotitoli. Apprendendo le correlazioni e le dipendenze tra queste modalità durante il processo di addestramento del machine learning (ML), spesso utilizzando tecniche di deep learning (DL), questi modelli sviluppano una comprensione più ricca e ricca di sfumature rispetto a quella possibile analizzando ciascuna modalità in modo isolato.

Rilevanza e applicazioni

L'importanza dei modelli multimodali sta crescendo rapidamente perché le informazioni del mondo reale sono intrinsecamente sfaccettate. Gli esseri umani percepiscono naturalmente il mondo utilizzando più sensi; dotare l'intelligenza artificiale di capacità simili consente di realizzare applicazioni più sofisticate e consapevoli del contesto. Questi modelli sono fondamentali quando la comprensione dipende dall'integrazione di diversi flussi di dati, con conseguente miglioramento della precisione in compiti complessi.

Ecco alcuni esempi concreti della loro applicazione:

Modelli linguistici di visione (VLM) per la comprensione delle immagini: Modelli come PaliGemma 2 di Google, Florence-2 di Microsoft e CLIP di OpenAI combinano dati di immagine e di testo. Possono svolgere compiti come l'image captioning (generazione di descrizioni testuali per le immagini) o il Visual Question Answering (VQA) (risposta a domande in linguaggio naturale basate sul contenuto di un'immagine).
Sistemi di guida autonoma: Aziende come Waymo sviluppano veicoli che si basano fortemente su input multimodali. Fondono i dati provenienti da telecamere (visive), LiDAR (profondità e forma), radar (distanza e velocità) e talvolta sensori audio per percepire l'ambiente, prevedere i movimenti degli oggetti e navigare in sicurezza. Ciò richiede l'elaborazione di diversi flussi di dati per l'inferenza in tempo reale.
Analisi del sentiment migliorata: L'analisi del sentiment può essere più accurata combinando il testo con spunti audio (tono di voce) e visivi (espressioni facciali). La ricerca esplora la sentiment analysis multimodale per applicazioni nell'analisi del feedback dei clienti o nell'interazione uomo-macchina.
Analisi delle immagini mediche: La combinazione di scansioni mediche (come radiografie o risonanze magnetiche) con cartelle cliniche elettroniche (testo) può portare a diagnosi più accurate. Per saperne di più sui progressi dell'IA e della radiologia.

Concetti chiave e distinzioni

La comprensione dei modelli multimodali implica la familiarità con i concetti correlati:

Apprendimento multimodale: È il sottocampo del ML incentrato sullo sviluppo degli algoritmi e delle tecniche utilizzate per addestrare modelli multimodali. Affronta sfide come l'allineamento dei dati e le strategie di fusione, spesso discusse in documenti accademici.
Modelli di fondazione: Molti modelli di base moderni, come il GPT-4, sono intrinsecamente multimodali, in grado di elaborare sia testo che immagini. Questi modelli di grandi dimensioni servono come base che può essere messa a punto per compiti specifici.
Modelli linguistici di grandi dimensioni (LLM): Pur essendo correlati, gli LLM si concentrano tradizionalmente sull'elaborazione del testo. I modelli multimodali sono più ampi, progettati esplicitamente per gestire e integrare informazioni provenienti da diversi tipi di dati, oltre al linguaggio. Alcuni LLM avanzati, tuttavia, hanno sviluppato capacità multimodali.
Modelli di visione specializzati: I modelli multimodali differiscono dai modelli specializzati di visione artificiale (CV) come Ultralytics YOLO. Mentre un modello multimodale come GPT-4 può descrivere un'immagine ("C'è un gatto seduto su un tappeto"), un modello YOLO eccelle nel rilevamento di oggetti o nella segmentazione di istanze, localizzando con precisione il gatto con un riquadro di delimitazione o una maschera di pixel. Questi modelli possono essere complementari: YOLO identifica la posizione degli oggetti, mentre un modello multimodale può interpretare la scena o rispondere a domande su di essa. Si vedano i confronti tra i diversi modelli YOLO.
Architettura del trasformatore: L'architettura del trasformatore, introdotta in "L'attenzione è tutto ciò che serve", è fondamentale per molti modelli multimodali di successo, in quanto consente di elaborare e integrare efficacemente diverse sequenze di dati attraverso meccanismi di attenzione.

Lo sviluppo e l'implementazione di questi modelli spesso coinvolge framework come PyTorch e TensorFlow, e piattaforme come Ultralytics HUB possono aiutare a gestire i dataset e i flussi di lavoro per l'addestramento dei modelli, anche se HUB attualmente si concentra maggiormente su compiti specifici per la visione. La capacità di collegare diversi tipi di dati rende i modelli multimodali un passo avanti verso un'intelligenza artificiale più completa, che potrebbe contribuire alla futura intelligenza generale artificiale (AGI).

Modello multimodale

Soluzione flessibile di licensing aziendale per alimentare la vostra innovazione

Addestrare modelli di intelligenza artificiale in pochi secondi con Ultralytics YOLO

Addestrare i modelli YOLO in modo semplice con Ultralytics HUB

Definizione

Rilevanza e applicazioni

Concetti chiave e distinzioni

Per saperne di più in questa categoria

Esportazione dei modelli Ultralytics YOLO11 in formato modello NCNN

I punti salienti di Ultralytics al CVPR 2025

Cos'è OpenPose? Esplorare una pietra miliare nella stima della posa

Unitevi alla comunità di Ultralytics