notizia

Il nuovo metodo di ricerca e sviluppo di Meta: integrazione di modelli di intelligenza artificiale di linguaggio e diffusione per ridurre la quantità di calcoli, migliorare l'efficienza di calcolo e ottimizzare la generazione di immagini

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House ha riferito il 24 agosto che Meta AI Company ha recentemente lanciato un nuovo metodo chiamato Transfusion, in grado di combinare modelli linguistici e modelli di generazione di immagini e integrarli in un sistema di intelligenza artificiale unificato.

IT Home ha citato il team che ha affermato che Transfusion combina i vantaggi dei modelli linguistici nell'elaborazione di dati discreti come il testo e la capacità dei modelli di diffusione nel generare dati continui come le immagini.

Meta spiega che gli attuali sistemi di generazione di immagini utilizzano tipicamente codificatori di testo pre-addestrati per elaborare le parole chiave di input, che vengono poi combinate con un modello di diffusione separato per generare immagini.

Molti modelli linguistici multimodali funzionano in modo simile, concatenando modelli di testo preaddestrati con codificatori specializzati per altre modalità.

Tuttavia, Transfusion utilizza un'unica architettura Transformer unificata, adatta a tutte le modalità ed esegue l'addestramento end-to-end su dati di testo e immagini. Testo e immagini utilizzano funzioni di perdita diverse: il testo utilizza la previsione del token successivo e le immagini utilizzano la diffusione.

Per elaborare testo e immagini contemporaneamente, le immagini vengono convertite in sequenze di frammenti di immagini. In questo modo, il modello può elaborare tag di testo e frammenti di immagine simultaneamente in sequenza, e una speciale maschera di attenzione consente al modello di catturare le relazioni all'interno dell'immagine.

Diversamente dai metodi esistenti di Meta come Chameleon (che converte le immagini in marcatori discreti e poi le elabora allo stesso modo del testo), Transfusion mantiene la rappresentazione continua delle immagini ed evita la perdita di informazioni causata dalla quantizzazione.

Gli esperimenti dimostrano inoltre che Fusion scala in modo più efficiente rispetto a metodi simili. In termini di generazione di immagini, ottiene risultati simili a modelli specializzati ma con uno sforzo computazionale significativamente inferiore e, sorprendentemente, l’integrazione dei dati di immagine migliora anche le capacità di elaborazione del testo.

I ricercatori hanno addestrato un modello da 7 miliardi di parametri su 2 trilioni di tag di testo e immagini. Il modello raggiunge risultati simili a sistemi maturi come DALL-E 2 nella generazione di immagini e allo stesso tempo nell'elaborazione del testo.