notizia

L’intelligenza artificiale generativa potrebbe inaugurare la prossima tendenza: il modello TTT

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Il focus della prossima generazione di intelligenza artificiale generativa (AI) potrebbe essere rappresentato dai modelli di addestramento in fase di test, o TTT in breve.

L'architettura Transformers è il fondamento del modello video Sora di OpenAI e il nucleo di modelli di generazione di testo come Claude di Anthropic, Gemini di Google e il modello di punta di OpenAI GPT-4o. Ma ora l’evoluzione di questi modelli sta iniziando a incontrare ostacoli tecnici, soprattutto quelli legati all’informatica. Perché i Transformer non sono particolarmente efficienti nell'elaborazione e nell'analisi di grandi quantità di dati, almeno quando vengono eseguiti su hardware standard. Le aziende costruiscono ed espandono le infrastrutture per soddisfare le esigenze dei trasformatori, il che si traduce in un drammatico aumento della domanda di energia che potrebbe non essere in grado di soddisfare la domanda in modo sostenibile.

Questo mese i ricercatori della Stanford University, della UC San Diego, della UC Berkeley e di Meta hanno annunciato congiuntamente di aver dedicato un anno e mezzo allo sviluppo dell'architettura TTT. Il gruppo di ricerca sostiene che il modello TTT non solo può gestire molti più dati rispetto a Transformers, ma non consuma la stessa potenza di calcolo di Transformers.

Perché gli outsider pensano che il modello TTT sia più promettente di Transformers? La prima cosa da capire è che una componente fondamentale di Transformers è lo "stato nascosto", che è essenzialmente una lunga lista di dati. Quando il Transformer elabora qualcosa, aggiunge voci allo stato nascosto per "ricordare" ciò che ha appena elaborato. Ad esempio, se il modello sta elaborando un libro, il valore dello stato nascosto sarà la rappresentazione di una parola (o parte di una parola).

Yu Sun, un ricercatore post-dottorato presso l'Università di Stanford che ha partecipato alla già citata ricerca TTT, ha recentemente spiegato ai media che se il Transformer è considerato un'entità intelligente, allora la tabella di ricerca e il suo stato nascosto sono il cervello del Transformer. Questo cervello implementa alcune delle funzionalità ben note di Transformer, come l'apprendimento contestuale.

Lo stato nascosto aiuta i Transformers a diventare potenti, ma ne ostacola anche lo sviluppo. Ad esempio, Transformers ha appena letto un libro Per "dire" anche una sola parola in questo libro, il modello Transformers deve eseguire la scansione dell'intera tabella di ricerca. Questo requisito computazionale equivale a rileggere l'intero libro.

Così Sun e altri ricercatori del TTT hanno pensato di sostituire gli stati nascosti con modelli di apprendimento automatico, come le bambole nidificanti dell’intelligenza artificiale, un modello all’interno di un modello. A differenza delle tabelle di ricerca di Transformers, il modello di apprendimento automatico interno del modello TTT non cresce man mano che vengono elaborati più dati. Invece, codifica i dati elaborati in variabili rappresentative chiamate pesi, motivo per cui il modello TTT ha prestazioni elevate. Non importa la quantità di dati elaborati da un modello TTT, la dimensione del suo modello interno non cambia.

Sun ritiene che i futuri modelli TTT possano elaborare in modo efficiente miliardi di dati, dalle parole alle immagini, dalle registrazioni ai video. Questo va ben oltre le capacità dei modelli esistenti. Il sistema TTT può dire X parole a un libro senza dover fare il complicato calcolo di rileggere il libro X volte. "I modelli video su larga scala basati su Transformers, come Sora, possono gestire solo video di 10 secondi perché hanno solo un "cervello" della tabella di ricerca. Il nostro obiettivo finale è sviluppare un sistema in grado di gestire video lunghi simili all'esperienza visiva nella vita umana”

I modelli TTT sostituiranno prima o poi i trasformatori? I media credono che ciò sia possibile, ma è troppo presto per trarre conclusioni adesso. Il modello TTT non è al momento un sostituto diretto dei Transformers. I ricercatori hanno sviluppato solo due piccoli modelli per lo studio, quindi al momento è difficile confrontare il TTT con i risultati ottenuti da alcuni dei modelli Transformers più grandi.

Mike Cook, docente presso il Dipartimento di Informatica del King's College di Londra, non coinvolto nel suddetto studio TTT, ha commentato che TTT è un'innovazione molto interessante. Se i dati supportano l'idea che può migliorare l'efficienza, questa è una buona notizia , ma non può dirlo. TTT è migliore dell'architettura esistente? Cook ha detto che quando era studente universitario, un vecchio professore raccontava spesso una barzelletta: come si risolve qualsiasi problema in informatica? Aggiungi un altro livello di astrazione. L'aggiunta di una rete neurale a una rete neurale gli ha ricordato la soluzione a questo scherzo.