notizia

Una conversazione con il team di Qi Peng al Chongqing AI Research Institute dell'Università Jiao Tong di Shanghai: l'attuale livello di modelli di grandi dimensioni è equivalente solo a quello di un bambino di cinque anni |

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


(Fonte immagine: unsplash)

Recentemente, la notizia “Il modello grande non può determinare se 9.11 o 9.9 è più grande” ha suscitato discussioni.

Quando un utente ha chiesto a 12 grandi modelli di intelligenza artificiale in patria e all'estero, incluso GPT-4o, una domanda di matematica difficile per gli studenti della scuola primaria, "Qual è più grande, 9.11 o 9.9?", il risultato finale si è rivelato essere solo Alibaba Tongyi Qianwen e Baidu Wenxin, Minimax e Tencent Yuanbao hanno dato 4 risposte corrette, mentre 8 modelli di grandi dimensioni, incluso ChatGPT-4o, hanno dato risposte sbagliate.

Ciò significa che le capacità matematiche dei modelli di grandi dimensioni sono scarse e ci sono molti problemi che devono essere risolti.

In una precedente conversazione esclusiva con TMTpost AGI, il dottor Qi Peng, direttore dell'AI Large Model Center dell'Università Jiao Tong di Shanghai, Chongqing Artificial Intelligence Research Institute (Shanghai-Chongqing Artificial Intelligence Research Institute), ha affermato che, sebbene i modelli di grandi dimensioni abbiano grandi potenziale e in grado di gestire problemi complessi e avere la capacità di apprendere capacità di generalizzazione. Tuttavia, i modelli linguistici di grandi dimensioni potrebbero essere più simili a "studenti di arti liberali" a causa dei limiti dell'architettura del modello e della mancanza di capacità scientifiche. Inoltre, l'attuale potenza di calcolo limitata è insufficiente, i dati di testo sono insufficienti, l'accuratezza e l'affidabilità sono distorte e la scala del modello non è abbastanza grande. Il suo livello di intelligenza è ancora a livello di bambino, più simile a quello di un "bambino di cinque anni". ", ed è difficile gestire compiti complessi. , l '"illusione" esiste da molto tempo.

Qi Peng si è laureato alla Tsinghua University e ha completato un dottorato presso l'Università del Wisconsin negli Stati Uniti. Attualmente lavora presso l'Istituto di ricerca sull'intelligenza artificiale di Chongqing dell'Università Jiao Tong di Shanghai. Qi Peng è stato profondamente coinvolto per molti anni nella scienza dei dati, nell'intelligenza artificiale e in altri campi, ha partecipato a numerosi progetti scientifici e tecnologici nazionali e possiede numerosi diritti di proprietà intellettuale.

Poiché ChatGPT è diventato popolare in tutto il mondo, nell'ultimo anno circa, Qi Peng ha guidato il team del centro modelli di grandi dimensioni AI dell'Università Jiao Tong di Shanghai e dell'Istituto di ricerca sull'intelligenza artificiale di Chongqing per sviluppare in modo indipendente il modello di linguaggio di grandi dimensioni "Zhaoyan", e nel marzo di quest'anno, la valutazione SuperCLUE dell'agente modello cinese di grandi dimensioni si è classificata al terzo posto a livello globale e al secondo a livello nazionale nei parametri di riferimento.

Allo stesso tempo, nel luglio di quest'anno, Qi Peng ha guidato Zhuang Shaobin, uno studente di dottorato presso l'Università Jiao Tong di Shanghai, e altri a partecipare a un progetto comunitario open source e hanno riprodotto con successo un modello video Wensheng simile a Sora utilizzando l'avanzato Latte L'architettura dell'attenzione con disaccoppiamento spazio-temporale, dopo un attento addestramento, è stata in grado di generare un video di 16 secondi (128 fotogrammi) sul set di dati video InternVid rispetto al precedente modello open source, che può generare solo un video di 3 secondi (24 -frame), le prestazioni migliorano di 5 volte (500%).

Il 12 luglio, Qi Peng e Zhuang Shaobin hanno avuto una conversazione esclusiva con TMTpost per circa due ore, concentrandosi sull'attuale stato di sviluppo di Sora e sulle sfide affrontate dallo sviluppo di modelli di grandi dimensioni, sull'implementazione del settore e sulle direzioni di sviluppo future.

Parlando dell'impatto della tecnologia Sora, Qi Peng ha detto a TMTpost AGI che Sora è più simile a un nuovo "martello" in grado di risolvere una serie di problemi. Oltre alla generazione di video, il modello video di Sora Vincent può svolgere un ruolo anche in molti campi come la guida autonoma e la simulazione del mondo fisico. L'applicazione più intuitiva è la generazione di video. Gli utenti devono solo inserire una descrizione testuale per generare rapidamente contenuti video che soddisfino i requisiti, migliorando l'efficienza e la comodità della produzione video.

Quando si tratta di implementazione nel settore, Qi Peng ha sottolineato che i modelli di grandi dimensioni sono ampiamente utilizzati in molteplici settori verticali, ma ci sono relativamente pochi casi di implementazione effettiva. Ci sono due ragioni principali: in primo luogo, la mancanza di capacità matematiche e capacità ingegneristiche di modelli di grandi dimensioni, in secondo luogo, come parte della categoria dell’apprendimento automatico, la natura dei modelli di grandi dimensioni basati su metodi statistici determina che non possono raggiungere una precisione del 100%.

In attesa del futuro sviluppo dell’AGI, Qi Peng ha sottolineato che la società umana si trova in un periodo critico che porta all’AGI. Sebbene le capacità del modello attuale non soddisfino gli standard AGI, un giorno in futuro, quando le persone guarderanno indietro a questo periodo storico, potrebbero rendersi conto che ChatGPT ci ha messo in un importante nodo storico.

"Un obiettivo importante dell'istituto è realizzare la commercializzazione della tecnologia. Il Large Model Center si sta attualmente concentrando sull'implementazione dell'AIGC, in particolare sulla questione dell'ultimo miglio, su come trasformare i risultati della ricerca in prodotti o servizi reali per soddisfare il mercato Domanda. Sebbene l’intelligenza dei modelli di grandi dimensioni possa continuare a migliorare, dai cinque ai dieci anni, fino ai diciotto anni, e persino raggiungere il livello dei massimi esperti, tali sistemi richiederanno sempre strutture e strumenti di supporto per supportarne il funzionamento e l’applicazione. I costi di sviluppo delle strutture possono essere elevati, relativamente bassi, ma svolgono un ruolo cruciale nel promuovere l’applicazione pratica e il valore sociale dei grandi modelli", ha affermato Qi Peng.


Dr. Qi Peng, Direttore dell'AI Large Model Center dell'Istituto di Intelligenza Artificiale di Chongqing, Università Jiao Tong di Shanghai

Quello che segue è un riassunto della conversazione tra TMTpost Media AGI e Qi Peng e Zhuang Shaobin:TMTpost Media AGI: Rispetto ad altri modelli video, quali sono le differenze principali del modello video ricorrente di Sora Vincent sviluppato congiuntamente dal Chongqing Artificial Intelligence Research Institute dell'Università Jiao Tong di Shanghai?

Qi Peng: Questo progetto è stato sviluppato da un team guidato dal Dr. Zhuang Shaobin. Il team ha scelto di utilizzare tutti i dati open source per l'addestramento del modello. Il team non solo ha reso accessibili i dati, ma ha anche reso pubblico il processo di formazione. In questo modo, altri ricercatori o sviluppatori possono riprodurre il processo di training del modello nel proprio ambiente basandosi sugli stessi passaggi e impostazioni dei parametri, e verificare l'efficacia e la stabilità del modello.

Le differenze fondamentali si riflettono principalmente in tre aspetti:

Innanzitutto, il team utilizza tutti i dati open source per la formazione del modello, il che significa che l'intero processo di formazione si basa su set di dati accessibili al pubblico. Questo approccio garantisce la trasparenza e la ripetibilità del processo di formazione e chiunque sia interessato può utilizzare lo stesso set di dati per riprodurre o migliorare il modello.

In secondo luogo, il team ha adottato un metodo di addestramento indiretto, che può addestrare in modo efficiente il modello a un costo computazionale inferiore. Questo approccio è adatto per set di dati su larga scala e modelli complessi, poiché richiedono tempi di addestramento più lunghi e risorse di calcolo più elevate. Utilizzando l'addestramento indiretto, il tempo di addestramento può essere ridotto aumentando il numero di nodi di calcolo senza aumentare il costo della potenza di calcolo di un singolo nodo di calcolo.

In terzo luogo, il team ha svolto anche alcune attività di ottimizzazione di base, in particolare l'ottimizzazione del sovraccarico della memoria video. Queste ottimizzazioni consentono al modello di addestrare stabilmente video lunghi su un cluster o server, migliorando l'efficienza dell'addestramento e la scalabilità del modello.

TMTpost AGI: Qual è la logica e le ragioni dietro la scelta del modello open source?

Qi Peng: A differenza dei progetti commerciali, il vantaggio di utilizzare il modello open source per progetti di ricerca a cui collaborano team e comunità open source è che possono attrarre più personale di ricerca e sviluppo a partecipare. Poiché non ci sono restrizioni sul copyright e sulla commercializzazione, chiunque sia interessato a questo progetto può facilmente ottenere e utilizzare il modello, proporre i propri suggerimenti per miglioramenti o contribuire con nuovo codice. Questo modello può aiutare con il miglioramento continuo e l’ottimizzazione dei modelli e può anche rafforzare la comunicazione e la cooperazione interdisciplinare e trasversale.

TMTpost AGI: Questo modello video ricorrente simile a Sora utilizza l'architettura dell'attenzione di accoppiamento spazio-temporale Latte. Qual è il motivo per cui non è collegato all'architettura DiT?

Qi Peng: L'architettura del modello simile a Sora sviluppata dal team non abbandona completamente Transformer o altri modelli tradizionali, ma si espande sulla base di DiT e aggiunge la dimensione temporale per supportare l'elaborazione video. La considerazione di questa nuova architettura potrebbe essere quella di adattarsi meglio alle caratteristiche dei dati video e migliorare le prestazioni del modello nelle attività di generazione o elaborazione video.

Titanium Media AGI: L'architettura DiT presenta limitazioni nella generazione di video lunghi. L'architettura di attenzione accoppiata spazio-temporale di Latte può risolvere questi problemi?

Zhuang Shaobin: Il miglior modello attualmente addestrato dal team può generare video lunghi fino a 16 secondi. Si tratta di un enorme miglioramento rispetto ai modelli precedenti basati sull'architettura unet, che in genere potevano generare solo due o tre secondi di video. 16 secondi non sono un tempo particolarmente lungo, ma è un record relativamente lungo nel campo della generazione video.

Problemi di continuità e coerenza nella generazione di video, che sono influenzati principalmente dalla qualità dei dati. Se sono presenti situazioni incoerenti come salti di fotogramma nei dati video, è probabile che anche il modello addestrato generi video incoerenti. Inoltre, la frequenza fotogrammi e la risoluzione durante l'addestramento del modello hanno un impatto sulla qualità della generazione video. Se il modello viene addestrato solo su dati di risoluzione e frequenza fotogrammi inferiori, potrebbe non essere in grado di generare video fluidi e ad alta risoluzione.

Perché non riesco a generare un video end-to-end di un minuto o due? Un video end-to-end di uno o due minuti significa migliaia di fotogrammi o anche due o tremila fotogrammi di dati, che richiedono un consumo di risorse di elaborazione centinaia o migliaia di volte superiore. Sebbene l’architettura dell’attenzione accoppiata spazio-temporale di Latte possa teoricamente essere estesa a tale durata, nessuna istituzione attualmente dispone di potenza di calcolo e dati sufficienti per supportare tale formazione.

TMTpost AGI: Attualmente, chi utilizza Sora? Quali problemi vengono risolti? Che valore porta?

Zhuang Shaobin: Sul lato C, per i produttori video non professionisti, come i normali utenti domestici, i modelli di generazione video come Sora possono ridurre notevolmente la difficoltà della produzione video. Gli utenti devono semplicemente inserire descrizioni di testo per generare bellissimi contenuti video, rendendo più semplice la partecipazione alla creazione del video.

Sul lato B, per editor video e creativi professionisti, Sora può generare materiali video complessi o fantasiosi. I professionisti possono mettere a punto e ottimizzare in base ai materiali forniti dal modello, migliorando così l'efficienza del lavoro e la qualità della creazione.

Sora non viene utilizzato solo nella produzione video, ma ha anche una serie di esplorazioni in molteplici campi come la guida autonoma, la generazione e modellazione 3D e la ricerca fisica. Il sistema di guida autonoma deve prevedere con precisione i cambiamenti dinamici degli oggetti circostanti, e Sora, come un “simulatore del mondo”, può simulare e prevedere le traiettorie di movimento degli oggetti, fornendo una modellazione ambientale più accurata per il sistema di guida autonoma.

Ad esempio, nel campo della guida autonoma, la soluzione di guida autonoma di Tesla e simili sistemi avanzati di assistenza alla guida hanno compiuto progressi tecnologici significativi. Possono percepire l'ambiente circostante in tempo reale, inclusi veicoli, pedoni, ostacoli, ecc., che è la chiave alla realizzazione della guida autonoma. Sora aiuta i sistemi di guida autonoma a prendere decisioni in anticipo per evitare situazioni potenzialmente pericolose, come collisioni e tamponamenti. Allo stesso tempo, prevedendo il movimento degli oggetti, il sistema può anche ottimizzare i percorsi e le velocità di guida, migliorare l’efficienza del traffico e ridurre la congestione e le emissioni.

In generale, Sora abbassa la soglia per la produzione video e consente a più persone di partecipare alla creazione del video. Sia gli utenti non professionisti sul lato C che i produttori di video professionali sul lato B possono trarne vantaggio.

Qi Peng: Sora è più simile a un "martello", un nuovo strumento in grado di risolvere una serie di problemi. Oltre alla generazione di video, il modello video di Sora Vincent può svolgere un ruolo anche in molti campi come la guida autonoma e la simulazione del mondo fisico. L'applicazione più intuitiva è la generazione di video. Gli utenti devono solo inserire una descrizione testuale per generare rapidamente contenuti video che soddisfino i requisiti, migliorando l'efficienza e la comodità della produzione video.

Molte volte, la tecnologia non viene sviluppata per risolvere un problema specifico, ma durante il processo di ricerca vengono scoperte accidentalmente soluzioni potenti. Una volta che questo metodo sarà maturo, potrà essere ampiamente utilizzato in molti campi per risolvere una serie di problemi.

Attualmente Sora è ancora in versione beta e non è ampiamente disponibile al pubblico. In Cina potrebbero esserci alcuni casi di applicazione per versioni beta interne o esterne, ma il numero è relativamente piccolo e si limita principalmente alla generazione di brevi video o filmati. Poiché si tratta di una versione beta, in molti casi potrebbe essere disponibile gratuitamente. Se la ricarica verrà avviata in futuro, il costo sarà una parte molto piccola degli attuali costi di produzione video, ad esempio poche centinaia di yuan, riducendo così notevolmente il costo di produzione video.

TMTpost AGI: Quali sfide ha incontrato il team durante lo sviluppo del modello Sora? Come superare queste sfide?

Qi Peng : Questo progetto collabora principalmente con la comunità open source. Il principale lavoro di ricerca e sviluppo è svolto dal Dr. Zhuang Shaobin e da uno o due addetti alla ricerca e allo sviluppo. Il progetto nel suo complesso è diviso in quattro gruppi, responsabili della raccolta e dell'etichettatura dei dati, dell'addestramento del modello, della valutazione del modello, dell'accelerazione dell'addestramento e dell'ottimizzazione della macchina.

Zhuang Shaobin: Durante il processo di formazione del modello, la sfida più grande affrontata dal team è l'insufficienza delle risorse informatiche. Soprattutto quando si elaborano dati su larga scala e modelli complessi, la domanda di risorse informatiche è molto elevata. Per utilizzare in modo più efficiente le risorse limitate della macchina, il team di algoritmi del team di progetto ha svolto un grande lavoro di ottimizzazione.

Queste ottimizzazioni includono strategie di ottimizzazione avanzate come il parallelismo del modello e il parallelismo della pipeline, nonché l'ottimizzazione della memoria video per i singoli modelli.

Inoltre, il team ha ottimizzato anche il campo video, in modo che il progetto possa avere scenari applicativi chiari e aree target per soddisfare meglio le effettive esigenze applicative del progetto.

TMTpost Media AGI: L'Istituto di ricerca sull'intelligenza artificiale di Chongqing dell'Università Jiao Tong di Shanghai e l'Istituto di ricerca sulla rivitalizzazione rurale (Chongqing) hanno precedentemente pubblicato un grande modello di rivitalizzazione agricola chiamato "Zhaoyan·Zhaofeng". Perché è stato sviluppato questo modello?

Qi Peng: Essendo l'unico comune con scene rurali, Chongqing offre scene ricche e ampio spazio per l'applicazione di modelli agricoli su larga scala. Il modello di rivitalizzazione rurale su larga scala si avvale di enormi dati online e di dati agricoli dell’Accademia delle scienze agrarie. Questi dati forniscono una base per la costruzione e la formazione del modello e possono riflettere in modo più accurato la situazione reale della produzione agricola. Attualmente, questo progetto è sviluppato congiuntamente con agenzie governative, l’Istituto di ricerca sulla rivitalizzazione rurale (Chongqing) e altri soggetti. Questo modello di cooperazione aiuta a integrare risorse, tecnologie e fondi per promuovere congiuntamente la ricerca, lo sviluppo e l’applicazione di modelli agricoli su larga scala.

Sono previsti 14 grandi modelli di rivitalizzazione rurale e attualmente ci sono 3-4 prodotti correlati. Attraverso modelli di grandi dimensioni, la conoscenza degli esperti viene trasformata in informazioni popolari e di facile comprensione per risolvere problemi nella produzione agricola, nella gestione e nel sostentamento delle persone. per aiutare il settore agricolo. I lavoratori possono accedere e utilizzare le conoscenze agricole con la stessa facilità dei residenti urbani, il che contribuirà a ridurre il divario informativo tra le aree urbane e rurali e a migliorare l’efficienza e l’efficacia della produzione agricola.

TMTpost AGI: In questa fase, quali sono i colli di bottiglia nello sviluppo della tecnologia dei modelli di grandi dimensioni?

Qi Peng: Innanzitutto è chiaro quello che il team definisce large model, ovvero un grande modello linguistico. Il grande modello linguistico è quello dominante e il suo nucleo risiede nella conoscenza e nella logica. Man mano che il modello del linguaggio allargato continua a svilupparsi, il suo livello di intelligenza può gradualmente aumentare dal QI di un bambino di cinque anni al livello di un bambino di dieci, di diciotto anni o addirittura di un superuomo. Questo processo si basa principalmente sulla padronanza del modello e sull'applicazione della conoscenza e della logica.

Diversamente dal modello linguistico grande, il modello video Vincent è un'altra linea del modello grande. Non coinvolge conoscenze e logiche complesse, ma si concentra maggiormente sulla comprensione e simulazione delle leggi del mondo fisico. Modelli come Vincent Video Modeling possono prevedere e rispondere ai cambiamenti nel mondo fisico in base alla percezione e all'esperienza, ma mancano di comprensione logica di alto livello e capacità di riepilogo della conoscenza.

Inoltre, esistono modelli multimodali, che possono codificare ed elaborare più forme di informazione come testo, immagini, suoni, ecc. in modo unificato. I modelli multimodali sono una delle direzioni di sviluppo future, che possono comprendere ed elaborare in modo più completo informazioni complesse nel mondo reale.

Attualmente, i modelli di grandi dimensioni stanno entrando in un periodo di plateau e sembra difficile ottenere un salto di qualità in termini di intelligenza. Riteniamo ancora che i modelli più ampi tendano a essere in grado di gestire problemi più complessi e abbiano capacità di apprendimento e generalizzazione più forti. Una volta che un modello potrà raggiungere una precisione del 99,9%, questo modello di grandi dimensioni diventerà un nuovo strumento di produttività in grado di eseguire varie attività.

Lo sviluppo di modelli di grandi dimensioni presenta problemi quali potenza di calcolo insufficiente, dati di testo insufficienti, deviazioni in termini di accuratezza e affidabilità e scala del modello insufficiente. In questo modo, il "QI" del modello grande non è abbastanza alto, più simile al livello di QI di un bambino di cinque o sei anni. La capacità del modello grande di gestire compiti complessi è limitata e non può raggiungere il livello delle persone aspettarsi.

In secondo luogo, a causa dei limiti dell’architettura del modello linguistico grande, il modello grande è un po’ come uno “studente di arti liberali”. Gestisce la lingua molto bene, ma non è bravo in matematica e ingegneria. Il modello grande può essere paragonato al "CEO o COO" dell'impresa. Anche se questo "CEO o COO" potrebbe non sapere molto di tecnologia, può mobilitare vari componenti high-tech.

Allo stesso tempo, i grandi produttori e le start-up nazionali incontrano difficoltà nello sviluppo di modelli di grandi dimensioni, principalmente perché i costi di investimento sono enormi e la commercializzazione non è sufficiente a supportare il continuo investimento in potenza di calcolo e dati.

Se il livello di intelligenza dei modelli di grandi dimensioni non può essere migliorato in modo significativo in un breve periodo di tempo, lo sviluppo di applicazioni diventa un’opzione fattibile. Nell'attuale fase di sviluppo di modelli di grandi dimensioni, i clienti devono esplorare e migliorare nella pratica in diversi scenari applicativi. Attraverso la commercializzazione delle applicazioni, è possibile generare ricavi per supportare lo sviluppo e l'ottimizzazione continui di modelli di grandi dimensioni. Ciò non solo garantisce la sostenibilità economica del progetto, ma offre anche la possibilità di future innovazioni tecnologiche.

Inoltre, le grandi aziende modello possono anche sostenere lo sviluppo del progetto attraverso finanziamenti. Tuttavia, il finanziamento non è facile. Dipende se il mercato riconosce il potenziale e il valore del progetto.

TMTpost Media AGI: Il mercato è molto entusiasta dei modelli di grandi dimensioni, ma l'applicazione di modelli di grandi dimensioni sta avanzando lentamente, il che è in ritardo rispetto alle aspettative del mercato. Perché l'applicazione di modelli di grandi dimensioni sta avanzando lentamente?

Qi Peng: Ci sono due ragioni:

Innanzitutto, l’attuale mancanza di capacità tecniche si traduce in miglioramenti limitati, che riducono l’entusiasmo per gli aggiornamenti proattivi;

In secondo luogo, l’applicazione di nuove tecnologie richiede nuovo supporto hardware e potenza di calcolo, ma diverse imprese sono scarsamente preparate e non dispongono di sale computer e risorse informatiche intelligenti sufficienti per implementare ed eseguire modelli di grandi dimensioni, rendendo difficile l’implementazione di modelli di grandi dimensioni nelle industrie verticali. Il secondo problema può effettivamente essere risolto attraverso politiche corrispondenti. Se le imprese possono fidarsi della garanzia di sicurezza dei dati degli istituti di ricerca o dei centri di potenza informatica investiti dal governo, possono iniziare a sviluppare soluzioni modello su larga scala prima di costruire le proprie sale computer intelligenti.

I modelli di grandi dimensioni, in particolare quelli in grado di generare testo, immagini, ecc. di alta qualità, spesso richiedono notevoli risorse di elaborazione per essere eseguiti. Ad esempio, quando 1 milione di utenti utilizzano contemporaneamente un modello di grandi dimensioni, il costo annuale della potenza di calcolo può superare le centinaia di milioni, rendendone difficile la commercializzazione. Per gli utenti ordinari, tali prodotti applicativi di grandi dimensioni e ad alto costo potrebbero essere inaccessibili, il che limita anche la promozione delle applicazioni di fascia C.

In questa fase, le soluzioni possono includere l’adozione di algoritmi più efficienti, l’ottimizzazione delle strutture dei modelli per ridurre la quantità di calcoli o l’utilizzo di risorse informatiche distribuite come il cloud computing per distribuire i costi.

Per alcuni aspetti, l'attuale agente intelligente di grande formato è ancora come un "bambino di cinque anni". Presenta problemi come un "QI" insufficiente, prestazioni instabili e è incline alle allucinazioni, il che influisce seriamente sull'esperienza e sulla fiducia dell'utente. Questi problemi sono inaccettabili negli scenari applicativi che richiedono un'elevata precisione, come gli scenari del servizio clienti governativo o finanziario. Anche in alcuni campi di consulenza, funzionamento e manutenzione in cui i requisiti di precisione non sono così elevati, l’attuale tasso di precisione dell’80% o del 60% non ha ancora raggiunto il punto critico per un’applicazione diffusa.

Il miglioramento delle prestazioni e della stabilità degli agenti richiede l'ottimizzazione continua degli algoritmi, l'aumento della diversità e della quantità dei dati di addestramento e l'introduzione di architetture di modelli più complesse. Allo stesso tempo, è necessario rafforzare anche i meccanismi di monitoraggio in tempo reale e di gestione degli errori per garantire la stabilità di modelli di grandi dimensioni in ambienti complessi.

Il riconoscimento delle immagini è un campo molto importante nell'applicazione di modelli multimodali di grandi dimensioni. Sulla base del modello pre-addestrato, è possibile sviluppare nuovi modelli di riconoscimento delle immagini a costi molto bassi, coprendo molti scenari a coda lunga e avendo un grande potenziale di mercato. Sebbene il riconoscimento delle immagini abbia molti scenari applicativi, gli attuali modelli di riconoscimento di immagini di grandi dimensioni presentano ancora il problema della bassa precisione e dei requisiti di potenza di calcolo relativamente elevati.

Inoltre, poiché la precedente generazione di intelligenza artificiale era relativamente matura nella comprensione delle immagini, le persone non hanno pienamente accettato il valore aggiuntivo che i modelli di grandi dimensioni possono produrre, il che influisce anche sulla velocità della sua promozione.

TMTpost AGI: Come vede l'attuale innovazione industriale dei grandi modelli di industria verticale? Perché ci sono così pochi casi di industria verticale che sono stati implementati?

Qi Peng: In termini di implementazione dell’industria verticale, prendendo come esempio i robot umanoidi nell’industria manifatturiera, potrebbero essere necessari dai cinque ai dieci anni prima che i robot umanoidi siano utilizzabili nelle famiglie. Ciò è dovuto principalmente al fatto che le loro capacità di generalizzazione nel software sono ancora limitate. Non è sufficiente e anche l’hardware necessita di ulteriore ricerca, sviluppo e miglioramento.

Una direzione di ricerca più pratica consiste nel concentrarsi sul problema della generalizzazione dei bracci robotici negli scenari manifatturieri. Sebbene i bracci robotici stessi siano molto maturi e siano occupati dai principali produttori nazionali ed esteri sul mercato, i bracci robotici esistenti non hanno sufficienti capacità di generalizzazione e non possono adattarsi in modo flessibile a una varietà di compiti lavorativi diversi. Ciò si traduce nella necessità di riprogrammare ogni volta che il braccio robotico deve eseguire un nuovo compito in applicazioni pratiche, il che è poco pratico quando le attività cambiano frequentemente.

La chiave per risolvere il problema della generalizzazione del braccio robotico risiede nello sviluppo di software, in particolare di quelli che consentono al braccio robotico di gestire una gamma più ampia di scenari. Si prevede che entro uno o due anni, attraverso l’ottimizzazione e lo sviluppo del software, le capacità di generalizzazione del braccio robotico miglioreranno significativamente.

Naturalmente, ci sono alcune sfide per raggiungere l’obiettivo delle capacità di generalizzazione del braccio robotico, vale a dire la mancanza di dati. Per addestrare un braccio robotico in grado di gestire una varietà di scenari, è necessaria una grande quantità di dati di alta qualità per supportare l’apprendimento e l’ottimizzazione degli algoritmi.

In effetti, i modelli di grandi dimensioni possono essere utilizzati come agenti intelligenti nell'industria manifatturiera e possono richiamare diversi software nel loro insieme. Ciò significa che nei sistemi complessi dell’industria manifatturiera diversi software che originariamente richiedevano il funzionamento manuale o la connessione di programmazione possono ora essere teoricamente automatizzati e integrati attraverso modelli di grandi dimensioni.

Gli utenti devono solo interagire con il modello di grandi dimensioni attraverso il linguaggio o le idee e il modello di grandi dimensioni può eseguire automaticamente i programmi corrispondenti e completare varie attività. Tuttavia, poiché diverse aziende manifatturiere hanno ambienti di produzione, sistemi e API diversi, l’adattabilità di modelli di grandi dimensioni in scenari diversi è diventata una sfida importante. Anche un modello di grandi dimensioni ben sintonizzato in una scena potrebbe non funzionare correttamente in un altro ambiente. Pertanto, gli sviluppatori aziendali devono mettere a punto scenari specifici per migliorare le prestazioni e la precisione dei modelli di grandi dimensioni.

Questa limitazione influisce direttamente sull'applicazione diffusa e sullo sviluppo approfondito di modelli di grandi dimensioni nel settore manifatturiero. Perché la produzione spesso comporta operazioni altamente complesse e raffinate, che richiedono calcoli e controlli ad alta precisione. Se un modello di grandi dimensioni non è all’altezza di questi compiti, non raggiungerà il suo potenziale nella produzione.

Oltre alle limitazioni di capacità dei modelli di grandi dimensioni stessi, anche i problemi di compatibilità tra i sistemi rappresentano un fattore importante che limita l’applicazione dei modelli di grandi dimensioni nella produzione. Diverse aziende o unità di produzione possono utilizzare sistemi completamente diversi, inclusi software, hardware e API diversi. Ciò rende difficile applicare direttamente un modello di grandi dimensioni ottimizzato in uno scenario a un altro scenario perché gli ambienti di sistema dei due scenari potrebbero essere completamente diversi. Questa variabilità tra i sistemi aumenta la complessità e il costo dell’applicazione di modelli di grandi dimensioni nella produzione.

In realtà esiste una soluzione. Per i settori verticali come quello manifatturiero, finanziario e al dettaglio, è possibile definire interfacce per modelli di grandi dimensioni standardizzati. Queste interfacce chiariranno le capacità specifiche che il modello di grandi dimensioni può fornire, in modo che tutti i sistemi possano richiamare le funzioni del modello di grandi dimensioni attraverso queste interfacce. Il vantaggio è che, indipendentemente da come cambia l'ambiente del sistema, purché rispettino queste specifiche di interfaccia standardizzate, possono essere collegati senza problemi con modelli di grandi dimensioni.

Pertanto, definendo interfacce standardizzate, gli sviluppatori aziendali possono ridurre notevolmente la difficoltà di abbinare modelli di grandi dimensioni con sistemi diversi, consentendo ai modelli di grandi dimensioni di adattarsi più rapidamente a diversi ambienti di produzione. Le interfacce standardizzate aiutano a garantire che i modelli di grandi dimensioni possano essere eseguiti stabilmente in vari sistemi e riducono i problemi di compatibilità causati dalle differenze di sistema.

In generale, i modelli di grandi dimensioni sono ampiamente utilizzati in molteplici settori verticali, ma ci sono relativamente pochi casi di implementazione effettiva. Ci sono due ragioni principali: in primo luogo, le capacità matematiche e ingegneristiche insufficienti rendono difficile per i modelli di grandi dimensioni raggiungere una precisione e una stabilità sufficienti nelle applicazioni pratiche. In secondo luogo, il modello di grandi dimensioni stesso fa parte della categoria dell’apprendimento automatico e la sua natura basata su metodi statistici determina che non può essere corretto al 100%.

In effetti, la struttura del cervello umano non è accurata al 100%, ma il giudizio umano è spesso sufficientemente accurato da soddisfare le esigenze della maggior parte degli scenari reali. Al contrario, anche dopo l'addestramento, la precisione di un modello di grandi dimensioni può rimanere intorno al 95%, il che potrebbe non essere sufficiente in alcuni scenari che richiedono una precisione estremamente elevata. Inoltre, le capacità matematiche dei modelli di grandi dimensioni sono relativamente scarse, il che ne limita anche l’applicazione in determinati campi.

Se si vogliono superare queste limitazioni, è necessario comprendere l’importanza delle strutture di supporto per i modelli di grandi dimensioni. Fornendo le strutture e gli strumenti di supporto necessari per modelli di grandi dimensioni, può compensare la sua mancanza di capacità matematiche e ingegneristiche, in modo da potersi adattare meglio alle esigenze degli scenari applicativi reali. Tali strutture di supporto possono includere set di dati più accurati, algoritmi più efficienti, piattaforme hardware più stabili, ecc.

TMTpost AGI: Perché i modelli di grandi dimensioni creano allucinazioni?

Qi Peng: A volte è perché i dati originali mancano o presentano problemi, il grande modello linguistico non può apprendere la conoscenza corretta durante il processo di formazione e quindi non può fare inferenze corrette. Questo errore non è causato da difetti nel grande modello linguistico stesso, ma da imprecisioni nei dati di input.

Se un modello di grandi dimensioni viene addestrato in un ambiente ipotetico in cui tutte le informazioni portano a conclusioni errate, anche il modello di grandi dimensioni darà giudizi errati basati su queste informazioni errate. Ciò sottolinea l'importante influenza dei dati e dell'ambiente sulle prestazioni degli agenti e dei modelli di grandi dimensioni.

A volte i modelli di grandi dimensioni possono generare risposte che appaiono logiche e ponderate ma in realtà non sono vere o accurate. Questo è simile al modo in cui i bambini di 5 anni spesso descrivono con sicurezza falsi ricordi.

Anche gli adulti spesso sperimentano allucinazioni o errori di memoria durante l'elaborazione delle informazioni e della memoria. Ad esempio, durante gli atti delle udienze e l'analisi dei casi, le parti coinvolte in situazioni molto gravi e importanti possono avere anche falsi ricordi o allucinazioni dovute a varie pressioni, informazioni fuorvianti, ecc.

TMTpost AGI: Come si riflettono le differenze nel grande contesto di mercato modello in patria e all'estero?

Qi Peng: Al momento, i paesi stranieri mantengono ancora una forte fiducia nel miglioramento della tecnologia e non si sono completamente rivolti allo sviluppo di applicazioni. Ciò potrebbe essere legato al fatto che i mercati esteri sono relativamente maturi e stabili, consentendo alle aziende di avere più risorse e spazio per concentrarsi sulla ricerca, sviluppo e innovazione tecnologica. Al contrario, il mercato interno si trova ad affrontare un ambiente competitivo più feroce e la maggior parte delle grandi società di ricerca e sviluppo di modelli si sono rivolte ad applicazioni su larga scala.

La concorrenza sul mercato interno non si riflette solo nel numero di aziende, ma anche nelle guerre dei prezzi. Poiché più aziende offrono servizi simili contemporaneamente, il prezzo dei modelli di grandi dimensioni scende rapidamente, rendendo difficile per le aziende recuperare i costi fornendo servizi. All'estero, le aziende rappresentate da ChatGPT possono continuare a ottenere entrate e utilizzarle per ulteriore ricerca, sviluppo e innovazione in virtù della loro posizione di leader nella tecnologia e nel riconoscimento del mercato.

Nel mercato interno, a causa della feroce guerra dei prezzi e della relativamente debole disponibilità a pagare, le aziende potrebbero dover concentrarsi maggiormente sullo sviluppo di nuove applicazioni per cercare scoperte commerciali. Sebbene questa strategia possa alleviare in una certa misura la pressione economica delle imprese, potrebbe anche portare a investimenti insufficienti nella ricerca e nello sviluppo tecnologico, influenzando così la loro competitività a lungo termine.

TMTpost AGI: Quali sono le direzioni di sviluppo futuro dell'AGI?

Qi Peng: Credo che la società umana sia in un periodo critico che porta all’AGI. Sebbene l’industria ritenga attualmente che determinate tecnologie o modelli non siano sulla strada giusta per l’AGI, ritiene che tali tecnologie o modelli non appartengano all’AGI.Ma un giorno, quando guarderemo indietro a questo periodo storico, potremmo renderci conto che ci troviamo in un momento storico importante.

Prendiamo come esempio la tecnologia di guida autonoma di Tesla. Cinque anni fa, la gente avrebbe potuto pensare che ci sarebbero voluti dai dieci ai venti anni per raggiungere la tecnologia di guida autonoma di livello L4, ma ora questa tecnologia ha fatto progressi significativi. Questo progresso fortuito consente all’industria di credere che la vera AGI possa essere realizzata inavvertitamente.

Zhuang Shaobin: Qual è lo stato ideale dell'AGI? L’AGI non dovrebbe solo possedere capacità di pensiero di alto livello, ma, cosa ancora più importante, essere in grado di essere applicata nella vita reale, soprattutto nel settore.

Al momento, le persone hanno visto molte applicazioni dei robot e della tecnologia AI su dispositivi fisici, il che dimostra che le persone stanno lavorando duramente per liberare la tecnologia AI dai computer e trasformarla in entità tangibili e attive. Questo salto è molto importante per la tecnologia dell’intelligenza artificiale. Solo nelle applicazioni pratiche l’intelligenza artificiale può creare maggiore valore.

TMTpost AGI: Oltre al percorso DiT, ci sono altri possibili percorsi o strategie per lo sviluppo dell'AGI? Qual è il percorso di implementazione dell’AGI?

Qi Peng: Nel processo di sviluppo dell'AGI, gli esseri umani devono avere un atteggiamento diversificato e inclusivo. Se l’AGI viene paragonato ai compiti di studenti con voti diversi in una classe, anche se gli studenti hanno abilità diverse, possono tutti completare alcune cose di base. Allo stesso modo, anche se ci sono differenze nelle prestazioni tra le architetture, tutte possono completare alcune attività di base, ma hanno abilità diverse in compiti più difficili.

In particolare, con il supporto di grandi quantità di dati e potenza di calcolo, diverse architetture possono migliorare le loro capacità di base aumentando il numero di parametri, in modo che possano funzionare tutte ad un certo livello.Allo stesso tempo, ci sono anche alcune nuove tendenze nel campo dei modelli di grandi dimensioni, come i meccanismi di attenzione lineare e altri metodi di ottimizzazione. Questi metodi sono progettati per ridurre la quantità di calcolo del tradizionale modello Transformer e migliorare l'efficienza.

Per quanto riguarda il percorso finale di implementazione dell’AGI, in realtà non esiste un percorso fisso. I vari modelli e tecnologie attuali presentano vantaggi e limiti. Nel processo di sviluppo di AGI sono necessarie l'esplorazione e l'integrazione continua di molteplici architetture e tecnologie. Diverse architetture e tecnologie forniranno importanti riferimenti e riferimenti per AGI in questo processo, promuovendone il continuo sviluppo. Allo stesso tempo, è necessario prestare attenzione alla praticità e alle capacità di autocorrezione del modello.

TMTpost AGI: Come trovare un equilibrio tra innovazione della ricerca e commercializzazione nel campo dei grandi modelli domestici?

Qi Peng: In termini di ricerca innovativa, a causa dei fondi limitati, l'istituto deve chiarire gli obiettivi che può sforzarsi di raggiungere, piuttosto che perseguire ciecamente progetti che richiedono grandi quantità di risorse, come grandi modelli linguistici che possono essere intrapresi solo da grandi aziende come Baidu.

In secondo luogo, il team dell'istituto deve selezionare progetti di ricerca che possano essere realizzati con determinati sforzi e che abbiano un valore pratico. Ad esempio, il modello simile a Sora basato sull’architettura dell’attenzione di accoppiamento spazio-temporale Latte sviluppato dal team prende come esempio la generazione di video ad alta definizione di 16 secondi. Questo è un obiettivo che l’istituto può sforzarsi di raggiungere con le risorse esistenti. Allo stesso tempo, l’istituto deve anche scegliere alcune direzioni di ricerca che potrebbero richiedere meno risorse, come l’ottimizzazione dei modelli o il supporto delle applicazioni.

In termini di commercializzazione, l'istituto dovrebbe concentrarsi sull'attuazione dell'AIGC, in particolare sulla questione dell'“ultimo miglio”. Ciò significa che gli istituti di ricerca devono concentrarsi su come trasformare i risultati della ricerca in prodotti o servizi reali per soddisfare la domanda del mercato e raggiungere la commercializzazione.

Sebbene il QI dei modelli di grandi dimensioni possa continuare ad aumentare, da cinque a dieci a diciotto anni, e persino raggiungere il livello dei massimi esperti, un tale sistema richiederà sempre strutture o strumenti di supporto per supportarne il funzionamento e l’applicazione. I costi di ricerca e sviluppo di queste strutture di supporto possono essere relativamente bassi, ma svolgono un ruolo cruciale nel promuovere l’applicazione pratica e il valore sociale dei grandi modelli.

Pertanto, i team degli istituti di ricerca nazionali nel campo dell’intelligenza artificiale dovrebbero concentrarsi principalmente sulla ricerca e sullo sviluppo di queste strutture di supporto per supportare il funzionamento e l’implementazione di modelli di grandi dimensioni.

(Questo articolo è stato pubblicato per la prima volta su Titanium Media App, autore|Dou Yueyi, Lin Zhijia, editore|Lin Zhijia)