notizia

Gli scienziati rivelano le proprietà lineari delle reti neurali profonde, contribuendo a creare algoritmi di fusione dei modelli migliori

2024-07-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Sebbene il deep learning abbia ottenuto grandi successi negli ultimi anni, la comprensione della sua teoria da parte delle persone è ancora indietro.

Per questo motivo, gli argomenti di ricerca che cercano di spiegare la funzione di perdita e il processo di ottimizzazione del deep learning da una prospettiva teorica hanno ricevuto maggiore attenzione.

Sebbene le funzioni di perdita utilizzate nel deep learning siano generalmente considerate come complesse funzioni black-box ad alta dimensione, si ritiene che queste funzioni, specialmente quelle incontrate nelle traiettorie di allenamento reali, contengano strutture benigne complesse che possono promuovere efficacemente il processo di ottimizzazione basato sul gradiente.

Come in molte altre discipline scientifiche, un passo fondamentale nella costruzione di una teoria dell’apprendimento profondo risiede nella comprensione dei fenomeni non banali scoperti dagli esperimenti per chiarirne i meccanismi sottostanti.

Recentemente, gli studiosi del settore hanno scoperto un fenomeno sorprendente: la modalità connettività.

Cioè, diversi punti ottimali ottenuti attraverso due ottimizzazioni del gradiente indipendenti possono essere collegati da un semplice percorso nello spazio dei parametri e la perdita o la precisione lungo il percorso rimane quasi costante.

Questo fenomeno è indubbiamente sorprendente perché è probabile che i diversi punti ottimi di una funzione non convessa siano localizzati in "valli" diverse e isolate.

Ciò però non avviene per i punti ottimali riscontrati nella pratica.

La cosa più interessante è che alcuni ricercatori hanno scoperto che la connettività in modalità lineare è più potente della connettività in modalità lineare.

La ricerca sulla connettività in modalità lineare mostra che diversi punti ottimali possono essere collegati da percorsi lineari.

Sebbene due reti completamente indipendenti in genere non soddisfino la connettività in modalità lineare, esistono due modi per ottenere una rete che lo faccia:

La prima rete è il metodo di spawning.

Quando la rete parte dall'inizializzazione e si addestra per un numero limitato di epoche, i parametri vengono copiati per ottenere due reti. Le due reti hanno poi continuato ad essere addestrate in modo indipendente sotto diverse stocasticità.

La seconda rete è il metodo di permutazione.

Cioè, le due reti vengono prima addestrate in modo indipendente, quindi i neuroni di una rete vengono riorganizzati per corrispondere ai neuroni dell'altra rete.

In un lavoro precedente, il dottor Zhou Zhanpeng dell’Università Jiao Tong di Shanghai e i collaboratori dello Shanghai Artificial Intelligence Laboratory speravano di spiegare la connettività in modalità lineare dal punto di vista dell’apprendimento delle funzionalità.

E pone la domanda: cosa succede alle caratteristiche interne quando si interpolano linearmente i pesi di due reti addestrate?


Immagine |. Zhou Zhanpeng (Fonte: Zhou Zhanpeng)

Attraverso la ricerca, hanno scoperto che le caratteristiche in quasi tutti gli strati soddisfano anche una forte forma di connessione lineare: cioè, le mappe delle caratteristiche nella rete di interpolazione dei pesi sono approssimativamente le stesse dell'interpolazione lineare delle mappe delle caratteristiche nelle due reti originali.

Chiamano questo fenomeno Connettività di caratteristiche lineari a strati.

Inoltre, hanno scoperto che la connettività delle funzionalità lineari a strati si verifica sempre contemporaneamente alla connettività in modalità lineare.

E dimostra questa regola: se due modelli addestrati sullo stesso set di dati soddisfano la connettività di funzionalità lineari layerwise, allora possono anche soddisfare la connettività in modalità lineare allo stesso tempo.

Inoltre, il gruppo di ricerca ha condotto uno studio approfondito sulle ragioni della connettività delle caratteristiche lineari a livello.

E sono state identificate due condizioni chiave: la debole additività della funzione ReLU e la proprietà commutativa tra le due reti addestrate.

Partendo da queste due condizioni, hanno dimostrato di aver ottenuto la Layerwise Linear Feature Connectivity nella rete ReLU e hanno verificato sperimentalmente queste due condizioni.

Allo stesso tempo, hanno anche dimostrato che il metodo della permutazione consente a due reti di soddisfare la connettività in modalità lineare rendendole intercambiabili.

In generale, il gruppo di ricerca ha trovato una proprietà lineare che è più dettagliata rispetto alla connettività in modalità lineare e può soddisfare meglio la rete neurale.

Tuttavia, i risultati di cui sopra si basano tutti su reti addestrate sullo stesso set di dati.

Quindi, hanno sollevato una nuova domanda: è possibile stabilire la connettività di funzionalità lineari layerwise su due modelli addestrati su set di dati diversi?

Il team ha notato che il metodo di spawning è molto vicino al paradigma di addestramento pre-addestramento-ottimizzazione. Cioè, sia lo Spawning Method che il fine tuning partono da un modello che è stato addestrato per un periodo di tempo per svolgere ulteriore addestramento.

Tuttavia, il modello nel metodo di spawning continua ad essere addestrato sullo stesso set di dati, mentre il modello in fase di ottimizzazione può essere addestrato su set di dati diversi.

In un lavoro recente, hanno scoperto che, secondo il paradigma di pre-training e messa a punto, diversi modelli di messa a punto soddisfano anche le proprietà della connettività di funzionalità lineari a strati, che il team di ricerca chiama linearità cross-task.

Si è scoperto che, secondo il paradigma di pre-addestramento e messa a punto, la rete è in realtà più vicina a una mappatura lineare dallo spazio dei parametri allo spazio delle caratteristiche.

Cioè, la linearità cross-task estende la definizione di connettività di funzionalità lineari layerwise a modelli addestrati su diversi set di dati.

È interessante notare che il team ha anche utilizzato i risultati della linearità Cross-Task per spiegare due tecniche comuni di fusione dei modelli:

Innanzitutto, il Model Averaging prende la media dei pesi di più modelli ottimizzati sullo stesso set di dati ma utilizzando diverse configurazioni di iperparametri, migliorando così l'accuratezza e la robustezza.

Nello studio, il peso medio del gruppo di ricerca è stato interpretato come la media delle caratteristiche di ciascun livello, stabilendo così una stretta connessione tra Model Averaging e integrazione del modello, spiegando così l'efficacia del Model Averaging.

In secondo luogo, con semplici operazioni aritmetiche, Task Arithmetic può combinare i pesi di modelli ottimizzati su compiti diversi per controllare di conseguenza il comportamento del modello.

Durante la ricerca, il team ha trasformato le operazioni aritmetiche nello spazio dei parametri in operazioni nello spazio delle caratteristiche, spiegando così l'aritmetica dei compiti dal punto di vista dell'apprendimento delle caratteristiche.

Successivamente, hanno esplorato le condizioni in cui si verifica la linearità Cross-Task e hanno scoperto l'importanza della formazione preliminare per la linearità Cross-Task.

I risultati sperimentali mostrano che la conoscenza comune ottenuta dalla fase di pre-formazione aiuta a soddisfare i requisiti di linearità Cross-Task.

Durante lo studio, è stato effettuato anche un tentativo preliminare di dimostrare la linearità Cross-Task e si è scoperto che l'emergere della linearità Cross-Task è correlata alla piattezza del panorama della rete e al divario di peso tra i due modelli ottimizzati.

Recentemente, un documento correlato intitolato "On the Emergence of Cross-Task Linearity in Pretraining-Finettuning" è stato pubblicato alla Conferenza internazionale sull'apprendimento automatico (ICML) 2024 [1].


Figura |. Documenti correlati (Fonte: ICML 2024)

Il gruppo di ricerca ha espresso la speranza che questa scoperta possa ispirare migliori algoritmi di fusione dei modelli.

In futuro, se sarà necessario costruire un modello di grandi dimensioni multi-capacità, la fusione di modelli di grandi dimensioni diventerà una delle tecnologie principali. Questo lavoro fornisce un solido supporto sperimentale e teorico per la fusione di modelli di grandi dimensioni e può ispirare migliori algoritmi di fusione di modelli di grandi dimensioni.

Successivamente, sperano di comprendere la connettività della modalità lineare, la connettività delle funzionalità lineari a livello di livello e la linearità tra attività diverse dal punto di vista delle dinamiche di formazione.

Sebbene abbiano ottenuto alcune spiegazioni a livello di funzionalità, non sono ancora in grado di spiegare la connettività in modalità lineare dal punto di vista dei principi primi.

Ad esempio, perché il metodo di spawning deve prima addestrare solo alcune epoche per ottenere finalmente due modelli che soddisfano la connettività in modalità lineare?

E come prevedere un tale tempo di deposizione delle uova? Per rispondere a queste domande, dobbiamo comprendere la connettività in modalità lineare dal punto di vista della formazione e dell’ottimizzazione, e questo è anche l’impegno successivo del team.

Riferimenti:

1.Zhou, Z., Chen, Z., Chen, Y., Zhang, B., & Yan, J. Sull'emergere della linearità tra attività nel paradigma di pre-addestramento-finetuning. In Quaranta-prima conferenza internazionale sull'apprendimento automatico.

Operazione/composizione: He Chenlong

01/ Il team della città di Hong Kong sviluppa un nuovo tipo di membrana nanostratificata, che può essere utilizzata per il trattamento dell'acqua dolce in scenari speciali e trova scoperte rivoluzionarie per l'applicazione di materiali bidimensionali.

02/ Decenni di problemi chimici hanno ricevuto risposte credibili. Gli scienziati hanno proposto un nuovo meccanismo microscopico per la dissoluzione dell'acido cloridrico per formare acido cloridrico, che promuoverà lo sviluppo di molteplici discipline.

03/ Gli scienziati creano un nuovo metodo di controllo del rilevamento quantistico in grado di rilevare con precisione segnali deboli e può essere utilizzato per rilevare e controllare i singoli spin nucleari

04/ I nuovi vincitori cinesi della "MIT Technology Review" "Top 35 Technological Innovators Under 35" sono annunciati ufficialmente!Testimone del potere innovativo dei giovani scientifici e tecnologici a Shanghai

05/ Con una resistenza dinamica di 14GPa, il team dell'Università di Pechino ha sviluppato con successo fibre di nanotubi di carbonio super resistenti, che possono essere utilizzate come materiali strutturali e protettivi leggeri e ad alte prestazioni