notizia

Architettura della rete neurale "percorsi diversi portano allo stesso obiettivo"? ICML 2024 Paper: Modelli diversi, ma stessi contenuti didattici

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuovo rapporto sulla saggezza

Editore: Qiao Yang

[Introduzione alla Nuova Saggezza] Le reti neurali profonde sono disponibili in diverse dimensioni e architetture ed è generalmente accettato che ciò influisca sulle rappresentazioni astratte apprese dal modello. Tuttavia, il primo articolo pubblicato da due studiosi dell’UCL all’ICML 2024 ha sottolineato che se l’architettura del modello è sufficientemente flessibile, alcuni comportamenti di rete sono diffusi tra le diverse architetture.

Da quando l’intelligenza artificiale è entrata nell’era dei modelli di grandi dimensioni, la Legge di Scaling è diventata quasi un consenso.


Indirizzo del documento: https://arxiv.org/abs/2001.08361

I ricercatori di OpenAI hanno proposto in questo articolo del 2020 che le prestazioni del modello hanno una relazione di legge di potenza con tre indicatori: quantità di parametri N, dimensione del set di dati D e potenza di calcolo dell'addestramento C.


Oltre a questi tre aspetti, fattori quali la selezione degli iperparametri e l'ampiezza e la profondità del modello hanno un impatto minimo sulle prestazioni entro un intervallo ragionevole.

Inoltre, l’esistenza di questa relazione legge-potenza non implica alcuna clausola sull’architettura del modello. In altre parole, possiamo pensare che la Legge di Scaling sia applicabile a quasi tutti i modelli di architettura.

Inoltre, un articolo pubblicato nel campo delle neuroscienze nel 2021 sembra toccare questo fenomeno da un’altra angolazione.


Indirizzo del documento: https://www.frontiersin.org/journals/computational-neuroscience/articles/10.3389/fncom.2021.625804/full

Hanno scoperto che anche se reti come AlexNet, VGG e ResNet progettate per compiti visivi presentano grandi differenze strutturali, sembrano essere in grado di apprendere semantiche molto simili, come la relazione gerarchica delle categorie di oggetti, dopo l'addestramento sullo stesso set di dati. .


Ma qual è la ragione di ciò? Se si va oltre l'esperienza superficiale, quanto le diverse architetture di rete sono simili a livello essenziale?

Due ricercatori dell'UCL hanno pubblicato quest'anno un articolo, cercando di rispondere a questa domanda esaminando la rappresentazione astratta appresa dalle reti neurali.


Indirizzo del documento: https://arxiv.org/abs/2402.09142

Hanno derivato una teoria che riassume efficacemente le dinamiche dell'apprendimento della rappresentazione in architetture di modelli complessi e su larga scala, scoprendone le caratteristiche "ricche" e "pigre". Quando il modello è sufficientemente flessibile, alcuni comportamenti di rete possono essere diffusi in diverse architetture.

Questo documento è stato accettato dalla conferenza ICML 2024.

Processo di modellazione

Il teorema di approssimazione universale afferma che, dati parametri sufficienti, una rete neurale non lineare può apprendere e approssimare qualsiasi funzione regolare.

Ispirandosi a questo teorema, l'articolo presuppone innanzitutto che la mappatura di codifica dall'input alla rappresentazione nascosta e la mappatura di decodifica dalla rappresentazione nascosta all'output siano funzioni regolari arbitrarie.

Pertanto, ignorando i dettagli dell’architettura di rete, la dinamica funzionale può essere modellata nel modo seguente:

Il processo di addestramento di una rete neurale può essere visto come l'ottimizzazione di una funzione di livellamento su un set di dati specifico, modificando costantemente i parametri della rete per ridurre al minimo la funzione di perdita MSE:


In⟨⋅⟩I simboli rappresentano le medie sull'intero set di dati.

Poiché siamo interessati a studiare i processi dinamici che rappresentano lo spazio, la funzione può essere scomposta in una combinazione di due mappe lisce: la mappa di codificaℎ:→e la mappatura di decodifica:→, a questo punto la funzione di perdita nell'equazione (1) può essere scritta come:


Successivamente, il processo di aggiornamento dei parametri utilizzando la regola di discesa del gradiente può essere scritto come:

dove è il reciproco del tasso di apprendimento.

Sebbene l’equazione (4) sia sufficientemente accurata, il problema è che dipende esplicitamente dai parametri di rete, e un’espressione matematica sufficientemente generale richiede di ignorare questo dettaglio di implementazione.

Idealmente, se la capacità espressiva della rete neurale è sufficientemente ricca, l’ottimizzazione della funzione di perdita dovrebbe essere espressa direttamente come circa due mappaturee funzione.


Tuttavia, come ciò sia ottenuto matematicamente rimane poco chiaro. Iniziamo quindi con il caso più semplice: non considerando l'intero set di dati, ma due punti dati.

Durante l'allenamento, grazie alla funzione di mappaturaMan mano che la somma cambia, le rappresentazioni di diversi punti dati si spostano nello spazio nascosto, si avvicinano l'una all'altra o interagiscono tra loro.

Ad esempio, per due punti nel set di dati, if⁢(1) e⁢(2) è abbastanza vicino eed è una funzione regolare, allora la media dei due punti può essere utilizzata per eseguire un'approssimazione lineare delle due funzioni di mappatura:


Ine rispettivamentee la matrice Jacobiana di .

Supponendo che la rete neurale abbia espressività e gradi di libertà sufficienti, i parametri di linearizzazione, e può essere efficacemente ottimizzato, allora il processo di discesa del gradiente può essere espresso come:


L'equazione (6) descrive l'ipotesi di modellazione principale dell'articolo, che vuole essere una teoria equivalente per sistemi architettonici complessi su larga scala e non è soggetta a metodi di parametrizzazione specifici.


La Figura 1 è un'espressione visiva del processo di modellazione di cui sopra. Per semplificare il problema, si presuppone che due punti dati si sposteranno solo più vicino o più lontano nello spazio nascosto, ma non ruoteranno.

L'indicatore principale che ci interessa è la distanza ‖ℎ‖ nello spazio nascosto, che ci consente di conoscere la struttura di rappresentazione appresa dal modello, e la distanza ‖‖ prodotta dal modello, che aiuta a modellare la curva di perdita.

Inoltre, viene introdotta una variabile esterna per controllare la velocità di rappresentazione, o può essere vista come allineamento dell'output, che rappresenta la differenza angolare tra l'output previsto e l'output reale.

Da ciò otteniamo un sistema indipendente di tre variabili scalari:



Tra questi, i dettagli di implementazione della rete neurale sono stati astrattamente espressi come due costanti: 1/e 1/, che indica il tasso di apprendimento effettivo.

Imparare la coerenza dinamica

Una volta completata la modellazione, l'articolo ha addestrato reti neurali di diverse architetture sul set di dati a due punti e ha confrontato le effettive dinamiche di apprendimento con la soluzione numerica della teoria equivalente. I risultati sono mostrati nella Figura 2.


La struttura predefinita si riferisce a una rete a 20 strati, 500 neuroni per strato e ReLU che perde.

Si può vedere che sebbene ci siano solo due costanti da adattare, la teoria dell'equivalenza appena descritta può ancora adattarsi bene alla situazione reale di varie reti neurali.

Le stesse equazioni possono descrivere accuratamente la dinamica di più modelli e architetture complessi durante l'addestramento, il che sembra indicare che se il modello è sufficientemente espressivo, alla fine convergerà verso un comportamento di rete comune.

Mettilo su un set di dati più ampio come MNIST e traccia le dinamiche di apprendimento di due punti dati, e la teoria dell'equivalenza continua a valere.


L'architettura di rete comprende 4 livelli completamente connessi, ogni livello include 100 neuroni e utilizza la funzione di attivazione ReLU che perde

Tuttavia, vale la pena notare che quando il peso iniziale aumenta gradualmente (Figura 3), i modelli di cambiamento di ‖ℎ‖, ‖⁢‖ e delle tre variabili cambieranno.

Perché quando il peso iniziale è elevato, i due punti dati saranno distanti all'inizio dell'addestramento, quindi l'approssimazione lineare della formula (5) non è più valida e il modello teorico di cui sopra fallisce.


rappresentazione strutturata

Dai vincoli di fluidità e dalla teoria dell'equivalenza sopra menzionata, possiamo riassumere le regole nella struttura di rappresentazione delle reti neurali?

Secondo la formula (7), si può dedurre che esiste un unico punto fisso, che è la distanza di rappresentazione finale di due punti dati:


Se il peso iniziale è elevato, la distanza di rappresentazione finale convergerà verso l'alto e il valore dipende dall'input dei dati e dall'inizializzazione casuale; al contrario, se il peso iniziale è piccolo, convergerà verso il basso, che dipende dall'input e dall'output struttura dei dati.

Questa separazione tra meccanismi casuali e meccanismi strutturati verifica ulteriormente la "ricchezza" e l'"inerzia" nel processo di apprendimento delle reti neurali profonde proposto in articoli precedenti, soprattutto considerando che la scala dei pesi iniziali diventerà un fattore chiave.

Il documento fornisce una spiegazione intuitiva per questo fenomeno:

Se i pesi iniziali sono grandi, i due punti dati nello spazio nascosto saranno distanti quando inizia l'addestramento, quindi la flessibilità della rete consente al decodificatore di apprendere liberamente l'output corretto per ciascun punto dati individualmente senza la necessità di aggiustamenti significativi. Struttura di rappresentazione. Pertanto, il modello finale appreso assomiglia alla struttura già presente al momento dell'inizializzazione.

Al contrario, quando il peso è piccolo, i due punti dati si trovano più vicini e, a causa delle limitazioni di fluidità, la funzione di mappatura della codifica deve essere regolata in base all'output target, spostando la rappresentazione dei due punti dati per adattarla ai dati .

Pertanto, vedremo che quando i pesi sono piccoli, l’apprendimento della rappresentazione mostrerà un effetto strutturato (Figura 5).


Cambiare il compito della rete neurale per adattare una funzione OR esclusivo (XOR) può dimostrarlo in modo più intuitivo. Quando il peso di inizializzazione è piccolo, il modello ovviamente apprende le caratteristiche strutturali della funzione XOR.


Nella rete neurale con solo 2 strati a destra c'è una grande deviazione tra teoria ed esperimento, il che illustra l'importanza del presupposto di un'elevata espressività del modello nella teoria di cui sopra.

Insomma

Il contributo principale di questo articolo è l'introduzione di una teoria di equivalenza che sia in grado di esprimere parti comuni del processo di apprendimento dinamico in diverse architetture di reti neurali e ne abbia dimostrato una rappresentazione strutturata.

A causa della limitazione della fluidità del processo di modellazione e della semplificazione dell’interazione dei punti dati, questa teoria non può ancora diventare un modello universale per descrivere il processo di addestramento delle reti neurali profonde.

Tuttavia, l’aspetto più prezioso di questo studio è che mostra che alcuni degli elementi richiesti per l’apprendimento della rappresentazione potrebbero già essere inclusi nel processo di discesa del gradiente, e non solo dalla distorsione induttiva contenuta nella specifica architettura del modello.

Inoltre, la teoria sottolinea anche che la scala dei pesi iniziali è un fattore chiave nella formazione finale della struttura di rappresentazione.

Nel lavoro futuro, dovremo ancora trovare un modo per estendere la teoria dell’equivalenza per gestire set di dati più grandi e complessi, piuttosto che limitarci a modellare l’interazione di due punti dati.

Allo stesso tempo, molte architetture di modelli introducono pregiudizi induttivi che influenzano l’apprendimento della rappresentazione, interagendo potenzialmente con gli effetti rappresentazionali della modellazione.

Riferimenti:

Italiano: https://arxiv.org/abs/2402.09142