notizia

Llama 8B effettua 100 ricerche e supera GPT-4o! La ricerca inferenziale può migliorare le prestazioni, nuova "Legge di Scaling"

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Nuovo rapporto sulla saggezza

Editore: Qiao Yang

[Introduzione alla Nuova Saggezza]Documenti recenti hanno dimostrato che modelli generativi come LLM possono essere adattati alla ricerca e ottenere miglioramenti prestazionali molto significativi. Un altro esperimento ricorrente ha inoltre scoperto che se il modello Llama 3.1 con solo parametri 8B viene cercato 100 volte, può raggiungere lo stesso livello di GPT-4o nell'attività di generazione del codice Python.

Rich Sutton, pioniere dell'apprendimento per rinforzo e professore presso il dipartimento di informatica dell'Università di Alberta in Canada, nel 2019 ha scritto un post sul blog intitolato "The Bitter Lesson", che è diventato una delle discussioni classiche nel campo dell'intelligenza artificiale.

In effetti, l'intuizione di Rich Sutton riflessa tra le righe è abbastanza simile alla Legge di Scaling.


Indirizzo originale: https://www.cs.utexas.edu/~eunsol/courses/data/bitter_lesson.pdf

L’articolo esamina brevemente il percorso di sviluppo dell’intelligenza artificiale nei campi degli scacchi, del Go, del riconoscimento vocale e della visione, e propone questa visione:


Una delle dure lezioni che dovremmo imparare è comprendere il potere di un approccio universale. Questo approccio può continuare a crescere man mano che la quantità di calcolo aumenta a causa di un aumento della potenza di calcolo disponibile. I due metodi che sembrano adattarsi arbitrariamente in questo modo sono la ricerca e l’apprendimento.

Tuttavia, questa visione non è esattamente la stessa della Legge di Scaling, e non possiamo usarla come base per credere che i piccoli modelli siano destinati a essere irrilevanti.

Come descrive Sutton, ci sono due sfide principali sulla strada verso la scalabilità: apprendimento e ricerca.

La Legge di Scaling proposta da OpenAI enfatizza la prima. Ceteris paribus, i modelli più grandi funzionano meglio perché è possibile apprendere più conoscenze e modelli dal set di formazione.

Ma quello che spesso trascuriamo è quest’ultimo. I metodi di ricerca possono anche adattarsi facilmente man mano che la potenza di calcolo aumenta durante la fase di inferenza per generare risposte ai candidati più numerose o di qualità superiore.

Su questo punto si è concentrato un recente articolo pubblicato da studiosi di Stanford, Oxford, DeepMind e altre istituzioni.


Indirizzo del documento: https://arxiv.org/abs/2407.21787

Con l'aumento del numero di campioni ripetuti nella fase di inferenza, le prestazioni (ovvero la copertura del problema) del modello nei campi della matematica, del ragionamento e del codice come GSM8K, MATH, MiniF2F-Math e SWE-bench Lite è stato notevolmente migliorato.

Sembra addirittura esserci una relazione lineare esponenziale tra i due, e può essere modellata da una legge di potenza esponenziale, che sembra spiegare l'esistenza della legge di scala nella fase di ragionamento.


Ispirati da questo articolo, i due ingegneri hanno iniziato a provare a riprodurlo: il risultato è stato che, effettuando una ricerca con 100 piccoli modelli di Llama, sono riusciti a raggiungere o addirittura battere GPT-4o nelle attività di programmazione Python.


I due autori hanno utilizzato una metafora vivida: prima occorreva un’anatra grande quanto un cavallo per ottenere capacità di confine, ma ora possiamo scegliere di utilizzare 100 cavalli grandi quanto un’anatra (o, più precisamente, un lama di alpaca);

Il codice sorgente utilizzato nell'esperimento è stato caricato su GitHub e il costo di riproduzione è piuttosto basso.


https://gist.github.com/charlesfrye/27f25188dbbcfdf20a83c0230020fe05

Per provare prestazioni più elevate, l'autore ha utilizzato la libreria vLLM per implementare l'inferenza batch e ha esteso le condizioni hardware a 10 GPU A100-40GB, con una velocità di output che ha raggiunto i 40.000 token/s.

Metriche e risultati della valutazione

L'autore ha scelto un test di riferimento non trattato nel documento di Large Language Monkeys menzionato sopra: HumanEval.

Il vantaggio di questo set di dati è che il codice generato può essere valutato utilizzando test in esecuzione senza il coinvolgimento di LLM-as-Judge o valutazione umana, consentendo una misura di correttezza più obiettiva.

La performance del modello è misurata da due indicatori: pass@k e fail@k. Secondo i risultati del report di PapersWithCode, nell’inferenza a campione zero, il punteggio pass@1 di GPT-4o è del 90,2%.


https://paperswithcode.com/sota/code- generation-on-humaneval

Utilizzando il metodo proposto nel documento sopra, più una quantità minima di messa a punto tempestiva (senza modificare altri iperparametri), il punteggio pass@k di Llama 3.1 8B è stato significativamente migliorato.

Quando il numero di campioni ripetuti k è 100, la prestazione è equivalente a GPT-4o (90,5% contro 90,2% quando k raggiunge 1000, il punteggio è 95,1%, che è significativamente migliore di GPT-4o);


Se si utilizza l'indicatore fail@k (equivalente a 1-pass@k) e si trasformano logaritmicamente i due assi coordinati nella figura sopra, è possibile vedere la curva mostrata nella figura sotto, che sembra rispettare perfettamente la "legge di scala ".


Vale la pena notare che questo piccolo esperimento non è una riproduzione fedele dell'articolo, ma estrae solo il metodo principale.

Tuttavia, questi risultati sottolineano ulteriormente che i modelli più piccoli possono prevedibilmente sovraperformare i modelli "big Mac" come GPT-4o quando si utilizzano metodi di ricerca per l'aumento della fase di inferenza.

Il futuro della ricerca

Il motivo per cui il metodo di ricerca è potente è che può espandersi "in modo trasparente" all'aumentare della quantità di calcoli e può anche spostare il consumo di risorse dalla memoria al calcolo per raggiungere un ulteriore equilibrio delle risorse.

I recenti importanti risultati dell'intelligenza artificiale in matematica, come il livello di intelligenza artificiale e intelligenza artificiale, sono inseparabili dalla ricerca utilizzata in essa.

Tuttavia, l’implementazione della ricerca richiede innanzitutto una valutazione di alta qualità dei risultati. Il modello di DeepMind traduce i problemi matematici espressi in linguaggio naturale in espressioni formali, ricevendo così la supervisione dettagliata da un compilatore/verificatore come Lean.

, che può migliorare notevolmente il grado di parallelismo e automazione.

Secondo la corrispondenza Curry-Howard-Lambek, sarebbe relativamente facile utilizzare programmi informatici per automatizzare l'identificazione e la valutazione delle dimostrazioni matematiche e dei risultati della generazione di codici.

Ma approcci simili potrebbero fallire in aree diverse dalla matematica e dalla programmazione. Ad esempio, per attività di PNL a tempo indeterminato come il "riepilogo delle e-mail", è difficile condurre ricerche efficaci.

In questa prospettiva la ricerca è a valle della valutazione. Possiamo approssimativamente aspettarci che il miglioramento delle prestazioni dei modelli generativi in ​​campi specifici sarà direttamente proporzionale alle capacità di valutazione e ricerca.

Per raggiungere questo scopo, gli agenti in ambienti digitali ripetibili sembrano essere una direzione promettente.

Riferimenti:

https://modal.com/blog/llama-human-eval