google deepmind dimostra la tecnologia genrm: perfezionare gli llm come modelli di ricompensa per migliorare le capacità di ragionamento dell'intelligenza artificiale generativa

google deepmind dimostra la tecnologia genrm: messa a punto degli llm come modelli di ricompensa per migliorare le capacità di ragionamento dell'intelligenza artificiale generativa

2024-09-03

it house ha riferito il 3 settembre che il team di google deepmind ha pubblicato un articolo su arxiv il 27 agosto, introducendo e dimostrando il verificatore generativo genrm e proponendo in modo creativo un modello di ricompensa per migliorare le capacità di ragionamento dell'intelligenza artificiale generativa.

nel settore dell'intelligenza artificiale, l'attuale approccio tradizionale per migliorare i modelli linguistici di grandi dimensioni (llm) è la modalità best-of-n, ovvero le n soluzioni candidate generate dal llm vengono ordinate dal verificatore e viene selezionata la soluzione migliore .

tali validatori basati su llm sono generalmente addestrati come classificatori discriminativi per valutare le soluzioni, ma non possono sfruttare le capacità di generazione di testo dei llm pre-addestrati.

per superare questa limitazione, il team di deepmind ha provato a utilizzare il prossimo obiettivo di previsione del token per addestrare il verificatore durante l'esecuzione della verifica e della generazione della soluzione.

il verificatore generativo (genrm) del team deepmind include principalmente i seguenti vantaggi rispetto ai verificatori tradizionali:

perfetta integrazione delle regolazioni dei comandi

supportare il ragionamento a catena di pensiero

sfruttare ulteriori calcoli del tempo di inferenza tramite il voto a maggioranza

quando si utilizzano validatori basati su gemma su compiti di ragionamento matematico algoritmico e scolastico primario, genrm supera i validatori discriminativi e llm-as-a-judge, migliorando la percentuale di problemi risolti utilizzando best-of-n del 16-64%.

come riportato da google deepmind, il vantaggio di genrm rispetto ai modelli di ricompensa categorici segna un’evoluzione critica nei sistemi di ricompensa dell’intelligenza artificiale, in particolare in termini della loro capacità di prevenire le frodi apprese dai nuovi modelli. questi progressi evidenziano l’urgente necessità di migliorare i modelli di ricompensa per allineare i risultati dell’intelligenza artificiale agli standard di responsabilità sociale.

notizia

google deepmind dimostra la tecnologia genrm: messa a punto degli llm come modelli di ricompensa per migliorare le capacità di ragionamento dell'intelligenza artificiale generativa

introduzione

le mie informazioni di contatto