o1 improvvisa esposizione interna? google ha rivelato il principio in precedenza non c'è fossato per i modelli di grandi dimensioni solo con il software.

2024-09-17

mingmin viene dal tempio aofei
qubit |. account pubblico qbitai

meno di una settimana dopo il suo rilascio, il fossato del modello più potente di openai, o1, è scomparso.

qualcuno ha scoperto che un articolo pubblicato da google deepmind in agosto ha rivelato il principio e il funzionamento di o1.quasi unanime。

questo studio mostra che aumentare i calcoli del tempo di test è più efficiente che espandere i parametri del modello.

sulla base della strategia di espansione del calcolo del tempo di test ottimale proposta nel documento, il modello di base più piccolo può superarne uno in alcune attività.14 volte più grandemodello.

i netizen hanno detto:

questo è quasi il principio di o1.
come tutti sappiamo, a ultraman piace essere davanti a google, quindi è per questo che o1 ha rilasciato prima la versione di anteprima?

alcune persone si sono lamentate di questo:

infatti, come ha affermato la stessa google, nessuno ha un fossato e nessuno lo avrà mai.

proprio ora, openai ha aumentato la velocità di o1-mini di 7 volte e può utilizzare 50 articoli al giorno; o1-preview ha menzionato 50 articoli a settimana;

risparmia 4 volte la quantità di calcolo

il titolo di questo documento di google deepmind è:quando si ottimizzano i test llm, il calcolo è più efficiente dell'espansione della scala dei parametri del modello.。

il gruppo di ricerca si è esteso ai modelli di pensiero umani. poiché le persone impiegano più tempo per pensare e migliorare le decisioni quando affrontano problemi complessi, lo stesso può valere per llm?

in altre parole, di fronte a un compito complesso, llm può essere in grado di utilizzare in modo più efficace i calcoli aggiuntivi durante i test per migliorare la precisione.

alcuni studi precedenti hanno dimostrato che questa direzione è effettivamente fattibile, ma l’effetto è relativamente limitato.

quindi questo studio voleva scoprire quanto è possibile migliorare le prestazioni del modello utilizzando relativamente pochi calcoli di inferenza aggiuntivi?

hanno progettato una serie di esperimenti da testare sul set di dati math utilizzando palm2-s*.

vengono analizzati principalmente due metodi:

(1) autorevisione iterativa: lascia che il modello provi a rispondere a una domanda più volte, rivedendola dopo ogni tentativo per ottenere una risposta migliore.
(2) ricerca: in questo approccio, il modello genera più risposte candidate,

si può vedere che quando si utilizza il metodo di auto-revisione, all’aumentare della quantità di calcoli durante il test, il divario tra la strategia standard best-of-n (best-of-n) e la strategia di espansione computazionalmente ottimale si allarga gradualmente.

l'utilizzo del metodo di ricerca per calcolare la strategia di espansione ottimale mostra evidenti vantaggi nella fase iniziale. e in determinate circostanze, può ottenere lo stesso effetto della migliore strategia n,l'importo del calcolo è solo 1/4 di quello。

in una valutazione corrispondente dei flop paragonabile ai calcoli pre-addestrati, un modello pre-addestrato 14 volte più grande (senza inferenza aggiuntiva) viene confrontato con palm 2-s* (utilizzando la strategia computazionalmente ottimale).

si è scoperto che quando si utilizza il metodo di auto-revisione, quando i token di inferenza sono molto più piccoli dei token di pre-addestramento, l'effetto dell'utilizzo della strategia di calcolo del tempo di test è migliore dell'effetto di pre-addestramento. ma quando il rapporto aumenta, o su problemi più difficili, la pre-formazione funziona ancora meglio.

vale a dire, in entrambi i casi, la chiave per calcolare se il metodo di estensione è valido secondo diversi test èsuggerimento difficoltà。

lo studio ha ulteriormente confrontato diversi metodi di ricerca delle persone a mobilità ridotta e i risultati hanno mostrato che la ricerca in avanti (all’estrema destra) richiede più calcoli.

quando la quantità di calcolo è ridotta, l'utilizzo della strategia di calcolo ottimale può far risparmiare fino a 4 volte le risorse.

confrontando il modello o1 di openai, questo studio giunge quasi alla stessa conclusione.

il modello o1 impara ad affinare il proprio processo di pensiero, a provare diverse strategie e a riconoscere i propri errori. e con più apprendimento per rinforzo (calcolato durante l'addestramento) e più tempo per pensare (calcolato durante i test), le prestazioni di o1 continuano a migliorare.

tuttavia, openai ha rilasciato il modello più velocemente, mentre google utilizza palm2 e non ha rilasciato un aggiornamento su gemini2.

netizen: il fossato riguarda solo l'hardware?

tali nuove scoperte inevitabilmente ricordano le opinioni espresse nei documenti interni di google lo scorso anno:

non abbiamo un fossato e nemmeno openai. il modello open source può battere chatgpt.

al giorno d'oggi, ogni velocità di ricerca è molto elevata e nessuno può garantire di essere sempre avanti.

l'unico fossato potrebbe essere l'hardware.

(quindi musk costruirà un centro di calcolo?)

alcune persone dicono che nvidia ora controlla direttamente chi ha più potenza di calcolo. quindi cosa succede se google/microsoft sviluppa un chip personalizzato che funziona meglio?

vale la pena ricordare che il primo chip di openai è stato presentato qualche tempo fa e utilizzerà il processo a livello angstrom a16 più avanzato di tsmc ed è appositamente costruito per le applicazioni video sora.

ovviamente, per i campi di battaglia con modelli di grandi dimensioni, il semplice rotolamento del modello stesso non è più sufficiente.

link di riferimento:
https://www.reddit.com/r/singularity/comments/1fhx8ny/deepmind_understands_strawberry_there_is_no_moat/

notizia

o1 improvvisa esposizione interna? google ha rivelato il principio in precedenza non c'è fossato per i modelli di grandi dimensioni solo con il software.

risparmia 4 volte la quantità di calcolo

netizen: il fossato riguarda solo l'hardware?

introduzione

le mie informazioni di contatto