il nuovo re dei grandi modelli open source ha ribaltato gpt4o, la nuova tecnologia può autocorreggersi e mathematics 99.2 ha esaurito il set di test

2024-09-06

il vento dell'ovest proviene dal tempio aofei
qubit |. account pubblico qbitai

il trono dei grandi modelli open source passò improvvisamente di mano e passò a un piccolo team imprenditoriale, facendo immediatamente esplodere il settore.

il nuovo modello si chiamariflessione 70b, utilizzando una nuova tecnologia di addestramento per consentire all'ia di imparare a correggere i propri errori e illusioni durante il processo di ragionamento.

ad esempio, nel recente e popolare test digital r, ha commesso gli stessi errori della maggior parte dei modelli iniziali, ma ha preso l'iniziativa ditag <riflessione>zhong si corresse.

nella valutazione ufficiale, il modello 70b ha ampiamente superato i più potenti open source llama 3.1 405b, gpt-4o, claude 3 opus e gemini 1.5 pro. in particolare, ha raggiunto direttamente il benchmark matematico gsm8k.punteggio del 99,2%。

questo risultato ha spinto anche noam brown, scienziato di openai e padre dell'ia del poker, ad aprire con entusiasmo il microfono:

gsm8k ottiene un punteggio del 99%! questo benchmark può essere ufficialmente eliminato?

non appena il modello è andato online, i netizen sono rimasti sopraffatti dalla prova e meta ha anche sostenuto attivamente una maggiore potenza di calcolo.

nei test dei netizen, reflection 70b può rispondere a domande che hanno risposte errate al set di dati gsm8k:

ho alimentato i problemi "ground_truth" del modello 5 presenti in gsm8k che sono intrinsecamente errati.
invece di ripetere le risposte sbagliate nel set di dati, il modello le ha corrette, il che è impressionante.mostra che la precisione del 99,2% non deriva dalla memorizzazione del set di test！

è facile contare anche tutti i tipi di rparole createanche diverse r in "drirrrrngrrrrnnnn" possono essere contate correttamente.

gli utenti della rete sono sorpresi che l'open source realizzato da un piccolo team abbia superato il top closed source. ora il modello open source più potente può essere eseguito localmente.

la chiave 70b è solo l'inizio. i funzionari hanno detto che la prossima settimana ne verrà rilasciata una più grande.riflessione 405b。

si prevede che le prestazioni del 405b saranno significativamente migliori rispetto a sonnet e gpt-4o.

i pesi di reflection 70b sono stati resi pubblici e l'accesso api sarà fornito da hyperbolic labs più tardi oggi.

i modelli possono riflettere e correggere gli errori

maggiori dettagli attualmente disponibili su reflection 70b sono riportati di seguito.

la chiave per migliorare le capacità di reflection 70b è l'uso di un metodo chiamatoriflessione-sintonizzazioneun metodo di allenamento che consente al modello di riflettere sul testo che genera, rilevando e correggendo gli errori nel proprio ragionamento prima di finalizzare una risposta.

i dati in formazione provengono da dati sintetici generati utilizzando la piattaforma glaiveai.

reflection 70b è basato su llama 3.1 70b instruct e può essere campionato da reflection llama-3.1 70b utilizzando lo stesso codice, pipeline, ecc. degli altri modelli llama.

utilizza anche il formato chat standard llama 3.1.

tuttavia, reflection 70b ne introduce alcunigettoni specialiprocesso di output strutturato.

come mostrato nell'esempio seguente, suddividere il processo di pianificazione in una fase separata può migliorare l'effetto cot e mantenere l'output raffinato:

il modello sarà da<thinking> e</thinking> inizia l'inferenza dell'output intra-etichetta e, una volta soddisfatta della sua inferenza, il file<output> e</output> la risposta finale viene visualizzata nell'etichetta.

quindi è in grado di separare il suo pensiero e ragionamento interno dalla risposta finale.

esistere<thinking> sezione, il modello può produrne uno o più<reflection>etichetta, che indica che il modello ha scoperto un errore nel suo ragionamento e tenterà di correggerlo prima di fornire una risposta definitiva.

il sistema richiede quanto segue:

sei un sistema ai di livello mondiale, capace di ragionamento e riflessione complessi. ragiona attraverso la query all'interno dei tag, quindi fornisci la tua risposta finale all'interno
tag. se ti accorgi di aver commesso un errore nel tuo ragionamento in qualsiasi momento, correggiti all'interno dei tag.
(sei un sistema di intelligenza artificiale di livello mondiale capace di ragionamenti e riflessioni complessi. ragionare su query all'interno dei tag, e poi
fornisci la tua risposta finale all'interno del tag. se in qualsiasi momento ti ritrovi a ragionare in modo sbagliato, correggiti all'interno dell'etichetta. )

vale anche la pena ricordare che nel test benchmark, tutti i benchmark sono stati controllati per la contaminazione e isolati dal decontaminatore llm di lmsys.<output> sezione e testare solo questa sezione.

quando si utilizza reflection 70b, il funzionario ha anche condiviso alcuni suggerimenti:

inizialmente si consiglia che il parametro temperatura sia 0,7 e top_p sia 0,95
per migliorare la precisione, è meglio aggiungere "pensa attentamente" alla fine del messaggio.

lo hanno affermato anche i funzionarila prossima settimana verrà pubblicato un rapporto, descrivendo in dettaglio il processo di formazione del modello e i risultati.

creato dal team imprenditoriale dell'agente

dietro reflection 70b c'è un piccolo team, guidato dal ceo di hyperwriteai mutt shumerguida.

secondo linkedin, mutt shumer è un imprenditore seriale laureato alla syracuse university negli stati uniti ed è attualmente co-fondatore e ceo di othersideai.

othersideai è una società di applicazioni di intelligenza artificiale dedicata allo sviluppo degli strumenti di completamento automatico più avanzati al mondo attraverso sistemi di intelligenza artificiale su larga scala. è anche la società dietro hyperwrite.

hyperwrite è un agente operativo del browser che può utilizzare google chrome come un essere umano per completare una serie di attività, come ordinare la pizza:

come gpt-llm-trainer, devi solo descrivere l'obiettivo nel testo e lo eseguirà elencando i passaggi.

quando è stato lanciato per la prima volta, è stato affermato che fosse "migliore di autogpt".

hyperwrite può anche essere installato come estensione di google.

inoltre, mutt shumer ha fondato visos quando era al liceo e si impegna a sviluppare la prossima generazione di software di realtà virtuale per scopi medici.

ha inoltre fondato furi, un'azienda che mira a rivoluzionare l'industria degli articoli sportivi creando prodotti ad alte prestazioni e vendendoli a prezzi equi.

sebbene sia presente il supporto meta, la versione di prova è attualmente aperta, ma è ancora: temporaneamente inaccessibile.

se sei interessato alle scarpe per bambini, puoi prima effettuare l'ordine~

https://reflection-playground-production.up.railway.app/

link di riferimento:
[1]https://huggingface.co/mattshumer/riflessione-llama-3.1-70b
[2]https://x.com/mattshumer_/status/1831767014341538166
[3]https://x.com/polynoamial/status/1831798985528635806
[4]https://x.com/degeneratoor/status/1831809610451448196
[5]https://x.com/kimmonismus/status/1831772661296345333

notizia

il nuovo re dei grandi modelli open source ha ribaltato gpt4o, la nuova tecnologia può autocorreggersi e mathematics 99.2 ha esaurito il set di test

i modelli possono riflettere e correggere gli errori

creato dal team imprenditoriale dell'agente

introduzione

le mie informazioni di contatto