Il più potente programmatore di intelligenza artificiale perde il lavoro: esegue il codice in 84 secondi e pensa come un essere umano! Il team è composto solo da 5 persone

Il più potente programmatore di intelligenza artificiale perde il lavoro: esegue il codice in 84 secondi e pensa come un essere umano! La squadra è composta da sole 5 persone

2024-08-13

Il vento dell'ovest di Jin Lei proviene dal Tempio Aofei
Qubit |. Account pubblico QbitAI

Dopo Devin, un altroIngegnere del software AILo schermo è stato strisciato——

si chiamaGenio, detta correnteIl più forte in superficie, possono già pensare e agire come gli esseri umani!

Quindi quanto è forte questo "più forte in superficie"?

Diamo prima un'occhiataPunteggio della revisione。

Nella lista autorevole SWE-Bench, Genie ha risolto30.07%Il punteggio della domanda è in cima alla lista.

(SWE-Bench è un benchmark utilizzato per valutare modelli di grandi dimensioni per la risoluzione di problemi software reali.)

Si può dire che questo risultato sia molto più avanti del secondo posto del 19,27%, sbloccandosiIl più grande aumento nel miglioramento SOTA: 57%!

Per quanto riguarda GenieEffetto reale, nelle parole del team:

Può risolvere problemi software reali proprio come gli ingegneri umani.

Prima di tutto, puoi utilizzare 4 modi per avviare Genie, vale a dire parole prompt, GitHub Issue, Linear Ticket o API.

Prendendo come esempio la risoluzione dei problemi di GitHub, per prima cosa fornisci a Genie un collegamento al repository e verrà avviatoRisolvi automaticamente i problemiAvuto:

Club dei GeniPensiero iterativo automaticoSe vuole risolvere questo problema, di quali file ha bisogno finché non ritiene di averne trovato uno di cui è soddisfatto:

Subito dopo, farà aAnalisi iterativa automaticaIl processo:

Poi Genie ha iniziato a "swish, swish, swish"Scrivi ed esegui automaticamente il codiceAvuto:

Se si verifica un bug durante l'esecuzione del codice, Genie si concentrerà solo sull'area problematica e ripeterà il processo di analisi, scrittura del codice ed esecuzione finché non viene eseguito.

L'intero processo richiede solo tempo84 secondi！

Nelle parole della squadra:

Genie ha osservato e imparato milioni di volte dal modo in cui i programmatori umani risolvono i problemi software.
Questo è un numero che nessun programmatore umano può raggiungere in una vita.

Ma ciò che è ancora più inaspettato è il team dietro Genie——Coseno, solo 5 persone。

E anche il CEO Alistair ha postato un messaggio ringraziando OpenAI:

Non potremmo realizzare Genie senza di te.

Allora come ha fatto il team di Cosine a costruire Genie?

Come diventare l'ingegnere AI più forte?

La caratteristica principale di Genie è la sua capacità di imitare i processi cognitivi, la logica e il flusso di lavoro degli ingegneri umani.

Per fare ciò, il team di Genie ha rivelato di aver raccolto un set di dati contenente le attività di sviluppo di programmatori umani reali nell’ultimo anno.

Non utilizza solo l'analisi dei risultati, l'analisi statica, l'autoriproduzione, la verifica passo passo e altri metodi, ma utilizza anche modelli di intelligenza artificiale addestrati sulla base di una grande quantità di dati etichettati. Il vantaggio è che man mano che migliorano le capacità dei modelli sottostanti, aumenta anche la qualità dei dati che possono estrarre.

Finalmente GenioUtilizza questi dati proprietari per la formazione。

L'intero processo del ragionamento umano è codificato nel set di dati, compreso il perfetto tracciamento delle informazioni, la scoperta incrementale della conoscenza e il processo decisionale passo passo basato su casi di lavoro reali degli ingegneri del software.

Il processo di ragionamento di Genie includePianificazione, recupero, scrittura ed esecuzione del codiceI quattro passaggi principali superano i limiti di altri ingegneri dell’intelligenza artificiale che si affidano all’aggiunta di strumenti aggiuntivi come browser Web e interpreti di codice oltre al modello di base e possono gestire problemi diversi, altamente situazionali e senza precedenti come gli esseri umani.

Questo metodo di allenamento ha fatto sì che i netizen pensassero immediatamente a idee simili che Karpathy aveva avanzato in precedenza:

Per LLM, i dati di formazione ideali non sono il contenuto che scrivi in sé, ma il tuo processo di pensiero completo e ogni azione di modifica durante il processo di scrittura. Tuttavia, possiamo solo fare il meglio che possiamo con le risorse di cui disponiamo.

Inoltre, introduce anche la formazione Geniemeccanismo di auto-miglioramento。

I dati di addestramento iniziali sono per lo più codice privo di errori che può essere eseguito normalmente, rendendo difficile per Genie gestire le situazioni di errore. Per risolvere questo problema, il team ha utilizzato la prima versione di Genie per generare dati sintetici contenenti errori, quindi ha utilizzato questi dati per addestrare la versione successiva del modello.

Nello specifico, la vecchia versione di Genie viene utilizzata per proporre una soluzione e, se la soluzione è sbagliata, viene utilizzato lo stato finale dell'attività padroneggiato per insegnargli a raggiungere lo stato corretto dallo stato corrente.

Ripetendo questo processo, la soluzione iniziale proposta da Genie diventa gradualmente più precisa, fornendo direttamente la risposta corretta nella maggior parte dei casi e, anche se commette un errore, richiede solo meno correzioni nel set di dati.

Un'altra chiave per migliorare le capacità di Genie risiede nel supporto di modelli di grandi dimensioni fornito da OpenAI.

Il team ha dichiarato che quando ha sviluppato Genie per la prima volta, poteva accedere solo a modelli con contesto breve nell'intervallo 16-32k per la messa a punto. Hanno utilizzato questi modelli per gran parte dello sviluppo iniziale e hanno utilizzato più di 100 milioni di dati token per addestrare il file modelli. Sebbene abbiano scoperto che l'architettura progettata presenta alcuni vantaggi, ma sono fondamentalmente limitati dalla quantità di informazioni che il modello può elaborare in un dato periodo di tempo.

Dopo aver provato vari metodi di compressione/chunking, l'unica soluzione era utilizzare un modello con un contesto più ampio.

OpenAI fornisce supporto per modelli di contesto a lungo termine e l'ultima versione di Genie è stata addestrata su miliardi di token.

Il team ritiene che, rispetto all'aggiustamento degli iperparametri e al volume dei dati, la qualità dei dati sia la chiave. Pertanto, hanno anche condotto molti esperimenti sul mixaggio dei dati, comprese dimensioni multiple come lingua, tipo di attività, durata dell'attività, ecc. Quella che segue è la proporzione dei diversi dati del linguaggio di programmazione utilizzati per addestrare Genie:

Esistono anche proporzioni di dati di diversi tipi di istanze:

Un team di sole 5 persone

Come accennato in precedenza, il team di start-up di Cosine conta attualmente solo 5 persone.

Nell'introduzione sul sito ufficiale, si descrivono anche in modo molto diretto come:

Piccolo ma potente.
Piccolo ma potente.

A giudicare dall'introduzione, alcuni membri provengono da aziende di unicorni, alcuni hanno esperienza nella gestione di team globali e alcuni hanno addirittura iniziato a programmare da quando avevano 8 anni.

Ma quando Cosine fu fondata, c'erano solo tre persone. Il loro obiettivo era quelloComprendere il ragionamento umano。

Vale la pena ricordare che uno dei membri del team è cinese.Il mio amico Yang, è il co-fondatore di Cosine ed è stato inserito nella lista Forbes 30 under 30 nel 2021.

Inoltre, per quanto riguarda Genie stessa, il CEO Alistair ha anche affermato:

Abbiamo iniziato a immaginare Genie già nel 2022, ma all’epoca non era tecnicamente fattibile.
Fu solo negli ultimi sei mesi circa che Genie divenne realtà man mano che il modello di grandi dimensioni maturava gradualmente.

Ebbene devo dire che il modello grande ha dato ancora una volta un grande contributo.

Genie può attualmente fare domanda per la lista d'attesa. Gli amici interessati possono fare clic sul collegamento alla fine dell'articolo~

Indirizzo della lista d'attesa:
https://cosine.sh/register

Link di riferimento:
[1]https://x.com/alistairpullen/status/1822981361608888619?s=46
[2]https://cosine.sh/blog/genie-technical-report
[3]https://cosine.sh/blog/stato-dell-arte
[4]https://x.com/AlistairPullen/status/1823030874579120223
[5]https://x.com/yangli_

notizia

Il più potente programmatore di intelligenza artificiale perde il lavoro: esegue il codice in 84 secondi e pensa come un essere umano! La squadra è composta da sole 5 persone

Come diventare l'ingegnere AI più forte?

Un team di sole 5 persone

Introduzione

Le mie informazioni di contatto