Der leistungsstärkste KI-Programmierer verliert seinen Job: Er läuft den Code in 84 Sekunden durch und denkt wie ein Mensch! Das Team besteht nur aus 5 Personen

2024-08-13

Der Westwind von Jin Lei kommt vom Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

Nach Devin noch einerKI-SoftwareentwicklerDer Bildschirm wurde gewischt——

es heißtGenie, bekannt als StromDer Stärkste an der Oberfläche, kann schon wie ein Mensch denken und handeln!

Wie stark ist dieses „Stärkste an der Oberfläche“?

Werfen wir zunächst einen Blick daraufBewertungsergebnis。

In der maßgeblichen Liste SWE-Bench hat Genie gelöst30.07%Die Punktzahl der Frage stand ganz oben auf der Liste.

(SWE-Bench ist ein Benchmark zur Bewertung großer Modelle zur Lösung realer Softwareprobleme.)

Man kann sagen, dass dieses Ergebnis mit 19,27 % weit vor dem zweiten Platz liegt, was einen Vorsprung darstelltDer größte Anstieg der SOTA-Verbesserung – 57 %!

Was Genies betrifftTatsächlicher Effekt, in den Worten des Teams:

Es kann reale Softwareprobleme genauso lösen wie menschliche Ingenieure.

Zunächst einmal können Sie Genie auf vier Arten starten: Eingabeaufforderungen, GitHub Issue, Linear Ticket oder API.

Nehmen wir als Beispiel das Lösen von GitHub-Problemen: Geben Sie Genie zunächst einen Link zum Repo, und schon beginnt esProbleme automatisch lösenBekommen:

Genie-ClubAutomatisches iteratives DenkenWenn es dieses Problem lösen möchte, welche Dateien benötigt es, bis es das Gefühl hat, eine gefunden zu haben, mit der es zufrieden ist:

Unmittelbar danach wird Folgendes ausgeführt:Automatische iterative AnalyseDer Prozess:

Dann fing Dschinni an zu „schwirren, schwirren, schwirren“Code automatisch schreiben und ausführenBekommen:

Wenn beim Ausführen des Codes ein Fehler auftritt, konzentriert sich Genie nur auf den Problembereich und wiederholt den Prozess des Analysierens, Schreibens und Ausführens des Codes, bis er ausgeführt wird.

Der gesamte Prozess nimmt nur Zeit in Anspruch84 Sekunden！

In den Worten des Teams:

Genie hat millionenfach beobachtet und daraus gelernt, wie menschliche Programmierer Softwareprobleme lösen.
Dies ist eine Zahl, die kein menschlicher Programmierer im Laufe seines Lebens erreichen kann.

Aber was noch unerwarteter ist, ist das Team hinter Genie –Cosinus, nur 5 Personen。

Und CEO Alistair hat auch eine Nachricht gepostet, in der er sich bei OpenAI bedankt:

Ohne Sie könnten wir Genie nicht machen.

Wie hat das Cosine-Team Genie aufgebaut?

Wie wird man der stärkste KI-Ingenieur?

Das Hauptmerkmal von Genie ist seine Fähigkeit, die kognitiven Prozesse, die Logik und den Arbeitsablauf menschlicher Ingenieure zu imitieren.

Zu diesem Zweck gab das Genie-Team bekannt, dass es einen Datensatz gesammelt hat, der die Entwicklungsaktivitäten echter menschlicher Programmierer im vergangenen Jahr enthält.

Es verwendet nicht nur Ergebnisanalyse, statische Analyse, Selbstspiel, schrittweise Überprüfung und andere Methoden, sondern verwendet auch KI-Modelle, die auf der Grundlage einer großen Menge gekennzeichneter Daten trainiert werden. Der Vorteil besteht darin, dass mit der Verbesserung der Fähigkeiten der zugrunde liegenden Modelle auch die Qualität der Daten steigt, die sie extrahieren können.

Endlich GenieNutzen Sie diese proprietären Daten für das Training。

Der gesamte Prozess des menschlichen Denkens ist im Datensatz kodiert, einschließlich der perfekten Informationsverfolgung, der inkrementellen Wissensentdeckung und des schrittweisen Entscheidungsprozesses auf der Grundlage tatsächlicher Arbeitsfälle von Softwareentwicklern.

Der Denkprozess von Genie umfasst:Planung, Abruf, Code-Schreiben und Code-AusführungDie vier Hauptschritte durchbrechen die Beschränkungen anderer KI-Ingenieure, die auf das Hinzufügen zusätzlicher Tools wie Webbrowser und Code-Interpreter zusätzlich zum Grundmodell angewiesen sind, und können vielfältige, höchst situative und beispiellose Probleme wie Menschen bewältigen.

Diese Trainingsmethode ließ Internetnutzer sofort an ähnliche Ideen denken, die Karpathy zuvor vorgebracht hatte:

Für LLM sind die idealen Trainingsdaten nicht der Inhalt, den Sie selbst schreiben, sondern Ihr vollständiger Denkprozess und jede Bearbeitungsaktion während des Schreibprozesses. Allerdings können wir nur mit den uns zur Verfügung stehenden Ressourcen unser Bestes geben.

Darüber hinaus wird auch das Genie-Training eingeführtSelbstverbesserungsmechanismus。

Bei den anfänglichen Trainingsdaten handelt es sich größtenteils um fehlerfreien Code, der normal ausgeführt werden kann, was es für Genie schwierig macht, mit Fehlersituationen umzugehen. Um dieses Problem zu lösen, nutzte das Team die erste Version von Genie, um synthetische Daten mit Fehlern zu generieren, und nutzte diese Daten dann zum Trainieren der nächsten Version des Modells.

Insbesondere wird die alte Version von Genie verwendet, um eine Lösung vorzuschlagen. Wenn die Lösung falsch ist, wird der gemeisterte Endzustand der Aufgabe verwendet, um ihr beizubringen, vom aktuellen Zustand aus den richtigen Zustand zu erreichen.

Durch die Wiederholung dieses Vorgangs wird die von Genie vorgeschlagene ursprüngliche Lösung nach und nach genauer und liefert in den meisten Fällen direkt die richtige Antwort. Selbst wenn dabei ein Fehler auftritt, sind nur weniger Korrekturen im Datensatz erforderlich.

Ein weiterer Schlüssel zur Verbesserung der Fähigkeiten von Genie liegt in der Unterstützung großer Modelle durch OpenAI.

Das Team gab an, dass es bei der ersten Entwicklung von Genie zur Feinabstimmung nur auf kurze Kontextmodelle im Bereich von 16 bis 32 KB zugreifen konnte. Sie nutzten diese Modelle für viele frühe Entwicklungen und nutzten mehr als 100 Millionen Token-Daten zum Trainieren Sie stellten zwar fest, dass die entworfene Architektur gewisse Vorteile hat, sie sind jedoch grundsätzlich durch die Menge an Informationen begrenzt, die das Modell in einer bestimmten Zeitspanne verarbeiten kann.

Nachdem ich verschiedene Komprimierungs-/Chunking-Methoden ausprobiert hatte, bestand die einzige Lösung darin, ein Modell mit einem größeren Kontext zu verwenden.

OpenAI bietet Unterstützung für lange Kontextmodelle und die neueste Version von Genie wurde auf Milliarden von Token trainiert.

Das Team ist davon überzeugt, dass im Vergleich zur Hyperparameteranpassung und dem Datenvolumen die Qualität der Daten der Schlüssel ist. Daher führten sie auch viele Experimente zur Datenmischung durch, einschließlich mehrerer Dimensionen wie Sprache, Aufgabentyp, Aufgabenlänge usw. Das Folgende ist der Anteil der Daten verschiedener Programmiersprachen, die zum Trainieren von Genie verwendet wurden:

Es gibt auch Datenanteile verschiedener Instanztypen:

Ein Team von nur 5 Leuten

Wie oben erwähnt, besteht das Start-up-Team von Cosine derzeit nur aus 5 Personen.

In der Einleitung auf der offiziellen Website beschreiben sie sich auch sehr direkt als:

Klein, aber oho.
Klein, aber leistungsstark.

Der Einleitung nach zu urteilen, stammen einige der Mitglieder aus Unicorn-Unternehmen, einige haben Erfahrung in der Leitung globaler Teams und einige haben sogar mit dem Programmieren begonnen, seit sie acht Jahre alt waren.

Aber als Cosine gegründet wurde, gab es nur drei Leute. Ihr Ziel war esMenschliches Denken verstehen。

Erwähnenswert ist, dass eines der Teammitglieder Chinesen ist.Jan-Lin, ist Mitbegründer von Cosine und wurde 2021 auf der Forbes-Liste der 30 unter 30 gelistet.

Darüber hinaus sagte CEO Alistair zu Genie selbst:

Wir haben bereits im Jahr 2022 damit begonnen, uns Genie vorzustellen, aber es war damals technisch nicht realisierbar.
Erst in den letzten sechs Monaten wurde Genie zur Realität, als das große Modell allmählich reifer wurde.

Nun, ich muss sagen, dass das große Vorbild wieder einen tollen Beitrag geleistet hat.

Genie kann sich derzeit für die Warteliste bewerben. Interessierte Freunde können auf den Link am Ende des Artikels klicken

Adresse der Warteliste:
https://cosine.sh/register

Referenzlinks:
[1]https://x.com/alistairpullen/status/1822981361608888619?s=46
[2]https://cosine.sh/blog/genie-technical-report
[3]https://cosine.sh/blog/state-of-the-art
[4]https://x.com/AlistairPullen/status/1823030874579120223
[5]https://x.com/yangli_

Nachricht