Mamba übertrifft Transformer beim Schreiben von Code wirklich! Originalbeitrag für die besten neuen Konferenznachrichten ausgewählt

Mamba übertrifft Transformer beim Schreiben von Code wirklich!Originalbeitrag für Top-Neukonferenz ausgewählt

2024-07-17

Der Westwind kommt vom Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

„European OpenAI“ und „Transformer Challenger“ haben sich zusammengetan!

Mistral AI hat gerade sein erstes KI-basiertes Unternehmen auf den Markt gebrachtMamba2Open-Source-Modell für Architektur -Codestral Mamba(7B), spezialisiert auf Codegenerierung.

Im Gegensatz zur Transformer-Architektur kann die Mamba-Architektur „lineares Zeitdenken“ durchführen und theoretisch Eingaben mit unendlicher Länge unterstützen.

Mistral AI: Aus diesem Grund verwenden wir das von der Mamba-Architektur eingeführte Code-Argument-Modell, um dem Angriff zu widerstehen.

Mistral AI sagt, es hat das meiste256.000 Token-KontextCodestral Mamba wurde in getestet.

Im Benchmark-Test übertraf die Gesamtleistung von Codestral Mamba CodeGemma-1.1 7B, CodeLlama 7B, DeepSeek v1.5 7B und CodeLlama 34B.

Einige Internetnutzer sagten, dass diese Welle das Tempo sei, mit dem Mistral AI die Mamba-Architektur voranbringen werde.

Einer der Autoren der Mamba-Architektur, Assistenzprofessor an der CMUAlbert Guäußern:

Unterschiedliche Modalitäten oder Datenformate mit schwächeren „Tokenisierungen“ (z. B. Code, Modellierung auf Byte-Ebene) werden zunehmend von komprimierten Modellen wie SSM profitieren.

Zusätzlich zu Codestral Mamba hat Mistral AI auch ein neues veröffentlichtmathematisches Modell——Mathstral(7B).

Interessant ist, dass Internetnutzer dafür gesorgt haben, dass große Modelle in den letzten Tagen häufig umkippten.Welches ist größer, 9,11 oder 9,9?" Frage, Mathstral verglich zuerst die ganzen Zahlen, dann die Dezimalteile und hatte schließlich Erfolg.

Die Leistung von 7B liegt nahe an der von 22BTransformer

Die vollständigen Codestral Mamba-Benchmark-Ergebnisse lauten wie folgt:

In allen Benchmarks wie HumanEval C++/Java/JavaScript/Bash übertrifft Codestral Mamba CodeGemma-1.1 7B, CodeLlama 7B und den größeren CodeLlama 34B.

Das bisher stärkste Open-Source-Programmiermodell von Mistral AICodestral 22BEs gibt keine große Lücke zwischen ihm und Codestral Mamba.

Darüber hinaus sticht auch DeepSeek v1.5 7B im Benchmark hervor, und es geht mit Codestral Mamba hin und her.

DeepSeek v1.5 7B ist besser als Codestral Mamba in Spider (komplexe domänenübergreifende semantische Analyse und Text-to-SQL-Aufgaben), HumanEval Java, HumanEval Bash, MBPP usw.

Neben den Benchmark-Ergebnissen ist das Interessanteste an Codestral Mamba, dass es sich um die erste Charge von Mamba2-Architekturmodellen handelt.

Mamba-Architektur vom FlashAttention-AutorTri Daound CMU-Assistenzprofessor, Mitbegründer und Chefwissenschaftler von Cartesia AIAlbert GuEnde letzten Jahres vorgeschlagen.

Zuvor hatten große Transformer-Architekturmodelle wie ChatGPT ein großes Problem: Die Verarbeitung langer Texte verbrauchte enorme Mengen an Rechenleistung. Der Grund dafür ist auch die quadratische Komplexität des Aufmerksamkeitsmechanismus in der Transformer-Architektur.

Mamba ist der erste, der wirklich die Leistung von Transformer erreichtLineares Zeitreihenmodellist ebenfalls ein Zustandsraummodell (SSM, State Space Model).

Mamba basiert auf dem moderneren Structured SSM (S4, Structured SSM), das für Deep Learning geeignet ist, und weist Ähnlichkeiten mit der klassischen Architektur RNN auf.

Es gibt drei Hauptinnovationen: selektive Verarbeitung von Eingabeinformationen, hardwarebewusste Algorithmen und einfachere Architektur.

Die Mamba-Architektur erregte bereits nach ihrem Erscheinen große Aufmerksamkeit in der Branche. Der Gründer von Stability AI und NVIDIA-Wissenschaftler Jim Fan und andere sind von seiner Entstehung begeistert.

Mambas Originalpapier wurde Anfang des Jahres vom ICLR abgelehnt, was im Kreis für heftige Diskussionen sorgte.

Allerdings wurde es kürzlich von CoLM2024, der Top-Konferenz der neuen Generation, akzeptiert.

Mamba2 ist die zweite Generation, bei der der Zustandsraum um das Achtfache erweitert und die Trainingsgeschwindigkeit um 50 % erhöht wurde.

Im Mamba2-Artikel wurde festgestellt, dass der Aufmerksamkeitsmechanismus in Transformer einen sehr engen mathematischen Zusammenhang mit SSM hat, und der Artikel wurde erfolgreich für ICML 2024 ausgewählt.

Außerdem wurde ein mathematisches Modell veröffentlicht

Zusätzlich zu Codestral Mamba hat Mistral AI auch ein Open-Source-Mathematikmodell auf den Markt gebracht –Mathstral(7B), zum Gedenken an den 2311. Geburtstag von Archimedes.

Mathstral basiert auf Mistral 7B und konzentriert sich auf MINT (Wissenschaft, Technologie, Ingenieurwesen, Mathematik) mit einem Kontextfenster von 32.000.

Im Benchmark-Test erreichte Mathstral MATH 56,6 % und MMLU erreichte 63,47 %.

Der Punkt ist, dass Mathstral auch mit mehr Inferenzzeitberechnungen bessere Ergebnisse erzielen kann:

Bei Verwendung des Mehrheitsentscheidungsmechanismus erzielte Mathstral 7B im MATH-Test eine Punktzahl von 68,37 %, und bei Anwendung eines starken Belohnungsmodells unter 64 Kandidatenmodellen verbesserte sich die Punktzahl auf 74,59 %.

Im Folgenden ist der Leistungsunterschied zwischen Mathstral 7B und Mistral 7B in verschiedenen MMLU-Fächern aufgeführt:

Referenzlinks:
[1]https://mistral.ai/news/codestral-mamba/
[2]https://mistral.ai/news/mathstral/
[3]https://x.com/MistralAI/status/1813222156265791531
[4]https://x.com/GuillaumeLample/status/1813231491154899012
[5]https://x.com/theo_gervet/status/1813226968600469824
[6]https://x.com/tuturetom/status/1813238885453033540
[7]https://x.com/WenhuChen/status/1812562112524226569

Belegung

Mamba übertrifft Transformer beim Schreiben von Code wirklich!Originalbeitrag für Top-Neukonferenz ausgewählt

Die Leistung von 7B liegt nahe an der von 22BTransformer

Außerdem wurde ein mathematisches Modell veröffentlicht

Einführung

meine Kontaktdaten