Das Originalwerk geht persönlich zu Ende! Mistrals erstes Open-Source-7B-Mamba-Modell „Cleopatra“ hat atemberaubende Effekte

2024-07-17

Neuer Weisheitsbericht

Herausgeber: Redaktion

[Einführung in die neue Weisheit] In letzter Zeit sind 7B-Kleinmodelle zu einem Trend geworden, mit dem die KI-Giganten geradezu Schritt halten. Nach Googles Gemma2 7B hat Mistral heute zwei weitere 7B-Modelle veröffentlicht, nämlich Mathstral für MINT-Fächer und Codestral Mamba, ein Codemodell, das die Mamaba-Architektur nutzt.

Mistral hat eine weitere Überraschung!

Erst heute hat Mistral zwei kleine Modelle herausgebracht: Mathstral 7B und Codestral Mamba 7B.

An erster Stelle steht Mathstral 7B, das für mathematisches Denken und wissenschaftliche Entdeckungen konzipiert ist.

Im MATH-Benchmark-Test erreichte es eine Punktzahl von 56,6 % bestanden@1, was mehr als 20 % mehr als das Minerva 540B ist. Mathstral erreichte 68,4 % bei MATH und 74,6 % beim Belohnungsmodell.

Das Codemodell Codestral Mamba ist eines der ersten Open-Source-Modelle, das die Mamba-2-Architektur übernimmt.

Es ist das beste der verfügbaren 7B-Codemodelle, trainiert mit einer Kontextlänge von 256.000 Token.

Beide Modelle werden unter der Apache 2.0-Lizenz veröffentlicht und die Gewichte werden derzeit in das HuggingFace-Warehouse hochgeladen.

Hugging Face-Adresse: https://huggingface.co/mistralai

Mathstral

Interessanterweise fand die Veröffentlichung von Mathstral der offiziellen Ankündigung zufolge anlässlich des 2311. Geburtstags von Archimedes statt.

Mathstral wurde für MINT-Fächer entwickelt, um fortgeschrittene mathematische Probleme zu lösen, die komplexes, mehrstufiges Denken erfordern. Die Parameter sind nur 7B groß und das Kontextfenster ist 32k groß.

Darüber hinaus hat die Forschung und Entwicklung von Mathstral auch einen Schwergewichtspartner – Numina, das letzte Woche gerade die Meisterschaft bei Kaggles erstem AI Mathematical Olympiad-Wettbewerb gewonnen hat.

Darüber hinaus haben einige Twitter-Nutzer herausgefunden, dass Mathstral die Frage „Was ist größer, 9.·11 oder 9.9?“ richtig beantworten kann. Diese Frage hat viele große Modelle verblüfft.

Ganzzahlen und Dezimalzahlen werden getrennt verglichen, und die Denkkette ist klar. Man kann sagen, dass es sich um ein Modell hervorragender mathematischer Modellarbeit handelt.

Basierend auf den Sprachfähigkeiten von Mistral 7B konzentriert sich Mathstral zusätzlich auf MINT-Fächer. Laut den Ergebnissen der Fächeraufschlüsselung von MMLU sind Mathematik, Physik, Biologie, Chemie, Statistik, Informatik und andere Bereiche die absoluten Vorteile von Mathstral.

Laut dem offiziellen Blog-Beitrag scheint Mathstral im Austausch für die Modellleistung einige Abstriche bei der Inferenzgeschwindigkeit zu machen, aber den Bewertungsergebnissen nach zu urteilen, lohnt sich dieser Kompromiss.

In mehreren Benchmark-Tests in den Bereichen Mathematik und Denken besiegte Mathstral beliebte kleine Modelle wie Llama 3 8B und Gemma2 9B und erreichte insbesondere SOTA bei Mathematik-Wettbewerbsfragen wie AMC 2023 und AIME 2024.

Darüber hinaus kann die Inferenzzeit weiter erhöht werden, um bessere Modellergebnisse zu erzielen.

Wenn für 64 Kandidaten eine Mehrheitsentscheidung getroffen wird, kann die Punktzahl von Mathstral bei MATH 68,37 % erreichen. Wenn man zusätzliche Belohnungsmodelle hinzufügt, kann es auch eine hohe Punktzahl von 74,59 % erreichen.

Zusätzlich zu den Plattformen HuggingFace und la Plateforme können Sie auch die offiziell veröffentlichten beiden Open-Source-SDKs Mistral-finetune und Mistral Inference aufrufen, um das Modell zu verwenden oder zu optimieren.

Codestral Mamba

Nach der Veröffentlichung der Mixtral-Reihe, die auf der Transformer-Architektur basiert, wurde auch Codestral Mamba veröffentlicht, das erste Codegenerierungsmodell, das die Mamba2-Architektur nutzt.

Darüber hinaus wurde der Forschungs- und Entwicklungsprozess auch von den Originalautoren von Mamba, Albert Gu und Tri Dao, unterstützt.

Interessant ist, dass im offiziellen Ankündigungsartikel ausdrücklich die verwandte „Kleopatra“ Kleopatra VII. erwähnt wurde, die ihr Leben auf dramatische Weise mit einer Giftschlange beendete.

Nach der Veröffentlichung der Mamba-Architektur hat ihre überlegene experimentelle Leistung große Aufmerksamkeit und Optimismus hervorgerufen. Da die gesamte KI-Community jedoch zu viel Geld in Transformer investiert hat, haben wir selten Industriemodelle gesehen, die Mamba tatsächlich verwenden.

Zu diesem Zeitpunkt kann Codestral Mamba uns eine neue Perspektive auf das Studium neuer Architekturen bieten.

Die Mamba-Architektur wurde erstmals im Dezember 2023 veröffentlicht, und die beiden Autoren brachten im Mai dieses Jahres eine aktualisierte Version von Mamba-2 auf den Markt.

Im Gegensatz zum Transformer verfügt das Mamba-Modell über den Vorteil einer linearen Zeitbetrachtung und ist theoretisch in der Lage, Sequenzen unendlicher Länge zu modellieren.

Bei beiden handelt es sich um 7B-Modelle. Während das Kontextfenster von Mathstral nur 32 KB groß ist, kann Codestral Mamba auf 256 KB erweitert werden.

Dieser Effizienzvorteil in Bezug auf Inferenzzeit und Kontextlänge sowie das Potenzial für schnelle Antworten ist in praktischen Szenarien zur Verbesserung der Codierungseffizienz besonders wichtig.

Das Mistral-Team erkannte diesen Vorteil des Mamba-Modells und übernahm die Initiative, es auszuprobieren. Aus dem Benchmark-Test geht hervor, dass der 7B-Parameter Codestral Mamba nicht nur offensichtliche Vorteile gegenüber anderen 7B-Modellen hat, sondern sogar mit größeren Modellen mithalten kann.

In 8 Benchmark-Tests konnte Codestral Mamba im Wesentlichen mit Code Llama 34B mithalten und übertraf in 6 Tests sogar die Leistung.

Im Vergleich zu seiner großen Schwester Codestral 22B spiegelt sich jedoch der Parameternachteil von Codestral Mamba wider, und es scheint ihm immer noch an Fähigkeiten zu mangeln.

Es ist erwähnenswert, dass Codestral 22B ein neues Modell ist, das vor weniger als zwei Monaten auf den Markt kam. Ich bedauere erneut, dass Mistral, das seinen Hauptsitz in Paris hat, so beliebt ist.

Codestral Mamba kann auch mit Mistral-Inference oder der von NVIDIA veröffentlichten Rapid Deployment API TensorRL-LLM bereitgestellt werden.

GitHub-Adresse: https://github.com/NVIDIA/TensorRT-LLM

Für den lokalen Betrieb heißt es im offiziellen Blog, dass man auf die spätere Unterstützung von llama.cpp achten kann. Doch Ollama reagierte schnell und fügte Mathstral zur Modellbibliothek hinzu.

Angesichts des Drängens der Internetnutzer, Codestral Mamba zu aktualisieren, sagte Ollama auch sehr eindringlich: „Wir arbeiten bereits daran, bitte seien Sie nicht ungeduldig.“

Verweise:

https://mistral.ai/news/codestral-mamba/

https://mistral.ai/news/mathstral/

https://venturebeat.com/ai/mistral-releases-codestral-mamba-for-faster-longer-code-generation/

Nachricht

Das Originalwerk geht persönlich zu Ende! Mistrals erstes Open-Source-7B-Mamba-Modell „Cleopatra“ hat atemberaubende Effekte

Einführung

meine Kontaktdaten