Nachricht

Grok-2 ist da, es kann Bilder erzeugen und Bilder erkennen, und seine Leistung ist vergleichbar mit GPT-4o Musk: Es entwickelt sich wie eine Rakete

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Maschinenherzbericht

Redaktion von Machine Heart

GPT-5 ist noch nicht draußen, Grok hat bereits aufgeholt.

Am selben Tag, an dem Google und OpenAI um Neuigkeiten konkurrierten, war auch Musks xAI nicht untätig.

Am Mittwochnachmittag, Pekinger Zeit, veröffentlichte xAI offiziell das Großmodell Grok 2 der neuen Generation.



Auch die externe große Model-Benchmark-Organisation Chatbot Arena hat die Punkteliste der LMSYS-Liste umgehend aktualisiert. Das frühe Modell von Grok 2 (sus-column-r) liegt nach GPT-4o (Version 0513) an vierter Stelle und übertrifft Claude 3.5 Sonnet und GPT-4-Turbo.

Es zeichnet sich durch Codierung, komplexe Probleme und Mathematik aus.





Musk konnte nicht anders, als zu prahlen: „Groks Antriebsgeschwindigkeit ist wie eine Rakete.“



Beachten Sie, dass dies nur die Punktzahl der frühen Version ist. Chatbot Arena sagte, dass es die offizielle Version in Zukunft testen wird.

Musk sagte, Grok-2 sei ein fortschrittliches Sprachmodell mit modernsten Argumentationsfunktionen. Die neue Generation umfasst zwei Versionen: Grok-2 und Grok-2 mini. Beide Modelle werden nun für Grok-Benutzer auf der X-Plattform freigegeben. Derzeit können Benutzer von X Premium und Premium+ bereits die Modelle Grok-2 und Grok-2 mini erleben.

Im Vergleich zum vorherigen Grok-1.5 hat die frühe Vorschauversion von Grok-2 erhebliche Fortschritte erzielt und führende Fähigkeiten in den Bereichen Chat, Argumentation, Codierung usw. demonstriert. Laut xAI befinden sich Grok-2 und Grok-2 mini derzeit in der Beta-Phase auf dem X und werden später in diesem Monat über eine Unternehmens-API verfügbar sein.

Weniger als eine halbe Stunde nach der Veröffentlichung des neuen Modells präsentierte ein Internetnutzer bereits die Ergebnisse. Er nutzte Grok 2 mini, um ein Bild von „Ich und Musk beim Hotdog-Essen“ zu erzeugen.





Versuchen Sie es mit einem anderen, um ein Porträt von Washington zu erstellen.



Einige Leute haben auch Grok 2 mini ausprobiert, um eine fliegende Katze zu erzeugen.



Jemand anderes hat ein Tesla Model Y gebaut, sieht es ähnlich aus?



Grok-2-Leistung PK

Während xAI eine frühe Version von Grok-2, „sus-column-r“, in die Chatbot Arena einbringt, sehen wir, wie seine Leistung im Vergleich zu anderen beliebten Open- und Closed-Source-Modellen abschneidet.

In Bezug auf den gesamten Elo-Score schneidet Grok-2 besser ab als die Modelle der Claude-Serie und die meisten Versionen von GPT-4. Der erste auf der Liste ist natürlich GPT-4o (Version vom 8. August), das OpenAI gerade erst veröffentlicht hat.



Das Bild unten zeigt den Win-Rate-Vergleich zwischen Grok-2 und anderen beliebten Modellen.



Das Bild unten zeigt einen faktenbasierten Vergleich der Gewinnraten zwischen den beiden Versionen von Grok 1.5 und Grok 2.



xAI übernimmt diesen Prozess, um das Grok 2-Modell zu bewerten, und nutzt AI Tutors, um bei verschiedenen Aufgaben wirklich mit dem Modell zu interagieren. Bei jeder Interaktion stellt Grok 2 den KI-Tutoren zwei Antworten zur Verfügung, die dann anhand der im Leitfaden aufgeführten spezifischen Kriterien die beste Antwort auswählen.

xAI konzentriert sich auf die Bewertung der Modellleistung in zwei Schlüsselbereichen: Befolgen von Anweisungen und Bereitstellung genauer, wahrheitsgetreuer Informationen. Die Ergebnisse zeigen deutliche Verbesserungen in der Fähigkeit von Grok 2, aus abgerufenen Inhalten Schlüsse zu ziehen und Tools wie die korrekte Identifizierung fehlender Informationen, das Durchdenken von Ereignissequenzen, das Verwerfen irrelevanter Beiträge usw. zu verwenden.

Benchmark-Ergebnisse

xAI bewertete das Grok-2-Modell anhand einer Reihe akademischer Benchmarks, darunter Argumentation, Leseverständnis, Mathematik, Naturwissenschaften und Codierung.

Sowohl der Grok-2 als auch der Grok-2 mini stellen erhebliche Verbesserungen gegenüber dem Vorgängermodell Grok-1.5 dar. Die Leistung ist vergleichbar mit anderen hochmodernen Modellen in Bereichen wie wissenschaftliches Wissen auf Hochschulniveau (GPQA), Allgemeinwissen (MMLU, MMLU-Pro) und Mathematikwettbewerbsprobleme (MATH).

Darüber hinaus schneidet Grok-2 auch bei visionsbasierten Aufgaben gut ab, mit bemerkenswerten Leistungen beim visuellen mathematischen Denken (MathVista) und der dokumentenbasierten Fragebeantwortung (DocVQA).



Grok 2-Schnittstelle und -Funktionen „große Überarbeitung“

In den letzten Monaten hat xAI das Grok-Erlebnis auf der x-Plattform kontinuierlich verbessert. Jetzt, mit der Einführung der nächsten Generation von Grok 2, hat xAI die Benutzeroberfläche neu gestaltet, wie unten gezeigt.



Natürlich bietet xAI einige neue Features, wie zum Beispiel eine einfache Umsetzung von Conways „Game of Life“.



Ein weiteres Beispiel ist die multimodale Verständnisfähigkeit (Bilder anschauen und sprechen).



Unter ihnen ist Grok-2 der fortschrittlichste KI-Assistent von xAI mit Text- und visuellen Verständnisfunktionen und integrierten Echtzeitinformationen von der X-Plattform, auf die über die Registerkarte „Grok“ in der X-Anwendung zugegriffen werden kann.

Grok-2 mini ist ein kleines, aber leistungsstarkes Modell, das eine gute Balance zwischen Geschwindigkeit und Antwortqualität bietet.



Grok-2 ist intuitiver, kontrollierbarer und flexibler als sein Vorgänger und eignet sich daher für eine Vielzahl von Aufgaben, egal ob Sie nach Antworten suchen, gemeinsam schreiben oder Programmieraufgaben lösen.

Darüber hinaus arbeitet xAI mit dem Startup Black Forest Labs zusammen, um mit deren FLUX.1-Modell zu experimentieren, um die Fähigkeiten von Grok auf X zu erweitern.



Später in diesem Monat wird xAI außerdem Grok-2 und Grok-2 mini über eine neue Unternehmens-API-Plattform für Entwickler freigeben. Die kommende API basiert auf einem neuen benutzerdefinierten Technologie-Stack und ermöglicht die Bereitstellung von Inferenzen in mehreren Regionen für einen globalen Zugriff mit geringer Latenz.

Natürlich bietet xAI auch einige erweiterte Sicherheitsfunktionen, wie z. B. eine obligatorische Multi-Faktor-Authentifizierung (z. B. mittels Yubikey, Apple TouchID oder TOTP).

Es ist ersichtlich, dass xAI diese Modellreihe seit der Einführung von Grok-1 im November 2023 in alarmierendem Tempo weiterentwickelt hat. Bald werden sie eine Vorschauversion mit multimodalem Verständnis veröffentlichen. Der Schwerpunkt nach xAI wird darauf liegen, die Kern-Folgefähigkeiten des Modells durch neue Rechencluster zu verbessern.

Blog-Adresse: https://x.ai/blog/grok-2