Musk veröffentlichte plötzlich ein neues großes Modell und opferte Tesla-Ressourcen, um OpenAI herauszufordern. Ein Test aus erster Hand ist hier

Musk veröffentlichte plötzlich ein neues großes Modell und opferte Tesla-Ressourcen, um OpenAI herauszufordern, und ein Test aus erster Hand ist hier

2024-08-14

Mengchen stammt aus dem Aofei-Tempel
Qubits |. Öffentliches Konto QbitAI

Musks xAI-Großmodell ist in der zweiten Generation erhältlich!

Grok-2Die Beta-Version ist veröffentlicht, Xiaobei Grok-2 mini ist bereits online auf der Plattform spielbar.

Musk enthüllte auch das Geheimnis, das den großen Modelkreis seit mehr als einem Monat in Form des Riddlers plagt:

Es stellt sich heraus, dass es sich um ein mysteriöses anonymes Model in der Lmsys-Arena für große Models handeltsus-spalte-r, die wahre Form ist Grok-2.

sus-column-r hat mehr als 10.000 menschliche Stimmen auf der Bestenliste gesammelt und hatGleicher Platz mit der API-Version von GPT-4o。

In xAIs eigenen internen Tests konkurrierte Grok-2 mit anderen hochmodernen Modellen in Bereichen wie Allgemeinwissen (MMLU, MMLU-Pro), Mathematik-Wettbewerbsfragen (MATH) und wissenschaftlichen Kenntnissen auf Hochschulniveau (GPQA).

Darüber hinaus eignet sich Grok-2 am besten für visionsbasierte Aufgaben und erreicht SOTA im visuellen mathematischen Denken (MathVista).

Allerdings ist die Anordnung dieses Bildes etwas knifflig: GPT-4o und Claude-3.5-Sonnet, die die höchsten Werte haben, sind weiter von Ihnen entfernt platziert.

Das bloße Betrachten der Ergebnisse ist immer noch abstrakt. Kommen wir also zu den tatsächlichen Tests aus erster Hand.

Test von Grok-2 aus erster Hand

Wenn Sie ein zahlender Benutzer der /Twitter-Plattform sind, können Sie direkt den Grok-Kanal betreten, um es auszuprobieren. Wenn Sie kein Geld ausgeben, können Sie auch in die Lmsys-Arena für große Modelle gehen und sus-column-r auswählen, um es auszuprobieren.

UndBezahlende Benutzer können nur die Xiaobei-Miniversion spielen., kostenlose Benutzer können große Pokale spielen, was auch sehr großzügig ist.。

Da Grok-2 Zugriff auf Echtzeitdaten hatSie können ihn direkt bitten, die Nachrichten des Tages zusammenzufassenWenn Sie den Spaßmodus aktivieren, können Sie auch Kommentare abgeben.

Auch kostenpflichtige VersionZugriff auf das neueste Open-Source-KI-Grafikmodell Flux.1, übersetzt chinesische Aufforderungswörter zum Verständnis ins Englische.

Klicken Sie auf der Startseite auf das Fragebeispiel „Amway, ein Fantasy-Spiel“, und Sie können sehen, dass zunächst „Baldur's Gate 3“ empfohlen und verschiedene Aspekte besprochen werden, darunter Handlung, Charakteranpassung, Spielmechanik, Weltgestaltung, Humorelemente und Spielergemeinschaft. Die Rezension erfolgt aus einer anderen Perspektive und fängt die Highlights des Spiels sehr gut ein.

Zu diesem Zeitpunkt können Sie direkt auf Chinesisch wechseln und weiterhin Fragen stellen.

Grok-2 weiß auch von „Black Myth: Wukong“, einem Spiel, das noch nicht veröffentlicht wurde. Er gab genau an, dass das Veröffentlichungsdatum der 20. August ist, die verwendete Unreal 5-Engine und fasste die Diskussionen unter den Internetnutzern zusammen.

Am Ende sind auch Beiträge von Internetnutzern enthalten, auf die Sie klicken können, um an der Diskussion teilzunehmen. Die funktionale Integration mit der gesamten Plattform ist bereits vorhanden.

Da es jedoch nur eine Mini-Version des Modells gibt, werden wir als nächstes für den Festigkeitstest in die große Modellarena wechseln, und wir können auch eine PK mit GPT-4o durchführen.

Kürzlich beliebte IQ-Testfragen„Was ist größer, 9,9 oder 9,11?“Im Test übertrifft Grok-2 (sus-column-r) die neueste Version von ChatGPT.

Aber ein weiterer beliebter Test„Wie viele R gibt es in Erdbeere?“In dieser Angelegenheit scheiterten beide dennoch. (Versuchen Sie es ein paar Mal und es besteht eine geringe Chance, dass beides richtig ist.)

Ernsthaftere Fallenfragen„Welche der folgenden Kerzen wird zuerst ausgeblasen?“Grok-2 ist etwas weiter fortgeschritten als ChatGPT.

Der Testpunkt ist, dass der verbleibende Teil der Kerze, der zuerst ausgeblasen wird, länger ist (richtige Antwort 3). Die Grok-2-Idee ist richtig, aber die Zahl, die am längsten ist nicht korrekt.

Beide scheinen das klassische Problem des „Fluchs der Umkehrung“ mit der Schwäche großer Modelle irgendwie überwunden zu haben. Es kann nicht nur direkt auf die Frage „Wer ist Tom Cruises Mutter?“ geantwortet werden, sondern auch auf die umgekehrte Frage „Mary Lee Pfeiffers Sohn ist Tom Cruise“, deren Daten seltener vorkommen.

(Natürlich kann nicht ausgeschlossen werden, dass, nachdem es sich zu einem klassischen Problem entwickelt hat, relevantere Daten verfügbar sein werden.)

Das große Modell von Musk wurde auf Kosten von Tesla aufgewertet

Der Test ist zu Ende und es ist ersichtlich, dass Grok-2 im Vergleich zur vorherigen Generation Grok-1.5 große Fortschritte gemacht hat.

Hinter den Kulissen investierte Musk viel Ressourcen und Arbeitskraft.

Ein neuer Forscher, der xAI beigetreten ist, sagte beispielsweise, dass es verwendet werden kann100.000-Karten-ClusterRecherchieren macht viel mehr Spaß, als schlechte Ressourcen in der Schule zu haben.

Doch eine Personengruppe ist unzufrieden: die Tesla-Aktionäre.

Laut dem Wall Street JournalMusk transferiert weiterhin Talente, Daten und GPU-Ressourcen von Tesla zu xAI。

Bisher hat xAI mindestens 11 Mitarbeiter eingestellt, die bei Tesla gearbeitet haben, von denen sechs direkt im Autopilot-Team gearbeitet haben.

Musk forderte Nvidia außerdem auf, die Lieferung von xAI für GPU-Bestellungen zu priorisieren, die ursprünglich Tesla vorbehalten waren.

Musk hat auch öffentlich über die riesigen Mengen an visuellen Daten gesprochen, die Tesla sammelt und die seiner Meinung nach als Ressource für das Training von xAI-Modellen verwendet werden können.

Mindestens drei Tesla-Aktionäre verklagten Musk in dieser Angelegenheit mit der Begründung, dass die Übertragung von Ressourcen an xAI den Interessen der Tesla-Investoren schadete.

Der Fall ist derzeit bei einem Gericht in Delaware anhängig.

Nachricht

Musk veröffentlichte plötzlich ein neues großes Modell und opferte Tesla-Ressourcen, um OpenAI herauszufordern, und ein Test aus erster Hand ist hier

Einführung

Meine Kontaktdaten