Musk sorgt wieder für Ärger! Neues großes Modell fordert GPT-4o heraus, Internetnutzer sind verrückt

Musk sorgt wieder für Ärger! Neues großes Modell fordert GPT-4o heraus, Internetnutzer werden verrückt

2024-08-14

Zhidongxi News am 14. August, heute Nachmittag Pekinger Zeit, Musks groß angelegtes Modell-StartupxAIEinführung des Modells der zweiten GenerationGrok-2 Beta, einschließlich Grok-2- und Grok-2-Mini-Versionen.

MoschusMit Leidenschaft auf seiner eigenen sozialen Plattform gepostetsus-spalte-r。

Er retweetete den Tweet von Lmsys mit den Worten: „Grok ist Raketengeschwindigkeit.“ sus-column-r erhielt mehr als 12.000 Stimmen zur Rangliste und ihrer LeistungBesser als Claude 3.5 Sonnet und GPT-4-Turbo, mitGPT-4opunktgleich den dritten Platz。

In vielen Auswertungen wie GPQA, MMLU, MMLU-Pro, MATH, MathVista usw.Grok-2Die Werte übertreffen die von Mainstream-Modellen wie GPT-4 Turbo, Claude 3 Opus und Gemini Pro 1.5, sind aber immer noch schlechter als GPT-4o.

Derzeit können Benutzer von X Premium und Premium+ Grok-2 und Grok-2 mini erleben, und Zhixixi war der erste Anbieter, der tatsächliche Tests und Erfahrungen durchführte.

Nach einiger Erfahrung ist das offensichtlichste Gefühl, das mir Grok-2 vermittelt, dass seine Logik sehr klar ist. Obwohl Grok-2 und GPT-4o im folgenden Beispiel beide die richtigen Antworten gaben, sind die Schritte und Berechnungen jedes Schritts des ersteren sehr klar und leichter zu verstehen. Darüber hinaus sind die Vincentian-Grafikfähigkeiten von Grok-2 durch die Unterstützung von FLUX.1 in die Höhe geschnellt, und es hat seinen konsistenten „mutigen“ Stil beibehalten.

xAI plant außerdem, noch in diesem Monat zwei Versionen der Grok-2-Unternehmens-API auf den Markt zu bringen.

Erlebnisadresse:https://lmarena.ai/?model=sus-column-r

1. Die Leistung kann mit mehreren Versionen von GPT-4 mithalten und die visuellen und logischen Fähigkeiten werden stärker.

In der LMSYS Chatbot Arena nahm eine frühe Version von Grok-2, sus-column-r, an der Evaluierung teil.Die Gesamtleistung im Elo-Score übertrifft Claude und mehrere GPT-4-Versionen。

Wie in der Abbildung unten gezeigt, übertraf die Punktzahl von Grok-2 die Version von GPT-4o-mini vom 18. Juli und die Version von GPT-4-Turbo vom 9. April, war jedoch immer noch niedriger als die Version von GPT-4-Turbo vom 8. August ChatGPT-4o – Die neueste Version von GPT-4o vom 15. Mai.

Intern verfolgt das xAI-Team einen ähnlichen Prozess zur Bewertung von Modellen, wobei sich die Bewertung auf die beiden Kernfunktionen des Modells konzentriert: Erstens,Befolgen Sie die Anweisungen genau, die zweite besteht darin, Informationen bereitzustellenGenauigkeit und Authentizität。

Es ist erwähnenswert, dass Grok-2 istSuchinhalte der InferenzanalyseUndVerwenden Sie WerkzeugeEs hat erhebliche Fortschritte gemacht, beispielsweise bei der Fähigkeit, fehlende Informationen genau zu identifizieren, logische Überlegungen anhand von Ereignissequenzen anzustellen und irrelevante Beiträge effektiv zu entfernen.

Für Benchmark-Tests verwendete das Team eine Reihe von TestsArgumentation, Leseverständnis, Mathematik, Naturwissenschaften und CodierungEine umfassende Bewertung des Grok-2-Modells wurde anhand akademischer Benchmarks in anderen Bereichen durchgeführt.

Die Ergebnisse zeigen, dass Grok-2 und seine vereinfachte Version Grok-2 mini im Vergleich zum Grok-1.5-Modell der vorherigen Generation deutlich verbessert sind.

auf der GraduiertenebeneWissenschaftliches Wissen (wie GPQA), Fragen und Antworten mit gesundem Menschenverstand (wie MMLU, MMLU-Pro)sowieFragen zum Mathematikwettbewerb (z. B. MATH)In anderen Bereichen können sie in ihrer Leistung mit anderen Topmodellen mithalten.

Wie in der Abbildung unten gezeigt, schnitt der Grok-2 in allen diesen Tests gut ab.Übertraf GPT-4 Turbo, Claude 3 Opus und Gemini Pro 1.5, konnte GPT-4o aber immer noch nicht schlagen。

Es ist erwähnenswert, dass Grok-2 istvisuelle AufgabenHervorragende Leistung, insbesondere aufVisuelles mathematisches Denken (MathVista)UndDokumentbasierte Fragenbeantwortung (DocVQA)Besonders hervorzuheben ist die Leistung.

2. Grok-2 wurde am gestartet

Grok-2 und Grok-2 mini sind jetzt für X-Abonnenten verfügbar, und auch Nicht-Abonnenten können die frühe Version von Grok-2 model sus-column-r kostenlos in der Large Model Arena erleben.

Im Bereich der großen Modelle sind insgesamt 62 Modelle verfügbar, darunter auch GPT-4o. Um den Vergleich zu erleichtern, testen wir zunächst dieses frühe Modell.

Das erste ist das Problem des Größenverhältnisses, das vor einiger Zeit viele Modelle auf den Kopf gestellt hat: Welches ist größer, 13,11 oder 13,8? Sowohl Grok-2 als auch GPT-4o antworteten genau, aber der Denkprozess von Grok-2 war klarer und listete detaillierte Denkschritte auf.

Auf eine andere klassische Frage „Wie viele R gibt es in Strawberry?“ antwortete Grok-2 zunächst falsch, gab dann aber die richtige Antwort, nachdem GPT-4o sowohl auf Chinesisch als auch auf Englisch korrekt geantwortet hatte. Es scheint, dass bei großen Modellen noch ein Glücksmoment vorhanden sein wird.

Die Modelle in der großen Modellarena sind nicht in Echtzeit mit dem Internet verbunden. Auf meine Frage „Was sind die Highlights des gerade von Google veröffentlichten Pixel 9?“ antworteten beide Modelle, dass sie diese Informationen noch nicht hätten. Grok-2 gab dann Prognosen ab, die auf Technologieentwicklungstrends und den bisherigen Eigenschaften von Pixel basierten. Eine Vermutung war, dass Kameras, Prozessoren, KI usw. im Mittelpunkt des Google-Updates stehen.

GPT-4o gab keine Prognose ab, sondern fasste die bisherigen Highlights der Pixel-Telefone zusammen.

Hinsichtlich der Codierfähigkeiten ist die Leistung der beiden Modelle vergleichbar und für die Anforderungen werden detaillierte Lösungsschritte und vollständige Codes angegeben.

In Bezug auf das logische Denken zeigt Grok-2 erneut die Klarheit der Logik, und jeder Schritt des Denkens ist in Untertitel unterteilt. Obwohl GPT-4o auch richtig antwortete, waren die Denkschritte nicht klar genug.

Die Vincent-Grafikfähigkeit ist ein Hauptschwerpunkt dieses Updates von Grok-2. Das FLUX.1-Modell, mit dem es verbunden ist, erfreute sich in letzter Zeit aufgrund seiner leistungsstarken Leistung großer Beliebtheit in der Open-Source-Community. Die Fähigkeit zur Bilderzeugung ist jedoch nicht im großen Modellbereich verfügbar und kann nur über ein X-Abonnement erreicht werden.

Netizens hatten bereits viel Spaß mit Grok-2 Wenshengtu, beispielsweise indem sie seine Textgenerierungsfunktionen nutzten, um Grok-2 dabei zu helfen, eine Offline-Pressekonferenz abzuhalten.

Oder lassen Sie Ihrer Fantasie freien Lauf und lassen Sie Musk ein Auto auf dem Mars fahren.

Basierend auf Groks nahezu zensurfreiem System haben viele Internetnutzer Witze gemacht, indem sie Trump zum Beispiel aufgefordert haben, zu schießen, und George W. Bush gebeten haben, Kokain zu schnupfen ...

Oder lassen Sie Trump mit einer SpaceX-Rakete in den Himmel fliegen. Angesichts der gleichen Anfrage lehnte GPT-4o entschieden ab.

Wie unverfroren ist Groks Zensursystem? Einige Internetnutzer haben ein großes Modell getestet, um „die Top-10-IQs nach Rasse zu bewerten“, und nur Grok-2 gab ohne zu zögern die Antwort:ChatGPTClaude weigerte sich direkt und Gemini startete eine sorgfältige Ausbildung.

Insgesamt setzt Grok-2 immer noch seinen kühnen Stil um, gleichzeitig ist seine Modellleistung mit Kopfmodellen wie GPT-4o vergleichbar, seine Logik ist klarer und seine multimodalen Fähigkeiten sind sogar besser als die von FLUX.1 . Mit dem Segen ging es direkt nach oben.

3. Starten Sie am Ende des Monats eine Unternehmens-API-Plattform, um Unternehmenssysteme nahtlos zu integrieren

Ende dieses Monats wird xAI das Neue verabschiedenEnterprise-API-Plattform, Grok-2 und Grok-2 mini offiziell für Entwickler eingeführt.

Diese API wird eine neue, angepasste technische Architektur zur Unterstützung übernehmenBereitstellung von Inferenzen für mehrere Regionen,fürglobale BenutzerBieten Sie ein reibungsloses Erlebnis mit geringer Latenz.

Gleichzeitig verfügt xAI über erweiterte Sicherheitsfunktionen, einschließlich der obligatorischen Multi-Faktor-Authentifizierung (wie Yubikey, Apple TouchID oder TOTP) und bietet detaillierte InformationenVerkehrsstatistiken und erweiterte Abrechnungsanalysedienste, unterstützt den Datenexport.

Darüber hinaus hat xAI auch eine Verwaltungs-API eingeführt, um die nahtlose Integration von Team-, Benutzer- und Abrechnungsverwaltungsfunktionen in bestehende interne Tools und Dienste zu unterstützen.

Fazit: Die Verbindung zwischen Grok-2 und der X-Plattform ist tiefer und OpenAI und andere stehen unter großem Druck.

Grok-2 und Grok-2 mini sind jetzt auf der X-Plattform online. Besonders spannend sind beispielsweise das verbesserte Sucherlebnis, die ausführliche Analyse von X-Beiträgen und die optimierten Antwortfunktionen. In Kürze wird xAI auch eine Vorschauversion seiner multimodalen Verständnisfunktionen veröffentlichen.

Seit dem Start von Grok-1 im November 2023 hat xAI rasante Fortschritte bei Technologie, Produkten und Finanzierung gemacht, und der Start von Grok-2 ist sein neuer Meilenstein. Sobald Musk die großen Modellfunktionen von Grok mit der leistungsstarken Content-Benutzerökologie der X-Plattform verbindet, wird ein geschlossener Kreislauf gebildet, einschließlichOpenAINoch größer ist der Druck auf große Modell-Startups, darunter Alibaba Cloud.

Autor |. Li Shuiqing Vanille

Herausgeber |. Yunpeng

Nachricht

Musk sorgt wieder für Ärger! Neues großes Modell fordert GPT-4o heraus, Internetnutzer werden verrückt

1. Die Leistung kann mit mehreren Versionen von GPT-4 mithalten und die visuellen und logischen Fähigkeiten werden stärker.

2. Grok-2 wurde am gestartet

3. Starten Sie am Ende des Monats eine Unternehmens-API-Plattform, um Unternehmenssysteme nahtlos zu integrieren

Fazit: Die Verbindung zwischen Grok-2 und der X-Plattform ist tiefer und OpenAI und andere stehen unter großem Druck.

Einführung

Meine Kontaktdaten