Es wird heftig, GPT-4o wurde von Googles neuem Modell besiegt, offizieller ChatGPT-Account: Jeder holt tief Luft

Es ist heftig, GPT-4o wurde von Googles neuem Modell, dem offiziellen ChatGPT-Konto, besiegt: Alle atmen tief durch

2024-08-02

Komm schon, GPT-4o wurde von Googles neuem Modell übertroffen!

Innerhalb einer Woche stimmten mehr als 12.000 Menschen anonym ab.Gemini 1.5 Pro (0801) Representing Google gewann zum ersten Mal den ersten Platz in der lmsys-Arena. (Die chinesische Aufgabe steht ebenfalls an erster Stelle)

Und dieses Mal gibt es zusätzlich zur Gesamtwertung (die einzige Punktzahl liegt bei 1300) eine DoppelkroneVisuelle BestenlisteEs ist auch die Nummer eins.

Simon Tokumine, eine Schlüsselfigur im Gemini-Team, hat zum Feiern eine Nachricht gepostet:

(Dieses neue Modell) ist der leistungsstärkste und intelligenteste Gemini, den wir je hergestellt haben.

Auch ein Reddit-Nutzer bezeichnete das Modell als „sehr gut“ und äußerte die Hoffnung, dass die Funktionalität nicht eingeschränkt werde.

Immer mehr Internetnutzer äußerten sich begeistert darüber, dass OpenAI endlich herausgefordert wurde und eine neue Version veröffentlichen wird, um sich zu wehren!

Auch der offizielle ChatGPT-Account deutete etwas an.

Inmitten der Aufregung gab der Produktleiter von Google AI Studio bekannt, dass das Modell in die Markteinführung aufgenommen wurdeKostenlose Testphase：

Kostenlos im AI Studio verfügbar

Netizen: Google ist endlich da!

Genau genommen handelt es sich beim Gemini 1.5 Pro (0801) nicht um ein neues Modell.

Sollenexperimentelle VersionAufbauend auf dem im Februar von Google veröffentlichten Gemini 1.5 Pro erweiterte die 1.5-Serie später das Kontextfenster auf 2 Millionen.

Mit der Aktualisierung des Modells wird der Name immer länger, was ebenfalls zu Beschwerden führt.

Nein, ein OpenAI-Mitarbeiter gratulierte ihm, ohne zu vergessen, komisch zu sein:

Auch wenn der Name schwer zu merken ist, schnitt Gemini 1.5 Pro (0801) dieses Mal in der offiziellen Arena-Bewertung gut ab.

Die Gesamtgewinnraten-Heatmap zeigt, dass es 54 % besser als GPT-4o und 59 % besser als Claude 3.5 Sonnet ist.

existierenMehrsprachigkeitIn Benchmark-Tests belegt es den ersten Platz in Chinesisch, Japanisch, Deutsch und Russisch.

Allerdings kann es in der Coding- und Hard-Prompt-Arena immer noch keine Gegner wie Claude 3.5 Sonnet, GPT-4o und Llama 405B schlagen.

Dies wurde auch von Internetnutzern kritisiert, was Folgendes bedeutete:

Auf die Kodierung kommt es an, aber dort funktioniert sie nicht gut.

Einige Leute haben jedoch Amway Gemini 1.5 Pro (0801) herausgebracht.Bild- und PDF-Extraktionsfunktionen。

Elvis, Mitbegründer von DAIR.AI, führte persönlich eine ganze Reihe von Tests an der Ölpipeline durch und kam zu dem Schluss:

Die visuellen Fähigkeiten kommen denen von GPT-4o sehr nahe。

Außerdem hat jemand Gemini 1.5 Pro (0801) verwendet, um das Problem zu lösen, das Claude 3.5 Sonet zuvor nicht gut lösen konnte.

Die Ergebnisse zeigten, dass es nicht nur eine bessere Leistung erbrachte, sondern auch seinen kleinen Freund Gemini 1.5 Flash besiegte.

Aber einigeKlassischer AllgemeinwissenstestEs kann immer noch nicht herausgefunden werden, wie zum Beispiel „Schreibe zehn Sätze, die mit Äpfeln enden.“

Eine Sache noch

Unterdessen begrüßt Googles Gemma-2-Serie ein neues2-Milliarden-Parametermodell。

Gemma 2 (2B)Sofort einsatzbereit, kann auf der kostenlosen T4-GPU von Google Colab ausgeführt werden.

Auf der Arena-Rangliste ist esÜbertrifft alle GPT-3.5-Modelle, übertrifft sogar Mixtral-8x7b.

Konfrontiert mit den neuesten Google-Rankings, ArenaAutorität der ListeNoch einmal von allen befragt.

Teknium, Mitbegründer von Nous Research (ein bekannter Akteur auf dem Gebiet der fein abgestimmten Nachschulung), erinnerte daran:

Obwohl Gemma 2 (2B) in Arena besser abschneidet als GPT-3.5 Turbo, ist es in MMLU viel niedriger als letzteres.
Diese Diskrepanz wäre besorgniserregend, wenn man das Arena-Ranking als einzigen Indikator für die Modellleistung verwenden würde.

Bindu Reddy, CEO von Abacus.AI, legte sogar direkt Berufung ein:

Bitte hören Sie sofort auf, diese von Menschen bewertete Bestenliste zu verwenden!
Claude 3.5 Sonnet ist viel besser als GPT-4o-mini.
Ähnliche Gemini/Gemma-Werte sollten auf dieser Rangliste nicht so weit oben stehen.

Glauben Sie also, dass diese Methode der anonymen Stimmabgabe durch Menschen immer noch zuverlässig ist?

Nachricht

Es ist heftig, GPT-4o wurde von Googles neuem Modell, dem offiziellen ChatGPT-Konto, besiegt: Alle atmen tief durch

Einführung

meine Kontaktdaten