Nachricht

Llama 3.1 405B VS Mistral Large 2, wer ist der König von Open Source? |AI Hengping

2024-07-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Autor|Salz- und Pfeffer-Jade-Kaninchen
E-Mail: [email protected]

Kürzlich wurden zwei groß angelegte KI-Modelle veröffentlicht.

Am 23. JuliMetaangekündigtLama 3.1 405BModell, das nicht nur unterstützt8 Artenauch die menschliche SpracheBeherrscht mehrere Computersprachen,Wie nachfolgend dargestellt:


Dann, am 24. Juli,MistralKIhabe das neuste gepostetMistral Large2Modell, dieses Modell unterstütztDutzende Artenmenschliche Sprache undBeherrscht mehr als 80 Programmiersprachen , einschließlich Python, Java, C, C++, JavaScript und Bash usw. Es beherrscht auch einige spezifischere Sprachen wie Swift und Fortran.


Base64-Kodierung Es handelt sich um eine Kodierungsmethode, die Binärdaten in ein Textformat umwandelt und häufig zur Übertragung von Binärdaten in Textprotokollen verwendet wird. Base64 kodiert inDatenvorverarbeitung, Modelleingabe und -ausgabe, DatensicherheitEs hat ein breites Anwendungsspektrum.


Durch die Base64-Kodierung können wir die Mehrsprachenverarbeitungsfähigkeiten von KI-Modellen bewerten und testen, ob sie die kodierten Informationen genau verstehen und übersetzen können, insbesondere ihre Fähigkeit, verschiedene Sprachen und Kodierungsformate zu verstehen und zu verarbeiten. Anschließend werden ihre mehrsprachigen Übersetzungsfähigkeiten, ihre Antwortgenauigkeit und ihr Denkvermögen getestet.

Die Dekodierung ist der umgekehrte Vorgang der Kodierung.Wenn ein KI-Modell die Base64-Kodierung oder -Dekodierung relevanter Informationen genau interpretieren und verarbeiten kann, ist es einfacher, tägliche Programmieraufgaben auszuführen, Netzwerkdaten zu analysieren und sogar Informationen aus komplexen Dateien zu extrahieren.

Heute verwenden wir diesen scheinbar obskuren BegriffBase64-Kodierung und -Dekodierungzu testenKIMehrsprachige Funktionen für große Modelle.

Als nächstes spielen wir ein Puzzlespiel über Base64-Codierung mit ein wenig „Detektiv“-Stimmung.

Obwohl die Hauptakteure sindLama 3.1 405BUndMistral Large2Aber wir sind auch dabeiQwen2-72BUndGPT-4o, eines ist das führende Open-Source-Projekt in China, das andere ist ein Closed-Source-Vertreter, schauen Sie sich diese anIst es wirklich möglich, diese „Codierungsherausforderungen“ so einfach zu bewältigen wie gewöhnliche Sprachen?Wir werden sehen!

Spielregeln:

Wir werden Base64-codierte Zeichenfolgen für mehrsprachige Tests verwenden, einschließlich Chinesisch und Englisch. Durch diesen Test können wir die Leistung jedes wichtigen Modells in Bezug auf mehrsprachige Übersetzung, Antwortgenauigkeit und Argumentationsfähigkeiten verstehen.

- Es gibt zwei Testrunden mit drei Gesprächen in jeder Runde. Jede richtige Antwort ist 1 Punkt wert.

- Um die Fairness des Tests sicherzustellen, werden wir das Modell auffordern, keine Code-Tools zum Dekodieren zu verwenden.

- Aufforderungswort: Dies ist eine Base64-Nachricht []. Bitte sagen Sie mir, was diese Nachricht ist, ohne Codierungstools zu verwenden.


Zunächst haben wir eine grobe Vorstellung von den Schritten und Prozessen der Base64-Kodierung und -Dekodierung.

Die Base64-Kodierung wandelt Binärdaten in eine Reihe spezifischer 64 Zeichen (AZ, az, 0-9, +, /) um, um sie darzustellen. Wenn die Schritte im Dekodierungsprozess falsch sind oder die Zeichenfolge keine gültige Base64-Kodierung aufweist, sind die dekodierten Ergebnisse möglicherweise falsch oder bedeutungslos. Um zu überprüfen, was die tatsächliche Base64-codierte Zeichenfolge darstellt, können Sie Online-Tools oder Bibliotheken in Ihrer Programmiersprache verwenden, um sie korrekt zu decodieren.

1

Runde 1: Englische Dekodierung

In dieser Runde werden englische Wörter zur Auswertung in Base64-Kodierung konvertiert. Die kodierten Zeichenfolgen sind:

Gerechtigkeit: SnVzdGljZQo=

Tapferkeit: QnJhdmVyeQo=

Freundlichkeit: S2luZG5lc3M=

Lassen Sie uns zunächst die Ergebnisse eines großen Modells mithilfe der englischen Codierung testen.Lama 3.1 405BAlle Antworten sind absolut richtig.Erziele 3 Punkte.Aber alle Antworten sind auf Englisch, was für Chinesisch nicht sehr freundlich ist.

Es wird jedoch immer noch ein eigenes, einzigartiges Emoticon-Paket enthalten. Wer mag diese „menschliche Note“ nicht?


UndMistral Large 2Dekodierte englische Base64-NachrichtBeantworten Sie zwei Fragen richtig , erziele 2 Punkte. In der zweiten Frage ist der Originaltext „brevery“ und das entschlüsselte Wort „brave“. Binärzahlen.

Es ist jedoch lobenswert, dass während des Dekodierungsprozesses zunächst das Prinzip erklärt wird, dann in 5 Schritten schrittweise analysiert und begründet wird und schließlich dekodiert wird, was sowohl detailliert als auch klar und sehr leicht zu verstehen ist.

Bilder können nach oben und unten verschoben werden


ChatGPT-4oDie Antwort ist so prägnant und schnell wie immer. Auch dieses Mal ist der entschlüsselte Inhalt völlig korrekt und erhält 3 Punkte.

Bilder können nach oben und unten verschoben werden


Werfen wir einen Blick daraufQwen2-72BDie englischen Dekodierungsantworten, alle drei Antworten sind korrekt, und die Vorsichtsmaßnahmen bei der tatsächlichen Kodierung werden ebenfalls erklärt, sind leicht zu verstehen und durchdacht und werden mit 3 Punkten bewertet.


1

Runde 2: Chinesische Entschlüsselung, niemand überlebt?

Diese Runde erhöht den Schwierigkeitsgrad und verwendet chinesische Wörter, die zur Auswertung in Base64-Kodierung konvertiert werden.

Gerechtigkeit: 5q2j5LmJ

Mutig: 5YuH5pWi

Freundlichkeit: 5ZaE6Imv

Werfen wir zunächst einen Blick auf die supergroße TasseLama 3.1 405BSo antworten Sie:

Nachdem Llama 3.1 405B drei Fragen hintereinander gestellt hatte, beantwortete er die entschlüsselte Nachricht immer noch auf Englisch, erhielt jedoch die englischen Wörter „Hello World“, „Hello“ und „Goodbye“, die im Grunde alle falsch waren.Erziele in dieser Runde 0 Punkte.

Auf den ersten Blick sieht das Ergebnis der Base64-String-Konvertierung normalerweise nicht wie im Bild unten aus, es sei denn, die Originaldaten sind so.Llama 3.1 405B beginnt im zweiten Schritt, nämlich der „Zuordnung von Base64-Zeichen zu ASCII“, einen Fehler zu machen, und alle nachfolgenden Ergebnisse müssen falsch sein.

Während des Decodierungsprozesses sollte jedes Base64-Zeichen einem bestimmten 6-Bit-Binärwert zugeordnet werden. Wenn die Zeichen-zu-Binär-Zuordnung während der Dekodierung falsch ist, ist das dekodierte Ergebnis natürlich falsch.

Aber das Interessante ist,Lama 3.1 405B es„Menschlicher“, jede Antwort enthält einige kleine Ausdrücke im Text, und ich werde einige hinzufügen, bevor ich antworteModalInhalte wie dieser werden wirklich immer menschlicher.

Bilder können nach oben und unten verschoben werden


Werfen wir einen Blick auf den heute veröffentlichten Mistral Large 2.

Nach drei Fragen konnte ich in dieser Runde keines der codierten chinesischen Wörter richtig beantwortenErziele 0 Punkte

Obwohl der Dekodierungsbegründungsprozess von Mistral Large 2 sehr detailliert ist, ist bis zu jedem Schritt klarer zu erkennen, welcher Schritt schief gelaufen ist.Hauptsächlich inDer zweite Schritt ist falsch, die Zuordnung von Base64-Zeichen zu Binärzeichen, dann sind auch die Argumentationsschritte falsch und das Ergebnis muss auch falsch sein.

In diesem Schritt werden Base64-codierte Zeichen fälschlicherweise direkt ASCII-Zeichen statt ihren korrekten Binärwerten zugeordnet. Beispielsweise wird „5“ auf „H“ abgebildet.Diese ZuordnungIgnoriert, wie die Base64-Codierung tatsächlich funktioniertDas heißt, jedes Base64-Zeichen stellt tatsächlich eine 6-Bit-Binärzahl und kein direktes ASCII-Zeichen dar.

Es scheint, dass diese Fähigkeit gestärkt werden muss.

Bilder können nach oben und unten verschoben werden


Werfen wir einen Blick auf diejenigen, die Chinesisch besser verstehenChatGPT-4o, es gibt direkt den dekodierten Inhalt, alles ist korrekt,Erziele in dieser Runde 3 Punkte.


Werfen wir einen Blick auf die widerstandsfähigsten heimischen ProdukteQwen2-72B, die Dekodierungsergebnisse sind auch „Test“, „Hallo“ und „Welt“, die im Grunde alle falsch sind, und diese Runde erhält 0 Punkte.

Schauen wir uns die Idee von Qwen2-72B genauer an. Die Antwort enthält nur Argumentationsideen und lässt verschiedene Konvertierungsschritte aus, um die Antwort direkt zu erhalten.Mit anderen Worten, die Hauptfehler von Qwen2-72B konzentrieren sich hauptsächlich aufBase64-Codierung verstehenUndAusführung des DekodierungsschrittesVorgesetzter.

Zum Beispiel:DirekteErhalten Sie bestimmte chinesische Zeichen aus der Base64-Kodierung, was unwahrscheinlich ist, da hierfür die richtige Bytesequenz und Codierung (z. B. UTF-8) erforderlich ist, um die Binärdaten zu interpretieren.


Das Endergebnis lautet:


Es ist offensichtlich, dass ChatGPT-4o 6 Punkte erzielt hat, was anderen großen Modellen völlig voraus ist. Egal ob es sich um Chinesisch oder Englisch handelt, Base64-Code kann leicht in die von uns verstandene Bedeutung umgewandelt werden.

Die anderen drei Modelle, Llama 3.1 405B und Qwen2-72B, erzielten alle 3 Punkte und schnitten bei der englischen Dekodierung gut ab, waren bei der chinesischen Dekodierung jedoch relativ unzureichend.InLama 3.1 405B antwortet „menschlicher“ und kann den Menschen mehr emotionalen Wert verleihen.Die allgemeine Antwort ist jedoch tendenziell eher auf Englisch ausgerichtet, und die chinesischen Sprachfunktionen sind relativ umfassender, es sei denn, es ist unbedingt erforderlich, auf Chinesisch zu antworten.

Und der BodenMistral Large 2 Für jede Frage ging aufgrund einer falschen Dekodierung in Englisch ein Punkt verloren, aber die Begründung für die Dekodierung war sehr detailliert und klar.Es zeigt ein starkes Denkvermögen, während die Leistung anderer Modelle in dieser Hinsicht stark schwankt.

Durch diesen TestWir haben herausgefunden, dass große Modelle bei der Mehrsprachen- und Programmiersprachendekodierung unterschiedlich abschneiden und dass aktuelle große Modelle bei der Mehrsprachenverarbeitung leicht unausgewogen sind.Insgesamt waren die Antworten auf Englisch im Allgemeinen genau und klar, die Antworten auf Chinesisch waren jedoch weniger genau.

1

zu guter Letzt

Codierung ist eine Reihe logischer Transformationen, die der Mensch an der Information selbst vornimmt, um Informationen effizient zu transportieren. Normalerweise betrachten wir es als „die Sprache der Computer“. Dieser Test zeigt jedoch, dass die korrekte Kodierung und Dekodierung bei großen Sprachmodellen zu einem schwierigen Problem geworden ist. Insbesondere in einer mehrsprachigen Umgebung umfasst jeder Kodierungs- und Dekodierungsprozess mehrere Schritte und mehrere Kodierungsregeln. Wenn in einem Link ein Fehler oder sogar eine binäre Fehlberechnung vorliegt, ist es unmöglich, eine genaue Antwort zu erhalten.

Zusammengenommen ist GPT-4o tatsächlich stärker. Allein aus diesem kleinen Spiel ist Qwen2-72B 50-50 vergleichbar mit Llama3.1 405B. Etwas überraschend landete Mistral Large2 dieses Mal auf dem letzten Platz.

Wenn Ihnen unser kleines Spiel gefällt, können Sie uns gerne folgen und weitere Diskussionen mit uns führen. Gerne können Sie auch den untenstehenden QR-Code scannen, um unserer Community beizutreten.