Llama 3.1 405B VS Mistral Large 2, qui est le roi de l'open source ?

Llama 3.1 405B VS Mistral Large 2, qui est le roi de l'open source ? ｜AI Hengping

2024-07-27

Auteur｜Lapin de Jade Sel et Poivre
E-mail｜[email protected]

Récemment, deux modèles d’IA à grande échelle ont été publiés.

Le 23 juillet,MétaannoncéLama 3.1 405Bmodèle, qui prend non seulement en charge8 sortesle langage humain, égalementMaîtrise de plusieurs langages informatiques,Comme indiqué ci-dessous:

Puis le 24 juilletMistralIAposté le dernierMistral Large2modèle, ce modèle prend en chargeDes dizaines de sortesle langage humain, etMaîtrise de plus de 80 langages de programmation , notamment Python, Java, C, C++, JavaScript et Bash, etc. Il maîtrise également certains langages plus spécifiques comme Swift et Fortran.

Encodage Base64 Il s'agit d'une méthode de codage qui convertit les données binaires au format texte et est souvent utilisée pour transmettre des données binaires dans des protocoles texte. Base64 codé enPrétraitement des données, entrée et sortie du modèle, sécurité des donnéesIl a un large éventail d'applications.

Grâce à l'encodage Base64, nous pouvons évaluer les capacités de traitement multilingue des modèles d'IA et tester s'ils peuvent comprendre et traduire avec précision les informations codées, en particulier leur capacité à comprendre et traiter différentes langues et formats d'encodage. Leurs capacités de traduction multilingue, l’exactitude des réponses et leurs capacités de raisonnement sont ensuite testées.

Le décodage est le processus inverse du codage.Si un modèle d'IA peut interpréter et traiter avec précision l'encodage Base64 ou décoder les informations pertinentes, il sera plus à l'aise pour effectuer des tâches de programmation quotidiennes, analyser les données du réseau et même extraire des informations de fichiers complexes.

Aujourd'hui, nous utilisons cette méthode apparemment obscureEncodage et décodage Base64testerIACapacités multilingues pour les grands modèles.

Ensuite, nous allons jouer à un jeu de réflexion sur l'encodage Base64 avec une petite ambiance "détective".

Même si les principaux acteurs sontLama 3.1 405BetMistral Large2，Mais nous avons également rejointQwen2-72BetGPT-4o, l'un est le principal projet open source en Chine, l'autre est un représentant du code source fermé, regardez-lesEst-il vraiment possible de relever ces « défis de codage » aussi facilement que les langages ordinaires ?Nous verrons!

Regles du jeu:

Nous utiliserons des chaînes codées en Base64 pour les tests multilingues, notamment le chinois et l'anglais. Grâce à ce test, nous pouvons comprendre les performances de chaque modèle majeur en termes de traduction multilingue, de précision des réponses et de capacités de raisonnement.

- Il y a 2 séries de tests, avec trois conversations à chaque tour. Chaque bonne réponse vaut 1 point.

- Pour garantir l'équité du test, nous inciterons le modèle à ne pas utiliser d'outils de code pour le décodage.

- Mot d'invite : ceci est un message base64 []. Veuillez me dire ce qu'est ce message sans utiliser d'outils de codage.

Tout d’abord, nous avons une idée générale des étapes et processus d’encodage et de décodage Base64.

Le codage Base64 convertit les données binaires en une série de 64 caractères spécifiques (AZ, az, 0-9, +, /) pour les représenter. Si les étapes du processus de décodage sont incorrectes ou si la chaîne n'est pas un codage Base64 valide, les résultats décodés peuvent être incorrects ou dénués de sens. Pour vérifier ce que représente la chaîne codée en Base64, vous pouvez utiliser des outils ou des bibliothèques en ligne dans votre langage de programmation pour la décoder correctement.

Round 1 : décodage anglais

Ce cycle utilise des mots anglais à convertir en codage Base64 pour l'évaluation. Les chaînes codées sont :

Justice : SnVzdGljZQo=

Bravoure : QnJhdmVyeQo=

Gentillesse : S2luZG5lc3M=

Utilisons d’abord le codage anglais pour tester les résultats d’un grand modèle.Lama 3.1 405BToutes les réponses sont absolument correctes.Marquez 3 points.Mais toutes les réponses sont en anglais, ce qui n’est pas très convivial pour le chinois.

Cependant, il sera toujours accompagné de son propre package d'émoticônes unique. Qui n'aime pas cette « touche humaine » ? La valeur émotionnelle est très bonne.

etMistral Grand 2Message décodé en Base64 en anglaisRépondez correctement à deux questions , marquez 2 points. Dans la deuxième question, le texte original est brève et le mot décodé est « courageux ». La source d'erreur la plus probable est une erreur dans la conversion des caractères en index binaires, la conversion des index en binaires ou la réorganisation de nombres binaires.

Cependant, il est louable que pendant le processus de décodage, il explique d'abord le principe, puis utilise 5 étapes pour analyser et raisonner progressivement et enfin décoder, ce qui est à la fois détaillé et clair, et très facile à comprendre.

Les images peuvent glisser de haut en bas

ChatGPT-4oLa réponse est toujours aussi concise et rapide. Cette fois, le contenu décodé est également tout à fait correct, marquant 3 points.

Les images peuvent glisser de haut en bas

Jetons un coup d'oeil enfinQwen2-72BLes réponses de décodage en anglais, les trois réponses sont correctes, et les précautions d'encodage réelles sont également expliquées, faciles à comprendre et réfléchies, marquant 3 points.

Round 2 : décodage chinois, personne n’y survit ?

Ce tour augmente la difficulté et utilise des mots chinois à convertir en codage Base64 pour l'évaluation. Les chaînes codées sont :

Justice : 5q2j5LmJ

Courageux : 5YuH5pWi

Gentillesse : 5ZaE6Imv

Jetons d’abord un coup d’œil à la très grande tasseLama 3.1 405BComment répondre :

Après avoir posé trois questions d'affilée, Llama 3.1 405B a toujours répondu au message décodé en anglais, mais il a obtenu les mots anglais "Hello World", "Hello" et "Goodbye", qui étaient fondamentalement tous faux.Marquez 0 point pour ce tour.

En un coup d'œil, le résultat de la conversion de chaîne Base64 ne ressemble généralement pas à l'image ci-dessous, à moins que les données originales ne ressemblent à ceci.Llama 3.1 405B commence à mal tourner à la deuxième étape, c'est-à-dire "mapper les caractères Base64 en ASCII", et tous les résultats suivants doivent être faux.

Pendant le processus de décodage, chaque caractère Base64 doit être mappé à une valeur binaire spécifique de 6 bits. Si le mappage caractère-binaire est erroné lors du décodage, le résultat décodé sera naturellement erroné.

Mais ce qui est intéressant, c'est queLama 3.1 405BPlus "humain", chaque réponse aura quelques petites expressions dans le texte, et j'en ajouterai avant de répondreModalUn contenu comme celui-ci devient vraiment de plus en plus humain.

Les images peuvent glisser de haut en bas

Jetons un coup d'œil au Mistral Large 2 sorti aujourd'hui.

Après trois questions, je n’ai pu répondre correctement à aucun des mots chinois codés lors de ce tour.Marquer 0 point。

Bien que le processus de raisonnement de décodage de Mistral Large 2 soit très détaillé, à chaque étape, il est plus clair de voir quelle étape a mal tourné.Principalement dansLa deuxième étape est fausse, le mappage des caractères Base64 en binaire, puis les étapes de raisonnement sont également fausses, et le résultat doit également être faux.。

Au cours de cette étape, les caractères codés en Base64 sont incorrectement mappés directement aux caractères ASCII au lieu de leurs valeurs binaires correctes. Par exemple, « 5 » est mappé à « H ».Cette cartographieIgnore le fonctionnement réel de l'encodage Base64, c'est-à-dire que chaque caractère Base64 représente en fait un nombre binaire de 6 bits, plutôt qu'un caractère ASCII direct.

Il semble que cette capacité doive être renforcée.

Les images peuvent glisser de haut en bas

Jetons un coup d'œil à ceux qui comprennent mieux le chinois.ChatGPT-4o, ça donne directement le contenu décodé, tout est correct,Marquez 3 points ce tour.

Jetons un coup d'oeil aux produits domestiques les plus résistantsQwen2-72B, les résultats du décodage sont également "Test", "Hello" et "World", qui sont fondamentalement tous faux, et ce tour obtient 0 point.

Examinons de plus près l'idée deQwen2-72B. La réponse ne contient que des idées de raisonnement et omet diverses étapes de conversion pour obtenir directement la réponse, ce qui signifie que les résultats obtenus sont en grande partie faux.En d’autres termes, les principales erreurs de Qwen2-72B se concentrent principalement dansComprendre l'encodage Base64etExécution de l'étape de décodagesupérieur.

Par exemple:directObtenez des caractères chinois spécifiques à partir de l'encodage Base64, ce qui est peu probable car cela nécessite la séquence d'octets et le codage corrects (tels que UTF-8) pour interpréter les données binaires.

La note finale est :

Il est évident que ChatGPT-4o a obtenu 6 points, ce qui est complètement en avance sur les autres modèles majeurs. Qu'il soit chinois ou anglais, le code Base64 peut être facilement converti dans le sens que nous comprenons.

Les trois autres modèles, Llama 3.1 405B et Qwen2-72B, ont tous obtenu 3 points et ont obtenu de bons résultats en décodage anglais, mais étaient relativement insuffisants en décodage chinois.dansLlama 3.1 405B est plus « humain » lorsqu'il répond et peut donner aux gens plus de valeur émotionnelle.Mais la réponse globale est biaisée en faveur de l'anglais, et les fonctions de la langue chinoise sont relativement plus nombreuses, à moins qu'il ne soit strictement nécessaire de répondre en chinois.

Et le basMistral Large 2 Un point a été perdu pour chaque question en raison d'un décodage incorrect en anglais, mais le processus de raisonnement du décodage était très détaillé et clair.Il fait preuve d’une forte capacité de raisonnement, alors que les performances des autres modèles varient considérablement à cet égard.

Grâce à cet essai,Nous avons constaté que les grands modèles fonctionnent différemment dans le décodage multilingue et en langage de programmation, et que les grands modèles actuels sont légèrement déséquilibrés dans le traitement multilingue.Dans l’ensemble, les réponses en anglais étaient généralement précises et claires, mais les réponses en chinois étaient moins précises.

enfin

Le codage est une série de transformations logiques apportées par les humains à l'information elle-même afin de transporter efficacement l'information. Nous le considérons généralement comme « le langage des ordinateurs ». Mais ce test montre que pour les grands modèles de langage, un codage et un décodage corrects sont devenus un problème difficile. Surtout dans un environnement multilingue, chaque processus de codage et de décodage implique plusieurs étapes et plusieurs règles de codage. S'il y a une erreur dans un lien ou même une erreur de calcul binaire, il est impossible d'obtenir une réponse précise.

Pris ensemble, GPT-4o est en effet plus fort que ce petit jeu, Qwen2-72B est 50-50 comparable à Llama3.1 405B. De manière assez surprenante, Mistral Large2 s'est cette fois classé dernier.

Si vous aimez notre petit jeu, n'hésitez pas à nous suivre et souhaitez discuter davantage avec nous. Vous pouvez également scanner le code QR ci-dessous pour rejoindre notre communauté.

nouvelles

Llama 3.1 405B VS Mistral Large 2, qui est le roi de l'open source ? ｜AI Hengping

Introduction

mes coordonnées