Llama 3.1 405B VS Mistral Large 2, ¿quién es el rey del código abierto?

Llama 3.1 405B VS Mistral Large 2, ¿quién es el rey del código abierto? ｜AI Hengping

2024-07-27

Autor ｜ Conejo de Jade con Sal y Pimienta
Correo electrónico ｜[email protected]

Recientemente, se lanzaron dos modelos de IA a gran escala.

El 23 de julio,MetaAnunciadoLlama 3.1 405Bmodelo, que no sólo soporta8 tiposlenguaje humano, tambiénCompetente en múltiples lenguajes informáticos.,Como se muestra abajo:

Luego, el 24 de julio,MistralAIpublicado lo últimoMistral Grande2modelo, este modelo es compatibledocenas de tiposlenguaje humano yCompetente en más de 80 lenguajes de programación. , incluidos Python, Java, C, C++, JavaScript y Bash, etc. También domina algunos lenguajes más específicos como Swift y Fortran.

Codificación base64 Es un método de codificación que convierte datos binarios en formato de texto y se utiliza a menudo para transmitir datos binarios en protocolos de texto. Base64 codificado enPreprocesamiento de datos, entrada y salida de modelos, seguridad de datos.Tiene una amplia gama de aplicaciones.

A través de la codificación Base64, podemos evaluar las capacidades de procesamiento en varios idiomas de los modelos de IA y probar si pueden comprender y traducir con precisión la información codificada, especialmente su capacidad para comprender y procesar diferentes idiomas y formatos de codificación. Luego se prueban sus capacidades de traducción en varios idiomas, la precisión de las respuestas y la capacidad de razonamiento.

La decodificación es el proceso inverso a la codificación.Si un modelo de IA puede interpretar y procesar con precisión la codificación Base64 o decodificar información relevante, será más cómodo realizar tareas de programación diarias, analizar datos de red e incluso extraer información de archivos complejos.

Hoy utilizamos este aparentemente oscuroCodificación y decodificación Base64ProbarAICapacidades multilingües para modelos grandes.

A continuación, vamos a jugar un juego de rompecabezas sobre la codificación Base64 con un poco de humor "detective".

Aunque los principales actores sonLlama 3.1 405ByMistral Grande2，Pero también nos unimosQwen2-72ByGPT-4oUno es el proyecto de código abierto líder en China y el otro es un representante de código cerrado. Mírelos¿Es realmente posible abordar estos "desafíos de codificación" tan fácilmente como los lenguajes comunes?¡Ya veremos!

reglas del juego:

Usaremos cadenas codificadas en Base64 para pruebas en varios idiomas, incluidos chino e inglés. A través de esta prueba, podemos comprender el rendimiento de cada modelo principal en términos de traducción a varios idiomas, precisión de las respuestas y capacidades de razonamiento.

- Hay 2 rondas de pruebas, con tres conversaciones en cada ronda. Cada respuesta correcta vale 1 punto.

- Para garantizar la imparcialidad de la prueba, le solicitaremos al modelo que no utilice herramientas de código para decodificar.

- Palabra de aviso: este es un mensaje base64 []. Por favor, dígame cuál es este mensaje sin utilizar herramientas de codificación.

En primer lugar, tenemos una idea aproximada de los pasos y procesos de codificación y decodificación Base64.

La codificación Base64 convierte datos binarios en una serie de 64 caracteres específicos (AZ, az, 0-9, +, /) para representarlos. Si los pasos del proceso de decodificación son incorrectos o la cadena no es una codificación Base64 válida, los resultados decodificados pueden ser incorrectos o carecer de sentido. Para comprobar qué representa la cadena codificada en Base64 real, puede utilizar herramientas o bibliotecas en línea en su lenguaje de programación para decodificarla correctamente.

Ronda 1: decodificación en inglés

Esta ronda utiliza palabras en inglés convertidas a codificación Base64 para su evaluación. Las cadenas codificadas son:

Justicia：SnVzdGljZQo=

Valentía: QnJhdmVyeQo=

Amabilidad: S2luZG5lc3M=

Primero usemos la codificación en inglés para probar los resultados de un modelo grande.Llama 3.1 405BTodas las respuestas son absolutamente correctas.Consigue 3 puntos.Pero todas las respuestas están en inglés, lo que no es muy amigable para los chinos.

Sin embargo, seguirá viniendo con su propio paquete de emoticones exclusivo. ¿A quién no le gusta este “toque humano”? El valor emocional es muy bueno.

yMistral Grande 2Mensaje decodificado en inglés Base64Responde dos preguntas correctamente , suma 2 puntos. En la segunda pregunta, el texto original es brevery y la palabra decodificada es "valiente". La fuente más probable del error es un error en la conversión de caracteres a índices binarios, la conversión de índices a binarios o la reorganización de. numeros binarios.

Sin embargo, es digno de elogio que durante el proceso de decodificación, primero se explique el principio, luego se utilicen 5 pasos para analizar y razonar gradualmente y finalmente decodificar, lo cual es detallado y claro, y muy fácil de entender.

Las imágenes pueden deslizarse hacia arriba y hacia abajo.

ChatGPT-4oLa respuesta es tan concisa y rápida como siempre. Esta vez el contenido decodificado también es bastante correcto, con una puntuación de 3 puntos.

Las imágenes pueden deslizarse hacia arriba y hacia abajo.

Echemos un vistazo al últimoQwen2-72BLas respuestas de decodificación en inglés, las tres respuestas son correctas y las precauciones en la codificación real también se explican, son fáciles de entender y reflexivas, con una puntuación de 3 puntos.

Ronda 2: Decodificación china, ¿nadie sobrevive?

Esta ronda aumenta la dificultad y utiliza palabras chinas para convertirlas a codificación Base64 para su evaluación. Las cadenas codificadas son:

Justicia: 5q2j5LmJ

Valiente: 5YuH5pWi

Amabilidad: 5ZaE6Imv

Primero echemos un vistazo a la copa súper grande.Llama 3.1 405BCómo responder:

Después de hacer tres preguntas seguidas, Llama 3.1 405B aún respondió la información decodificada en inglés, pero lo que obtuvo fueron las palabras en inglés "Hello World", "Hello" y "Goodbye", que básicamente eran todas incorrectas.Consigue 0 puntos en esta ronda.

De un vistazo, el resultado después de la conversión de cadenas Base64 generalmente no se parecerá a la imagen a continuación, a menos que los datos originales sean así.Llama 3.1 405B comienza a fallar en el segundo paso, es decir, "asignar caracteres Base64 a ASCII", y todos los resultados posteriores deben ser incorrectos.

Durante el proceso de decodificación, cada carácter Base64 debe asignarse a un valor binario específico de 6 bits. Si la asignación de carácter a binario es incorrecta durante la decodificación, el resultado decodificado naturalmente será incorrecto.

Pero lo interesante es,Llama 3.1 405B.Más "humano", cada respuesta tendrá algunas pequeñas expresiones en el texto., y agregaré algunos antes de responderModalContenidos como este se están volviendo cada vez más humanos.

Las imágenes pueden deslizarse hacia arriba y hacia abajo.

Echemos un vistazo al Mistral Large 2 lanzado hoy.

Después de tres preguntas, no pude responder correctamente ninguna de las palabras chinas codificadas en esta ronda.Puntuación 0 puntos。

Aunque el proceso de razonamiento de decodificación de Mistral Large 2 es muy detallado, hasta cada paso, es más claro ver qué paso salió mal.Principalmente enEl segundo paso es incorrecto, la asignación de caracteres Base64 a binario, luego los pasos de razonamiento también son incorrectos y el resultado debe ser incorrecto.。

En este paso, los caracteres codificados en Base64 se asignan incorrectamente directamente a caracteres ASCII en lugar de a sus valores binarios correctos. Por ejemplo, '5' está asignado a 'H'.este mapeoIgnora cómo funciona realmente la codificación Base64, es decir, cada carácter Base64 en realidad representa un número binario de 6 bits, en lugar de un carácter ASCII directo.

Parece que es necesario fortalecer esta capacidad.

Las imágenes pueden deslizarse hacia arriba y hacia abajo.

Echemos un vistazo a aquellos que entienden mejor el chino.ChatGPT-4o, da directamente el contenido decodificado, todo correcto,Consigue 3 puntos en esta ronda.

Echemos un vistazo a los productos domésticos más resistentes.Qwen2-72B, los resultados de decodificación también son "Prueba", "Hola" y "Mundo", que básicamente son todos incorrectos, y esta ronda obtiene 0 puntos.

Echemos un vistazo más de cerca a la idea de Qwen2-72B. La respuesta solo contiene ideas de razonamiento y se omiten varios pasos de conversión para obtener la respuesta directamente. Esto significa que los resultados obtenidos son en gran medida incorrectos.En otras palabras, los principales errores de Qwen2-72B se concentran principalmente enComprender la codificación Base64yEjecución del paso de decodificación.superior.

Por ejemplo:directoObtenga caracteres chinos específicos de la codificación Base64, lo cual es poco probable ya que requiere la secuencia de bytes y la codificación correctas (como UTF-8) para interpretar los datos binarios.

La puntuación final es:

Obviamente, ChatGPT-4o obtuvo 6 puntos, lo que está completamente por delante de otros modelos importantes. Ya sea chino o inglés, el código Base64 se puede convertir fácilmente al significado que entendemos.

Los otros tres modelos, Llama 3.1 405B y Qwen2-72B, obtuvieron 3 puntos y obtuvieron buenos resultados en la decodificación de inglés, pero fueron relativamente insuficientes en la decodificación de chino.enLlama 3.1 405B es más "humano" al responder y puede dar a las personas más valor emocional.Pero la respuesta general está sesgada hacia el inglés y las funciones del idioma chino son relativamente mayores, a menos que sea estrictamente necesario responder en chino.

y el fondoMistral Large 2 perdió un punto por cada pregunta debido a una decodificación incorrecta en inglés, pero el proceso de razonamiento de decodificación fue muy detallado y claro.Muestra una gran capacidad de razonamiento, mientras que el rendimiento de otros modelos varía mucho a este respecto.

A través de esta prueba,Descubrimos que los modelos grandes funcionan de manera diferente en la decodificación de lenguajes de programación y en varios idiomas, y que los modelos grandes actuales están ligeramente desequilibrados en el procesamiento en varios idiomas.En general, las respuestas en inglés fueron precisas y claras, pero las respuestas en chino fueron menos precisas.

por fin

La codificación es una serie de transformaciones lógicas realizadas por los humanos a la información misma para transportarla de manera eficiente. Generalmente lo consideramos como "el lenguaje de las computadoras". Pero esta prueba muestra que para modelos de lenguaje grandes, la codificación y decodificación correctas se ha convertido en un problema difícil. Especialmente en un entorno multilingüe, cada proceso de codificación y decodificación implica múltiples pasos y múltiples reglas de codificación. Si hay un error en un enlace o incluso un error de cálculo binario, es imposible obtener una respuesta precisa.

En general, GPT-4o es realmente mejor solo en este juego pequeño, Qwen2-72B es 50-50 mejor que Llama3.1 405B. Sorprendentemente, Mistral Large2 ocupó el último lugar esta vez.

Si te gusta nuestro pequeño juego, puedes seguirnos. Si quieres tener más conversaciones con nosotros, también puedes escanear el código QR a continuación para unirte a nuestra comunidad.

noticias

Llama 3.1 405B VS Mistral Large 2, ¿quién es el rey del código abierto? ｜AI Hengping

Introducción

Mi informacion de contacto