Llama 3.1 405B VS Mistral Large 2, quem é o rei do código aberto?

Llama 3.1 405B VS Mistral Large 2, quem é o rei do código aberto? ｜AI Hengping

2024-07-27

Autor｜Coelho de Jade Sal e Pimenta
E-mail｜[email protected]

Recentemente, dois modelos de IA em grande escala foram lançados.

Em 23 de julho,MetaanunciadoLhama 3.1 405Bmodelo, que não só suporta8 tiposlinguagem humana, tambémProficiente em múltiplas linguagens de informática,Como mostrado abaixo:

Então, em 24 de julho,MistralIApostou o mais recenteMistral Grande2modelo, este modelo suportaDezenas de tiposlinguagem humana eProficiente em mais de 80 linguagens de programação , incluindo Python, Java, C, C++, JavaScript e Bash, etc. Também é proficiente em algumas linguagens mais específicas como Swift e Fortran.

Codificação Base64 É um método de codificação que converte dados binários em formato de texto e é frequentemente usado para transmitir dados binários em protocolos de texto. Base64 codificado emPré-processamento de dados, entrada e saída de modelo, segurança de dadosPossui uma ampla gama de aplicações.

Através da codificação Base64, podemos avaliar as capacidades de processamento multilíngue dos modelos de IA e testar se eles conseguem compreender e traduzir com precisão as informações codificadas, especialmente sua capacidade de compreender e processar diferentes idiomas e formatos de codificação. Suas capacidades de tradução multilíngue, precisão das respostas e habilidades de raciocínio são então testadas.

A decodificação é o processo inverso da codificação.Se um modelo de IA puder interpretar e processar com precisão a codificação Base64 ou decodificar informações relevantes, será mais confortável executar tarefas diárias de programação, analisar dados de rede e até mesmo extrair informações de arquivos complexos.

Hoje, usamos este aparentemente obscuroCodificação e decodificação Base64testarIACapacidades multilíngues para modelos grandes.

A seguir, vamos jogar um jogo de quebra-cabeça sobre codificação Base64 com um toque de "detetive".

Embora os principais intervenientes sejamLhama 3.1 405BeMistral Grande2，Mas também nos juntamosQwen2-72BeGPT-4o, um é o principal projeto de código aberto na China, o outro é um representante de código fechado, dê uma olhada nelesÉ realmente possível lidar com esses “desafios de codificação” tão facilmente quanto com linguagens comuns?Veremos!

regras do jogo:

Usaremos strings codificadas em Base64 para testes em vários idiomas, incluindo chinês e inglês. Através deste teste, podemos compreender o desempenho de cada modelo principal em termos de tradução multilíngue, precisão de resposta e capacidade de raciocínio.

- São 2 rodadas de testes, com três conversas em cada rodada. Cada resposta correta vale 1 ponto.

- Para garantir a imparcialidade do teste, solicitaremos ao modelo que não use ferramentas de código para decodificação.

- Prompt word: Esta é uma mensagem base64 []. Por favor, diga-me o que é esta mensagem sem usar ferramentas de codificação.

Em primeiro lugar, temos uma ideia aproximada das etapas e processos de codificação e decodificação Base64.

A codificação Base64 converte dados binários em uma série de 64 caracteres específicos (AZ, az, 0-9, +, /) para representá-los. Se as etapas do processo de decodificação estiverem incorretas ou a string não for uma codificação Base64 válida, os resultados decodificados poderão estar incorretos ou sem sentido. Para verificar o que a string codificada em Base64 real representa, você pode usar ferramentas online ou bibliotecas em sua linguagem de programação para decodificá-la corretamente.

Rodada 1: decodificação em inglês

Esta rodada usa palavras em inglês convertidas para codificação Base64 para avaliação.

Justiça：SnVzdGljZQo=

Bravura: QnJhdmVyeQo=

Gentileza：S2luZG5lc3M=

Vamos primeiro usar a codificação em inglês para testar os resultados de um modelo grande.Lhama 3.1 405BTodas as respostas estão absolutamente corretas.Marque 3 pontos.Mas todas as respostas estão em inglês, o que não é muito amigável com o chinês.

No entanto, ele ainda virá com seu próprio pacote de emoticons. Quem não gosta desse “toque humano”? O valor emocional é muito bom.

eMistral Grande 2Mensagem decodificada em inglês Base64Responda duas perguntas corretamente , marque 2 pontos. Na segunda questão, o texto original é brevery e a palavra decodificada é "bravo". A fonte mais provável do erro é um erro na conversão de caracteres em índices binários, na conversão de índices em binários ou na reorganização de índices binários. números binários.

No entanto, é louvável que durante o processo de descodificação, primeiro explique o princípio, depois utilize 5 passos para analisar e raciocinar gradualmente e finalmente descodificar, que é ao mesmo tempo detalhado e claro, e muito fácil de compreender.

As imagens podem deslizar para cima e para baixo

Bate-papoGPT-4oA resposta é tão concisa e rápida como sempre. Desta vez o conteúdo decodificado também está bastante correto, marcando 3 pontos.

As imagens podem deslizar para cima e para baixo

Vamos dar uma olhada finalmenteQwen2-72BAs respostas de decodificação em inglês, todas as três respostas estão corretas, e os cuidados na codificação real também são explicados, fáceis de entender e atenciosos, marcando 3 pontos.

Rodada 2: decodificação chinesa, ninguém sobrevive?

Esta rodada aumenta a dificuldade e usa palavras chinesas para serem convertidas para codificação Base64 para avaliação.

Justiça: 5q2j5LmJ

Corajoso: 5YuH5pWi

Gentileza: 5ZaE6Imv

Vamos dar uma olhada primeiro no copo super grandeLhama 3.1 405BComo responder:

Depois de fazer três perguntas seguidas, o Llama 3.1 405B ainda respondeu as informações decodificadas em inglês, mas o que obteve foram as palavras em inglês "Hello World", "Hello" e "Goodbye", que estavam basicamente todas erradas.Marque 0 pontos nesta rodada.

À primeira vista, o resultado após a conversão da string Base64 geralmente não se parecerá com a imagem abaixo, a menos que os dados originais sejam assim.Llama 3.1 405B começa a dar errado na segunda etapa, ou seja, "mapear caracteres Base64 para ASCII", e todos os resultados subsequentes devem estar errados.

Durante o processo de decodificação, cada caractere Base64 deve ser mapeado para um valor binário específico de 6 bits. Se o mapeamento de caractere para binário estiver errado durante a decodificação, o resultado decodificado estará naturalmente errado.

Mas o interessante é queLhama 3.1 405B issoMais "humano", cada resposta terá algumas pequenas expressões no texto, e acrescentarei alguns antes de responderModalConteúdo como esse está se tornando cada vez mais humano.

As imagens podem deslizar para cima e para baixo

Vamos dar uma olhada no Mistral Large 2 lançado hoje.

Depois de três perguntas, não consegui responder corretamente a nenhuma das palavras chinesas codificadas nesta rodada.Marque 0 pontos。

Embora o processo de raciocínio de decodificação do Mistral Large 2 seja muito detalhado, em cada etapa fica mais claro qual etapa deu errado.Principalmente emA segunda etapa está errada, o mapeamento dos caracteres Base64 para binário, então as etapas de raciocínio também estão erradas e o resultado deve estar errado.。

Nesta etapa, os caracteres codificados em Base64 são mapeados incorretamente diretamente para caracteres ASCII em vez de seus valores binários corretos. Por exemplo, '5' é mapeado para 'H'.Este mapeamentoIgnora como a codificação Base64 realmente funciona, ou seja, cada caractere Base64 representa, na verdade, um número binário de 6 bits, em vez de um caractere ASCII direto.

Parece que esta capacidade necessita de ser reforçada.

As imagens podem deslizar para cima e para baixo

Vamos dar uma olhada naqueles que entendem melhor o chinêsBate-papoGPT-4o, fornece diretamente o conteúdo decodificado, está tudo correto,Marque 3 pontos nesta rodada.

Vamos dar uma olhada nos produtos nacionais mais resistentesQwen2-72B, os resultados da decodificação também são "Teste", "Hello" e "World", que estão basicamente todos errados, e esta rodada recebe 0 pontos.

Vamos dar uma olhada mais de perto na ideia de Qwen2-72B. A resposta contém apenas ideias de raciocínio e várias etapas de conversão são omitidas para obter a resposta diretamente.Em outras palavras, os principais erros do Qwen2-72B estão concentrados principalmente emCompreendendo a codificação Base64eExecução da etapa de decodificaçãosuperior.

por exemplo:diretoObtenha caracteres chineses específicos da codificação Base64, o que é improvável, pois requer a sequência de bytes e codificação corretas (como UTF-8) para interpretar os dados binários.

A pontuação final é:

É óbvio que o ChatGPT-4o obteve 6 pontos, o que está completamente à frente de outros modelos importantes. Seja em chinês ou inglês, o código Base64 pode ser facilmente convertido no significado que entendemos.

Os outros três modelos, Llama 3.1 405B e Qwen2-72B, marcaram 3 pontos e tiveram um bom desempenho na decodificação em inglês, mas foram relativamente insuficientes na decodificação em chinês.emLlama 3.1 405B é mais “humano” na hora de responder e pode dar mais valor emocional às pessoas.Mas a resposta geral é tendenciosa para o inglês, e as funções da língua chinesa são relativamente maiores, a menos que seja estritamente necessário responder em chinês.

E o fundoMistral Large 2 perdeu um ponto para cada questão devido à decodificação incorreta do inglês, mas o processo de raciocínio de decodificação foi muito detalhado e claro.Mostra forte capacidade de raciocínio, enquanto o desempenho de outros modelos varia muito nesse aspecto.

Através deste teste,Descobrimos que os modelos grandes têm desempenho diferente na decodificação multilíngue e de linguagem de programação, e que os grandes modelos atuais são ligeiramente desequilibrados no processamento multilíngue.No geral, as respostas em inglês foram geralmente precisas e claras, mas as respostas em chinês foram menos precisas.

afinal

A codificação é uma série de transformações lógicas feitas por humanos na própria informação, a fim de transportá-la com eficiência. Normalmente pensamos nisso como “a linguagem dos computadores”. Mas este teste mostra que, para modelos de linguagem grandes, a codificação e decodificação corretas se tornaram um problema difícil. Especialmente em um ambiente multilíngue, cada processo de codificação e decodificação envolve múltiplas etapas e múltiplas regras de codificação. Se houver um erro em um link ou mesmo um erro de cálculo binário, é impossível obter uma resposta precisa.

No geral, o GPT-4o é realmente melhor apenas neste pequeno jogo, o Qwen2-72B é 50-50 melhor que o Llama3.1 405B. Surpreendentemente, Mistral Large2 ficou em último lugar desta vez.

Se você gosta do nosso joguinho, você pode nos seguir. Se quiser ter mais discussões conosco, você também pode escanear o código QR abaixo para se juntar à nossa comunidade.

notícias

Llama 3.1 405B VS Mistral Large 2, quem é o rei do código aberto? ｜AI Hengping

Introdução

minhas informações de contato