Llama 3.1 405B VS Mistral Large 2, chi è il re dell'open source?

Llama 3.1 405B VS Mistral Large 2, chi è il re dell'open source? ｜AI Hengping

2024-07-27

Autore｜Coniglio di giada sale e pepe
Invia un'e-mail a ｜[email protected]

Recentemente sono stati rilasciati due modelli di intelligenza artificiale su larga scala.

Il 23 luglio,MetaannunciatoLama 3.1 405Bmodello, che non solo supporta8 tipianche il linguaggio umanoCompetente in più linguaggi informatici,Come mostrato di seguito:

Poi il 24 luglioMaestraleIntelligenza artificialepubblicato l'ultimoMaestrale Grande2modello, questo modello supportaDecine di tipilinguaggio umano eCompetente in più di 80 linguaggi di programmazione , inclusi Python, Java, C, C++, JavaScript e Bash, ecc. È inoltre esperto in alcuni linguaggi più specifici come Swift e Fortran.

Codifica Base64 È un metodo di codifica che converte i dati binari in formato testo e viene spesso utilizzato per trasmettere dati binari nei protocolli di testo. Base64 codificato inPreelaborazione dei dati, input e output del modello, sicurezza dei datiHa una vasta gamma di applicazioni.

Attraverso la codifica Base64, possiamo valutare le capacità di elaborazione multilingue dei modelli di intelligenza artificiale e verificare se sono in grado di comprendere e tradurre accuratamente le informazioni codificate, in particolare la loro capacità di comprendere ed elaborare diverse lingue e formati di codifica. Vengono quindi testate le loro capacità di traduzione multilingue, l'accuratezza delle risposte e le capacità di ragionamento.

La decodifica è il processo inverso della codifica.Se un modello di intelligenza artificiale è in grado di interpretare ed elaborare accuratamente la codifica Base64 o di decodificare le informazioni rilevanti, sarà più comodo eseguire attività di programmazione quotidiane, analizzare i dati di rete e persino estrarre informazioni da file complessi.

Oggi lo usiamo in modo apparentemente oscuroCodifica e decodifica Base64testareIntelligenza artificialeFunzionalità multilingue per modelli di grandi dimensioni.

Successivamente, giocheremo a un puzzle game sulla codifica Base64 con un'atmosfera un po' "detective".

Sebbene i principali attori lo sianoLama 3.1 405BEMaestrale Grande2，Ma anche noi abbiamo aderitoQwen2-72BEGPT-4o, uno è il principale progetto open source in Cina, l'altro è un rappresentante closed source, guardaliÈ davvero possibile affrontare queste "sfide di codifica" con la stessa facilità con cui si affrontano le lingue comuni?Vedremo!

regole del gioco:

Utilizzeremo stringhe codificate Base64 per test multilingue, inclusi cinese e inglese. Attraverso questo test, possiamo comprendere le prestazioni di ciascun modello principale in termini di traduzione multilingue, precisione delle risposte e capacità di ragionamento.

- Sono previsti 2 turni di test, con tre conversazioni in ciascun turno. Ogni risposta corretta vale 1 punto.

- Per garantire l'equità del test, chiederemo al modello di non utilizzare strumenti di codice per la decodifica.

- Parola di richiesta: questo è un messaggio base64 []. Per favore dimmi qual è questo messaggio senza utilizzare strumenti di codifica.

Prima di tutto, abbiamo un'idea approssimativa delle fasi e dei processi di codifica e decodifica Base64.

La codifica Base64 converte i dati binari in una serie di 64 caratteri specifici (AZ, az, 0-9, +, /) per rappresentarli. Se i passaggi del processo di decodifica non sono corretti o la stringa non è una codifica Base64 valida, i risultati decodificati potrebbero essere errati o privi di significato. Per verificare cosa rappresenta l'effettiva stringa codificata Base64, puoi utilizzare strumenti online o librerie nel tuo linguaggio di programmazione per decodificarla correttamente.

Round 1: decodifica inglese

Questo round utilizza parole inglesi da convertire nella codifica Base64 per la valutazione. Le stringhe codificate sono:

Giustizia: SnVzdGljZQo=

Coraggio: QnJhdmVyeQo=

Gentilezza: S2luZG5lc3M=

Usiamo innanzitutto la codifica inglese per testare i risultati di un modello di grandi dimensioni.Lama 3.1 405BTutte le risposte sono assolutamente corrette.Ottieni 3 punti.Ma tutte le risposte sono in inglese, il che non è molto amichevole con i cinesi.

Tuttavia, verrà comunque fornito con un pacchetto di emoticon unico. A chi non piace questo "tocco umano"? Il valore emotivo è molto buono?

EMaestrale Grande 2Messaggio inglese Base64 decodificatoRispondi correttamente a due domande , ottieni 2 punti. Nella seconda domanda, il testo originale è brevery e la parola decodificata è "coraggioso". La fonte più probabile dell'errore è un errore nella conversione dei caratteri in indici binari, nella conversione degli indici in binari o nella riorganizzazione degli indici. numeri binari.

Tuttavia, è lodevole che durante il processo di decodifica, prima spieghi il principio, poi utilizzi 5 passaggi per analizzare e ragionare gradualmente e infine decodificare, il che è dettagliato e chiaro e molto facile da capire.

Le immagini possono scorrere su e giù

ChatGPT-4oLa risposta è più concisa e veloce che mai. Anche questa volta il contenuto decodificato è abbastanza corretto, ottenendo 3 punti.

Le immagini possono scorrere su e giù

Diamo un'occhiata infineQwen2-72BLe risposte alla decodifica inglese, tutte e tre le risposte sono corrette e vengono anche spiegate le precauzioni nella codifica effettiva, facili da capire e ponderate, ottenendo 3 punti.

Round 2: Decodificazione cinese, nessuno sopravvive?

Questo round aumenta la difficoltà e utilizza parole cinesi da convertire nella codifica Base64 per la valutazione. Le stringhe codificate sono:

Giustizia: 5q2j5LmJ

Coraggioso: 5YuH5pWi

Gentilezza: 5ZaE6Imv

Diamo prima un'occhiata alla tazza super grandeLama 3.1 405BCome rispondere:

Dopo aver posto tre domande di seguito, Llama 3.1 405B ha comunque risposto al messaggio decodificato in inglese, ma quello che ha ottenuto sono state le parole inglesi "Hello World", "Hello" e "Goodbye", che erano sostanzialmente tutte sbagliate.Ottieni 0 punti per questo round.

A prima vista, il risultato della conversione della stringa Base64 di solito non assomiglia all'immagine qui sotto, a meno che i dati originali non siano così.Llama 3.1 405B inizia ad andare storto nel secondo passaggio, ovvero "mappatura dei caratteri Base64 su ASCII", e tutti i risultati successivi devono essere errati.

Durante il processo di decodifica, ogni carattere Base64 deve essere mappato su uno specifico valore binario a 6 bit. Se la mappatura da carattere a binario è errata durante la decodifica, il risultato decodificato sarà naturalmente sbagliato.

Ma la cosa interessante è cheLama 3.1 405B itPiù "umano", ogni risposta avrà delle piccole espressioni nel testo, e ne aggiungerò qualcuno prima di rispondereModaleContenuti come questo stanno davvero diventando sempre più umani.

Le immagini possono scorrere su e giù

Diamo un'occhiata al Mistral Large 2 rilasciato oggi.

Dopo tre domande, non sono riuscito a rispondere correttamente a nessuna delle parole cinesi in codice in questo roundOttieni 0 punti。

Sebbene il processo di ragionamento di decodifica di Mistral Large 2 sia molto dettagliato, fino ad ogni passaggio, è più chiaro vedere quale passaggio è andato storto.Principalmente dentroIl secondo passaggio è sbagliato, la mappatura dei caratteri Base64 in binario, quindi anche i passaggi del ragionamento sono sbagliati e anche il risultato deve essere sbagliato.。

In questo passaggio, i caratteri con codifica Base64 vengono erroneamente mappati direttamente su caratteri ASCII anziché sui valori binari corretti. Ad esempio, "5" è mappato su "H".Questa mappaturaIgnora il funzionamento effettivo della codifica Base64, ovvero ogni carattere Base64 rappresenta effettivamente un numero binario a 6 bit, anziché un carattere ASCII diretto.

Sembra che questa capacità debba essere rafforzata.

Le immagini possono scorrere su e giù

Diamo un’occhiata a coloro che capiscono meglio il cineseChatGPT-4o, fornisce direttamente il contenuto decodificato, tutto è corretto,Ottieni 3 punti in questo round.

Diamo uno sguardo ai prodotti domestici più resistentiQwen2-72B, i risultati della decodifica sono anche "Test", "Ciao" e "Mondo", che sono sostanzialmente tutti sbagliati, e questo round ottiene 0 punti.

Diamo uno sguardo più da vicino all'idea di Qwen2-72B. La risposta contiene solo spunti di ragionamento e omette vari passaggi di conversione per ottenere direttamente la risposta. Ciò significa che i risultati ottenuti sono in gran parte errati.In altre parole, i principali errori di Qwen2-72B sono concentrati principalmente inComprensione della codifica Base64EEsecuzione della fase di decodificasuperiore.

Per esempio:direttoOttieni caratteri cinesi specifici dalla codifica Base64, il che è improbabile in quanto richiede la sequenza di byte e la codifica corrette (come UTF-8) per interpretare i dati binari.

Il punteggio finale è:

È ovvio che ChatGPT-4o ha ottenuto 6 punti, il che è completamente in vantaggio rispetto ad altri modelli principali. Che sia cinese o inglese, il codice Base64 può essere facilmente convertito nel significato che comprendiamo.

Gli altri tre modelli, Llama 3.1 405B e Qwen2-72B, hanno tutti ottenuto 3 punti e si sono comportati bene nella decodifica inglese, ma erano relativamente insufficienti nella decodifica cinese.InLlama 3.1 405B è più "umano" quando risponde e può dare alle persone più valore emotivo.Ma la risposta complessiva è sbilanciata verso l’inglese, e le funzioni della lingua cinese sono relativamente maggiori, a meno che non sia strettamente richiesto di rispondere in cinese.

E il fondoMistral Large 2 Per ogni domanda è stato perso un punto a causa di un'errata decodificazione inglese, ma il processo di ragionamento della decodifica è stato molto dettagliato e chiaro.Mostra una forte capacità di ragionamento, mentre le prestazioni di altri modelli variano notevolmente a questo riguardo.

Attraverso questo test,Abbiamo scoperto che i modelli di grandi dimensioni si comportano diversamente nella decodifica multilingue e in quella del linguaggio di programmazione, e che gli attuali modelli di grandi dimensioni sono leggermente sbilanciati nell'elaborazione multilingue.Nel complesso, le risposte in inglese sono state generalmente precise e chiare, ma le risposte in cinese sono state meno accurate.

infine

La codifica è una serie di trasformazioni logiche apportate dagli esseri umani alle informazioni stesse per trasportarle in modo efficiente. Di solito lo consideriamo come "il linguaggio dei computer". Ma questo test mostra che per i modelli linguistici di grandi dimensioni, la corretta codifica e decodifica è diventata un problema difficile. Soprattutto in un ambiente multilingue, ogni processo di codifica e decodifica comporta più passaggi e più regole di codifica. Se si verifica un errore in un collegamento o anche un errore di calcolo binario, è impossibile ottenere una risposta accurata.

Nel loro insieme, GPT-4o è davvero più forte Solo da questo piccolo gioco, Qwen2-72B è 50-50 paragonabile a Llama3.1 405B. Sorprendentemente, questa volta Mistral Large2 si è classificato ultimo.

Se ti piace il nostro piccolo gioco, puoi seguirci e desideri avere ulteriori discussioni con noi. Puoi anche scansionare il codice QR qui sotto per unirti alla nostra comunità.

notizia

Llama 3.1 405B VS Mistral Large 2, chi è il re dell'open source? ｜AI Hengping

introduzione

le mie informazioni di contatto