Llama 3.1 405B VS Mistral Large 2, ποιος είναι ο βασιλιάς του ανοιχτού κώδικα;

Llama 3.1 405B VS Mistral Large 2, ποιος είναι ο βασιλιάς του ανοιχτού κώδικα; ｜AI Hengping

2024-07-27

Συγγραφέας: Salt and Pepper Jade Rabbit
Email｜[email protected]

Πρόσφατα, κυκλοφόρησαν δύο μοντέλα τεχνητής νοημοσύνης μεγάλης κλίμακας.

Στις 23 Ιουλίου,ΜεταανακοινώθηκεΛάμα 3,1 405Βμοντέλο, το οποίο όχι μόνο υποστηρίζει8 είδηανθρώπινη γλώσσα, επίσηςΓνώση πολλών γλωσσών υπολογιστών,Οπως φαίνεται παρακάτω:

Στη συνέχεια, στις 24 Ιουλίου,MistralΌλα συμπεριλαμβάνονταιδημοσίευσε το πιο πρόσφατοMistral Large2μοντέλο, αυτό το μοντέλο υποστηρίζειΔεκάδες είδηανθρώπινη γλώσσα, καιΓνώση σε περισσότερες από 80 γλώσσες προγραμματισμού , συμπεριλαμβανομένων των Python, Java, C, C++, JavaScript και Bash κ.λπ. Είναι επίσης ικανός σε ορισμένες πιο συγκεκριμένες γλώσσες όπως η Swift και η Fortran.

Κωδικοποίηση Base64 Είναι μια μέθοδος κωδικοποίησης που μετατρέπει δυαδικά δεδομένα σε μορφή κειμένου και χρησιμοποιείται συχνά για τη μετάδοση δυαδικών δεδομένων σε πρωτόκολλα κειμένου. Base64 κωδικοποιημένη σεΠροεπεξεργασία δεδομένων, είσοδος και έξοδος μοντέλου, ασφάλεια δεδομένωνΈχει μεγάλη γκάμα εφαρμογών.

Μέσω της κωδικοποίησης Base64, μπορούμε να αξιολογήσουμε τις δυνατότητες επεξεργασίας πολλών γλωσσών των μοντέλων AI και να ελέγξουμε εάν μπορούν να κατανοήσουν και να μεταφράσουν με ακρίβεια τις κωδικοποιημένες πληροφορίες, ειδικά την ικανότητά τους να κατανοούν και να επεξεργάζονται διαφορετικές γλώσσες και μορφές κωδικοποίησης. Στη συνέχεια, ελέγχονται οι ικανότητες μετάφρασης πολλών γλωσσών, η ακρίβεια απαντήσεων και οι ικανότητες συλλογισμού.

Η αποκωδικοποίηση είναι η αντίστροφη διαδικασία της κωδικοποίησης.Εάν ένα μοντέλο AI μπορεί να ερμηνεύσει και να επεξεργαστεί με ακρίβεια την κωδικοποίηση του Base64 ή να αποκωδικοποιήσει σχετικές πληροφορίες, θα είναι πιο άνετο να εκτελεί καθημερινές εργασίες προγραμματισμού, να αναλύει δεδομένα δικτύου και ακόμη και να εξάγει πληροφορίες από πολύπλοκα αρχεία.

Σήμερα, χρησιμοποιούμε αυτό το φαινομενικά σκοτεινόΚωδικοποίηση και αποκωδικοποίηση Base64να δοκιμάσωΌλα συμπεριλαμβάνονταιΠολύγλωσσες δυνατότητες για μεγάλα μοντέλα.

Στη συνέχεια, θα παίξουμε ένα παιχνίδι παζλ για την κωδικοποίηση Base64 με λίγη «ντετέκτιβ» διάθεση.

Αν και οι βασικοί παίκτες είναιΛάμα 3,1 405ΒκαιMistral Large2，Μπήκαμε όμως και εμείςQwen2-72BκαιGPT-4o, το ένα είναι το κορυφαίο έργο ανοιχτού κώδικα στην Κίνα, το άλλο είναι εκπρόσωπος κλειστού κώδικα, δείτε τουςΕίναι πραγματικά δυνατό να αντιμετωπίσουμε αυτές τις «προκλήσεις κωδικοποίησης» τόσο εύκολα όσο οι συνηθισμένες γλώσσες;Θα δούμε!

κανόνες παιχνιδιού:

Θα χρησιμοποιήσουμε κωδικοποιημένες συμβολοσειρές Base64 για δοκιμές σε πολλές γλώσσες, συμπεριλαμβανομένων των κινεζικών και των αγγλικών. Μέσω αυτής της δοκιμής, μπορούμε να κατανοήσουμε την απόδοση κάθε βασικού μοντέλου όσον αφορά τη μετάφραση σε πολλές γλώσσες, την ακρίβεια των απαντήσεων και τις δυνατότητες συλλογιστικής.

- Υπάρχουν 2 γύροι δοκιμών, με τρεις συνομιλίες σε κάθε γύρο. Κάθε σωστή απάντηση αξίζει 1 βαθμό.

- Για να διασφαλίσουμε τη δικαιοσύνη της δοκιμής, θα ζητήσουμε από το μοντέλο να μην χρησιμοποιήσει εργαλεία κωδικοποίησης για αποκωδικοποίηση.

- Prompt word: Αυτό είναι ένα μήνυμα base64 [] Πείτε μου τι είναι αυτό το μήνυμα χωρίς να χρησιμοποιήσω εργαλεία κωδικοποίησης.

Πρώτα απ 'όλα, έχουμε μια πρόχειρη ιδέα για τα βήματα και τις διαδικασίες κωδικοποίησης και αποκωδικοποίησης Base64.

Η κωδικοποίηση Base64 μετατρέπει τα δυαδικά δεδομένα σε μια σειρά από συγκεκριμένους 64 χαρακτήρες (AZ, az, 0-9, +, /) για να τα αναπαραστήσουν. Εάν τα βήματα στη διαδικασία αποκωδικοποίησης είναι λανθασμένα ή η συμβολοσειρά δεν είναι έγκυρη κωδικοποίηση Base64, τα αποκωδικοποιημένα αποτελέσματα μπορεί να είναι εσφαλμένα ή χωρίς νόημα. Για να ελέγξετε τι αντιπροσωπεύει η πραγματική κωδικοποιημένη συμβολοσειρά Base64, μπορείτε να χρησιμοποιήσετε ηλεκτρονικά εργαλεία ή βιβλιοθήκες στη γλώσσα προγραμματισμού σας για να την αποκωδικοποιήσετε σωστά.

Γύρος 1: Αγγλική αποκωδικοποίηση

Αυτός ο γύρος χρησιμοποιεί αγγλικές λέξεις που έχουν μετατραπεί σε κωδικοποίηση Base64 για αξιολόγηση Οι κωδικοποιημένες συμβολοσειρές είναι:

Δικαιοσύνη：SnVzdGljZQo=

Γενναιότητα：QnJhdmVyeQo=

Καλοσύνη：S2luZG5lc3M=

Ας χρησιμοποιήσουμε πρώτα την αγγλική κωδικοποίηση για να δοκιμάσουμε τα αποτελέσματα ενός μεγάλου μοντέλου.Λάμα 3,1 405ΒΌλες οι απαντήσεις είναι απολύτως σωστές.Βαθμολογήστε 3 βαθμούς.Αλλά όλες οι απαντήσεις είναι στα αγγλικά, που δεν είναι πολύ φιλικά προς τα κινέζικα.

Ωστόσο, θα συνεχίσει να συνοδεύεται από το δικό του μοναδικό πακέτο emoticon Σε ποιον δεν αρέσει αυτό το "ανθρώπινο άγγιγμα".

καιMistral Large 2Αποκωδικοποιημένο αγγλικό μήνυμα Base64Απάντησε σωστά σε δύο ερωτήσεις , κερδίστε 2 βαθμούς. Στη δεύτερη ερώτηση, το αρχικό κείμενο είναι ευρετήριο και η αποκωδικοποιημένη λέξη είναι "brave". δυαδικούς αριθμούς.

Ωστόσο, είναι αξιέπαινο το γεγονός ότι κατά τη διαδικασία αποκωδικοποίησης, πρώτα εξηγεί την αρχή, στη συνέχεια χρησιμοποιεί 5 βήματα για να αναλύσει σταδιακά και να αιτιολογήσει και τελικά να αποκωδικοποιήσει, η οποία είναι και λεπτομερής και σαφής και πολύ εύκολη στην κατανόηση.

Οι εικόνες μπορούν να γλιστρήσουν πάνω και κάτω

ChatGPT-4oΗ απάντηση είναι συνοπτική και γρήγορη όσο ποτέ. Αυτή τη φορά το αποκωδικοποιημένο περιεχόμενο είναι επίσης αρκετά σωστό, σημειώνοντας 3 βαθμούς.

Οι εικόνες μπορούν να γλιστρήσουν πάνω και κάτω

Ας ρίξουμε μια ματιά επιτέλουςQwen2-72BΟι απαντήσεις αποκωδικοποίησης στα αγγλικά, και οι τρεις απαντήσεις είναι σωστές, και οι προφυλάξεις στην πραγματική κωδικοποίηση εξηγούνται επίσης, είναι εύκολα κατανοητές και προσεκτικές, με 3 βαθμούς.

Γύρος 2: Κινεζική αποκωδικοποίηση, κανείς δεν επιζεί;

Αυτός ο γύρος αυξάνει τη δυσκολία και χρησιμοποιεί κινεζικές λέξεις για να μετατραπεί σε κωδικοποίηση Base64 για αξιολόγηση Οι κωδικοποιημένες συμβολοσειρές είναι:

Δικαιοσύνη: 5q2j5LmJ

Γενναίος: 5YuH5pWi

Καλοσύνη: 5ZaE6Imv

Ας ρίξουμε μια ματιά πρώτα στο σούπερ μεγάλο κύπελλοΛάμα 3,1 405ΒΠώς να απαντήσετε:

Αφού έκανε τρεις συνεχόμενες ερωτήσεις, ο Llama 3.1 405B απάντησε στις αποκωδικοποιημένες πληροφορίες στα αγγλικά, αλλά αυτό που πήρε ήταν οι αγγλικές λέξεις "Hello World", "Hello" και "Goodbye", οι οποίες βασικά ήταν όλες λάθος.Σημειώστε 0 πόντους για αυτόν τον γύρο.

Με μια ματιά, το αποτέλεσμα μετά τη μετατροπή συμβολοσειράς Base64 συνήθως δεν θα μοιάζει με την παρακάτω εικόνα, εκτός εάν τα αρχικά δεδομένα είναι έτσι.Το Llama 3.1 405B αρχίζει να πηγαίνει στραβά στο δεύτερο βήμα, δηλαδή "αντιστοίχιση χαρακτήρων Base64 σε ASCII", και όλα τα επόμενα αποτελέσματα πρέπει να είναι λανθασμένα.

Κατά τη διαδικασία αποκωδικοποίησης, κάθε χαρακτήρας Base64 θα πρέπει να αντιστοιχιστεί σε μια συγκεκριμένη δυαδική τιμή 6-bit. Εάν η αντιστοίχιση χαρακτήρων σε δυαδικό είναι λάθος κατά την αποκωδικοποίηση, το αποκωδικοποιημένο αποτέλεσμα θα είναι φυσικά λάθος.

Το ενδιαφέρον όμως είναι,Llama 3.1 405B itΠιο "ανθρώπινο", κάθε απάντηση θα έχει κάποιες μικρές εκφράσεις στο κείμενο, και θα προσθέσω μερικά πριν απαντήσωΤροπικόςΠεριεχόμενο σαν αυτό γίνεται πραγματικά όλο και πιο ανθρώπινο.

Οι εικόνες μπορούν να γλιστρήσουν πάνω και κάτω

Ας ρίξουμε μια ματιά στο Mistral Large 2 που κυκλοφόρησε σήμερα.

Μετά από τρεις ερωτήσεις, δεν μπορούσα να απαντήσω σωστά σε καμία από τις κωδικοποιημένες κινεζικές λέξειςΒαθμολογήστε 0 βαθμούς。

Αν και η διαδικασία αποκωδικοποίησης του Mistral Large 2 είναι πολύ λεπτομερής, σε κάθε βήμα, είναι πιο ξεκάθαρο να δούμε ποιο βήμα πήγε στραβά.Κυρίως σεΤο δεύτερο βήμα είναι λάθος, η αντιστοίχιση των χαρακτήρων Base64 σε δυαδικό, τότε τα βήματα συλλογισμού είναι επίσης λάθος και το αποτέλεσμα πρέπει να είναι λάθος.。

Σε αυτό το βήμα, οι χαρακτήρες με κωδικοποίηση Base64 αντιστοιχίζονται εσφαλμένα απευθείας σε χαρακτήρες ASCII αντί για τις σωστές δυαδικές τιμές τους. Για παράδειγμα, το '5' αντιστοιχίζεται στο 'H'.Αυτή η χαρτογράφησηΑγνοεί πώς λειτουργεί πραγματικά η κωδικοποίηση Base64, δηλαδή, κάθε χαρακτήρας Base64 αντιπροσωπεύει στην πραγματικότητα έναν δυαδικό αριθμό 6-bit και όχι έναν άμεσο χαρακτήρα ASCII.

Φαίνεται ότι αυτή η ικανότητα πρέπει να ενισχυθεί.

Οι εικόνες μπορούν να γλιστρήσουν πάνω και κάτω

Ας ρίξουμε μια ματιά σε όσους έχουν καλύτερη κατανόηση των κινεζικώνChatGPT-4o, δίνει απευθείας το αποκωδικοποιημένο περιεχόμενο, όλα είναι σωστά,Βάλτε 3 βαθμούς σε αυτόν τον γύρο.

Ας ρίξουμε μια ματιά στα πιο ανθεκτικά εγχώρια προϊόνταQwen2-72B, τα αποτελέσματα αποκωδικοποίησης είναι επίσης "Test", "Hello" και "World", τα οποία είναι βασικά όλα λάθος και αυτός ο γύρος παίρνει 0 βαθμούς.

Ας ρίξουμε μια πιο προσεκτική ματιά στην ιδέα του Qwen2-72B Η απάντηση περιέχει μόνο συλλογιστικές ιδέες και παραλείπονται διάφορα βήματα μετατροπής για να ληφθεί άμεσα η απάντηση.Με άλλα λόγια, τα κύρια σφάλματα του Qwen2-72B συγκεντρώνονται κυρίως σεΚατανόηση της κωδικοποίησης Base64καιΕκτέλεση του βήματος αποκωδικοποίησηςανώτερος.

για παράδειγμα:απευθείαςΛάβετε συγκεκριμένους κινεζικούς χαρακτήρες από την κωδικοποίηση Base64, το οποίο είναι απίθανο καθώς απαιτεί τη σωστή ακολουθία byte και κωδικοποίηση (όπως το UTF-8) για την ερμηνεία των δυαδικών δεδομένων.

Η τελική βαθμολογία είναι:

Είναι προφανές ότι το ChatGPT-4o σημείωσε 6 βαθμούς, κάτι που είναι εντελώς μπροστά από άλλα μεγάλα μοντέλα, είτε είναι κινέζικο είτε αγγλικό, ο κώδικας Base64 μπορεί εύκολα να μετατραπεί στο νόημα που καταλαβαίνουμε.

Τα άλλα τρία μοντέλα, Llama 3.1 405B και Qwen2-72B, σημείωσαν όλα 3 βαθμούς και είχαν καλή απόδοση στην αγγλική αποκωδικοποίηση, αλλά ήταν σχετικά ανεπαρκή στην κινεζική αποκωδικοποίηση.σεΤο Llama 3.1 405B είναι πιο «ανθρώπινο» όταν απαντά και μπορεί να δώσει στους ανθρώπους μεγαλύτερη συναισθηματική αξία.Αλλά η συνολική απάντηση είναι προκατειλημμένη προς τα Αγγλικά και οι λειτουργίες της κινεζικής γλώσσας είναι σχετικά περισσότερες, εκτός εάν απαιτείται αυστηρά η απάντηση στα κινέζικα.

Και το κάτω μέροςΤο Mistral Large 2 έχασε έναν βαθμό για κάθε ερώτηση λόγω λανθασμένης αγγλικής αποκωδικοποίησης, αλλά η διαδικασία συλλογιστικής αποκωδικοποίησης ήταν πολύ λεπτομερής και σαφής.Δείχνει ισχυρή συλλογιστική ικανότητα, ενώ η απόδοση άλλων μοντέλων ποικίλλει πολύ από αυτή την άποψη.

Μέσα από αυτό το τεστ,Διαπιστώσαμε ότι τα μεγάλα μοντέλα αποδίδουν διαφορετικά στην αποκωδικοποίηση πολλών γλωσσών και γλωσσών προγραμματισμού και ότι τα τρέχοντα μεγάλα μοντέλα είναι ελαφρώς ανισόρροπα στην πολυγλωσσική επεξεργασία.Συνολικά, οι απαντήσεις στα αγγλικά ήταν γενικά ακριβείς και σαφείς, αλλά οι κινεζικές απαντήσεις ήταν λιγότερο ακριβείς.

Επιτέλους

Η κωδικοποίηση είναι μια σειρά από λογικούς μετασχηματισμούς που γίνονται από τον άνθρωπο στην ίδια την πληροφορία προκειμένου να μεταφέρουν αποτελεσματικά τις πληροφορίες. Συνήθως το σκεφτόμαστε ως «η γλώσσα των υπολογιστών». Αλλά αυτό το τεστ δείχνει ότι για μεγάλα γλωσσικά μοντέλα, η σωστή κωδικοποίηση και αποκωδικοποίηση έχει γίνει ένα δύσκολο πρόβλημα. Ειδικά σε ένα περιβάλλον πολλών γλωσσών, κάθε διαδικασία κωδικοποίησης και αποκωδικοποίησης περιλαμβάνει πολλαπλά βήματα και πολλούς κανόνες κωδικοποίησης Εάν υπάρχει σφάλμα σε έναν σύνδεσμο ή ακόμη και δυαδικός υπολογισμός, είναι αδύνατο να ληφθεί μια ακριβής απάντηση.

Συνολικά, το GPT-4o είναι όντως καλύτερο από αυτό το μικρό παιχνίδι μόνο, το Qwen2-72B είναι 50-50 καλύτερο από το Llama3.1 405B. Κάπως εκπληκτικά, το Mistral Large2 κατετάγη τελευταίο αυτή τη φορά.

Αν σας αρέσει το μικρό μας παιχνίδι, μπορείτε να μας ακολουθήσετε.

Νέα

Llama 3.1 405B VS Mistral Large 2, ποιος είναι ο βασιλιάς του ανοιχτού κώδικα; ｜AI Hengping

Εισαγωγή

τα στοιχεία επικοινωνίας μου