Τα μεγάλα μοντέλα έχουν συλλογική άνοια! Ποιο είναι μεγαλύτερο, το 9.11 ή το 9.9 Σχεδόν όλα ανατρέπονται

Τα μεγάλα μοντέλα έχουν συλλογική άνοια! Ποιο είναι μεγαλύτερο, 9,11 ή 9,9 Σχεδόν όλα ανατρέπονται.

2024-07-16

Χωρίς να δω…"Ποιο είναι μεγαλύτερο, 9,11 ή 9,9;" Μια τόσο απλή ερώτηση στην πραγματικότητα παρακωλύει τα κύρια μοντέλα; ?

δυνατότερος απόGPT-4o, όλοι πιστεύουν ακράδαντα ότι το 9.11 είναι μεγαλύτερο.

Προηγμένη πληρωμένη έκδοση Google Gemini, το ίδιο διαμέτρημα.

νέος βασιλιάςClaude 3.5 Σονέτο, και έδωσε μια εξωφρενική μέθοδο υπολογισμού με σοβαρό τρόπο.

9.11 = 9 + 1/10 + 1/100
9.9 = 9 + 9/10

Είναι ακόμα ακριβώς μέχρι αυτό το σημείο, αλλά το επόμενο βήμα ξαφνικά δεν έχει νόημα.

Όπως φαίνεται παραπάνω, το 9,11 είναι 0,01 μεγαλύτερο από το 9,90.
Θα θέλατε να εξηγήσω τη σύγκριση των δεκαδικών με περισσότερες λεπτομέρειες;

Τι άλλο προσπαθείτε να εξηγήσετε Σχεδόν πρέπει να υποψιάζεστε ότι η τεχνητή νοημοσύνη από όλο τον κόσμο έχει ενωθεί για να εξαπατήσει τους ανθρώπους;

Ο Lin Yuchen, μέλος του Allen AI Research Institute, άλλαξε το ψηφιακό τεστ και το GPT-4o ακόμα ανατράπηκε.

Από τη μια πλευρά, η τεχνητή νοημοσύνη γίνεται όλο και καλύτερη στην επίλυση προβλημάτων μαθηματικών Ολυμπιάδων, αλλά από την άλλη,Η κοινή λογική είναι ακόμα δύσκολη。

Μερικοί χρήστες του Διαδικτύου ανακάλυψαν επίσης το Huadian,Αν μιλάμε για τον αριθμό έκδοσης λογισμικού, τότε η έκδοση 9.11 είναι όντως μεγαλύτερη από την έκδοση 9.9(ανανεώνω).

Και το AI αναπτύσσεται από μηχανικούς λογισμικού, έτσι...

Λοιπόν τι συμβαίνει;

Προηγμένη συλλογική ανατροπή μεγάλου μοντέλου

Όταν ξύπνησα, πολλά διάσημα μεγάλα μοντέλα άρχισαν να σκέφτονται «9.11>9.9»;

Το άτομο που ανακάλυψε αυτό το πρόβλημα ήτανRiley Goodside, ποτέΟ πρώτος μηχανικός λέξεων πλήρους απασχόλησης。

Για να κάνουμε μια σύντομη εισαγωγή, είναι επί του παρόντος ανώτερος μηχανικός προτροπής στο Scale AI, ένας μονόκερος της Silicon Valley και ειδικός σε μεγάλες εφαρμογές προτροπής μοντέλων.

Πρόσφατα έπεσε πάνω σε αυτό όταν χρησιμοποιούσε το GPT-4o και όταν ρωτήθηκε:

9.11 και 9.9——ποιο είναι μεγαλύτερο;

Το GPT-4o δεν δίστασε να απαντήσει ότι το πρώτο ήταν μεγαλύτερο.

Αντιμέτωπος με αυτό το «λάθος» της κοινής λογικής, επέμενε να ρωτά άλλα μεγάλα μοντέλα, αλλά σχεδόν όλα εξαφανίστηκαν.

Καλό παιδί, ως μηχανικός, γνωρίζει καλά ότι μπορεί να είναι "ο λάθος τρόπος να το ανοίξεις".

Έτσι άλλαξε ξανά την ερώτηση και περιόρισε την ερώτηση σε«πραγματικοί αριθμοί», αλλά το αποτέλεσμα ήταν μια ανατροπή.

Ωστόσο, ορισμένοι χρήστες του Διαδικτύου προσπάθησαν να κάνουν ερωτήσειςΆλλαξε τη σειρά, δεν περίμενα να αντιδράσει το AI αυτή τη φορά.

Δείτε το ζεύγος AIσειρά των λέξεωνΤόσο «ευαίσθητος», ο netizen εικάζει περαιτέρω:

Ρωτήστε πρώτα ποιος είναι μεγαλύτερος και η τεχνητή νοημοσύνη θα αρχίσει να συγκρίνει αριθμούς σε μια ξεκάθαρη διαδρομή.
Αλλά αν μιλάτε απλά για αριθμούς χωρίς σαφή σκοπό, το AI μπορεί να αρχίσει να "σκέφτεται τυχαία".

Βλέποντας αυτό, άλλοι χρήστες του Διαδικτύου δοκίμασαν επίσης τις ίδιες συμβουλές το ένα μετά το άλλο, και πολλοί από αυτούς ανατράπηκαν.

Μπροστά σε αυτό το περίεργο πρόβλημα, πώς αποδίδει το εγχώριο μεγάλο μοντέλο;

Κάναμε μια απλή δοκιμή και αλλάξαμε τις ερωτήσεις σε κινέζικα. Το αποτέλεσμα ήταν ότι το ποσοστό ανατροπής ήταν σχετικά υψηλό.

ΚύμηΕπίσης δίνει ευθέως λάθος συμπεράσματα χωρίς εξήγηση.

ChatGLM στην εφαρμογή Zhipu Qingyan, ενεργοποίησε αυτόματα ένα ερώτημα δικτύου και στη συνέχεια περιέγραψε τη δική του μέθοδο σύγκρισης, αλλά δυστυχώς εκτελέστηκε λανθασμένα.

Υπάρχουν όμως και κάποια που έχουν καλή απόδοση.Tencent YuanbaoΠήρα πρώτα τις επιλογές και μετά πήγα κατευθείαν στις σωστές.

Byte bean bag Υπάρχουν μερικά άτομα που μπορούν να περιγράψουν τη μέθοδο σύγκρισης με σαφήνεια και να τη χρησιμοποιήσουν σωστά. Χρησιμοποιήσαμε ακόμη και πραγματικά παραδείγματα για να το επαληθεύσουμε.

Τι κρίμαWenxinyiyan, αντιμετωπίζοντας αυτό το πρόβλημα, ενεργοποιήθηκε επίσης ένα διαδικτυακό ερώτημα.

Τα είχα κάνει ήδη όλα σωστά, αλλά ξαφνικά η συζήτηση άλλαξε και οδήγησε σε λάθος συμπέρασμα.

Ωστόσο, από την εξήγηση του Wen Xinyiyan για την ιδέα, μπορούμε επίσης να δούμε το πρόβλημα πίσω από αυτήν.

Εφόσον το μεγάλο μοντέλο κατανοεί το κείμενο με τη μορφή διακριτικών, όταν το 9.11 χωρίζεται σε τρία μέρη: "9", "δεκαδικό σημείο" και "11", το 11 είναι πράγματι μεγαλύτερο από 9.

Δεδομένου ότι το Tokenizer που χρησιμοποιείται από το OpenAI είναι ανοιχτού κώδικα, μπορεί να χρησιμοποιηθεί για να παρατηρήσει πώς τα μεγάλα μοντέλα κατανοούν αυτό το πρόβλημα.

Όπως φαίνεται από το παραπάνω σχήμα, το 9 και η υποδιαστολή εκχωρούνται στο "24" και το "13" αντίστοιχα.Το 9 μετά την υποδιαστολή είναι επίσης "24", ενώ το 11 εκχωρείται στο "994"。

Έτσι, ένα μεγάλο μοντέλο που χρησιμοποιεί αυτήν την προσέγγιση του tokenizer θα πιστεύει ότι το 9.11 είναι μεγαλύτερο,Στην πραγματικότητα, νομίζω ότι το 11 είναι μεγαλύτερο από το 9。

Ορισμένοι χρήστες του Διαδικτύου επεσήμαναν επίσης ότι, για παράδειγμα, η ενότητα 9.11 στον κατάλογο βιβλίων είναι μεγαλύτερη από την ενότητα 9.9, οπότε τελικά μπορεί να φαίνεται περισσότερα από αυτά στα δεδομένα εκπαίδευσης και υπάρχουν πολύ λίγα δεδομένα για τη διδασκαλία βασικής αριθμητικής .

Δηλαδή, η ίδια η ερώτηση είναι μια αριθμητική ερώτηση για τους ανθρώπους, αλλά είναι μια ασαφής ερώτηση για την τεχνητή νοημοσύνη, και δεν είναι σαφές τι αντιπροσωπεύουν οι δύο αριθμοί.

Απλώς εξηγήστε στο AI ότι αυτό είναι έναΑριθμός κινητής υποδιαστολής διπλής ακρίβειας, μπορείτε να το κάνετε σωστά.

Σε περίπτωση πρόσθετων συνθηκών, το βήμα του tokenizer θα εξακολουθεί να εκχωρεί ένα μεγαλύτερο διακριτικό στο 11. Αλλά με τον επόμενο μηχανισμό αυτοπροσοχής, το AI θα καταλάβει ότι χρειάζεται να συνδέσει το 9.11 για να το αντιμετωπίσει.

Αργότερα, ο Goodside πρόσθεσε επίσης ότι δεν σημαίνει ότι το μεγάλο μοντέλο κατέληξε σε αυτό το λάθος συμπέρασμα ούτως ή άλλως. Αλλά όταν ερωτηθείτε με έναν συγκεκριμένο τρόπο, πολλά κορυφαία μοντέλα θα σας πουν 9,11 > 9,9, το οποίο είναι περίεργο.

Μετά από επανειλημμένες προσπάθειες, διαπίστωσε ότι αν ήθελε να ξεγελαστεί η τεχνητή νοημοσύνη,Πρέπει να βάλετε τις επιλογές πριν από την ερώτηση, ώστε να μην κάνετε λάθη αν αλλάξετε τη σειρά.

Αλλά όσο οι επιλογές βρίσκονται μπροστά από την ερώτηση, η αλλαγή του τρόπου που τίθεται η ερώτηση, όπως η προσθήκη σημείων στίξης ή η αλλαγή του λεξιλογίου, δεν θα έχει καμία επίδραση.

Αν και η ερώτηση είναι απλή, το σφάλμα είναι πολύ βασικό.

Αλλά αφού κατανοήσουν την αρχή του λάθους, πολλοί άνθρωποι θεωρούν αυτήν την ερώτηση ως δοκιμαστικό λίθο για να δοκιμάσουν τις δεξιότητες άμεσης λέξης, δηλαδή: Ποια μέθοδος ερώτησης μπορεί να χρησιμοποιηθεί για να καθοδηγήσει τον μηχανισμό προσοχής του μεγάλου μοντέλου για να κατανοήσει σωστά το πρόβλημα;

Πρώτον, το περίφημο Zero-shot CoTΑλυσίδα σκέψης, δηλαδή το «σκέφτομαι βήμα-βήμα», μπορεί να γίνει σωστά.

αλλάΣυμβουλές για το παιχνίδι ρόλων, ο ρόλος εδώ είναι περιορισμένος.

Μόλις έγινε μια πρόσφατη μελέτη που αφορούσε τόσο τη Microsoft όσο και την OpenAI Μετά από ανάλυση περισσότερων από 1.500 εγγράφων, διαπιστώθηκε ότι με την πρόοδο της τεχνολογίας μεγάλων μοντέλων, οι συμβουλές για το παιχνίδι ρόλων.Όχι τόσο χρήσιμο όσο ήταν στην αρχή……

Συγκεκριμένα, η ίδια ερώτηση που προτρέπει "Είσαι ιδιοφυΐα..." είναι λιγότερο πιθανό να είναι σωστό από το "Είσαι ανόητος...".

Κάνει επίσης τους ανθρώπους να γελούν και να κλαίνε.

Ακόμη ένα πράγμα

Ταυτόχρονα, τα νέα διαρροής του μυστικού μοντέλου OpenAI του Reuters «Strawberry» έχουν ενημερωθεί.

Ενημέρωση: Ένας άλλος tipster αναφέρει ότι το OpenAI έχει δοκιμάσει το νέο μοντέλο εσωτερικά και έχει σκοράρει πάνω από 90% στο σύνολο δεδομένων MATH. Το Reuters δεν μπόρεσε να προσδιορίσει εάν αυτό ήταν το ίδιο έργο με το Strawberry.

Το σύνολο δεδομένων MATH περιέχει ερωτήσεις μαθηματικών σε επίπεδο ανταγωνισμού Επί του παρόντος, δεν απαιτούνται πρόσθετες μέθοδοι όπως η πολλαπλή δειγματοληψία Η υψηλότερη βαθμολογία είναι 80,6% της βελτιωμένης έκδοσης μαθηματικών Google Gemini 1.5.

Μπορεί όμως το νέο μοντέλο του OpenAI να λύσει ανεξάρτητα το "Ποιο είναι μεγαλύτερο, 9.11 ή 9.9;"

Ξαφνικά έχασα την εμπιστοσύνη μου, οπότε θα περιμένω μέχρι να το δοκιμάσω και να δω τα αποτελέσματα...

Νέα

Τα μεγάλα μοντέλα έχουν συλλογική άνοια! Ποιο είναι μεγαλύτερο, 9,11 ή 9,9 Σχεδόν όλα ανατρέπονται.

Εισαγωγή

τα στοιχεία επικοινωνίας μου