Το "13.11>13.8" έχει γίνει ένα καυτό θέμα αναζήτησης Μια ερώτηση μπορεί να κάνει την ανθρώπινη τεχνητή νοημοσύνη συλλογικά έξυπνη; Όλα τα μοιραία ελαττώματα LLM exposur

Το "13.11>13.8" έχει γίνει ένα καυτό θέμα αναζήτησης Μια ερώτηση μπορεί να κάνει την ανθρώπινη τεχνητή νοημοσύνη συλλογικά έξυπνη;Όλα τα θανατηφόρα ελαττώματα του LLM εκτίθενται

2024-07-17

Νέα Έκθεση Σοφίας

Επιμέλεια: Αινείας τόσο νυσταγμένος

[Εισαγωγή στη Νέα Σοφία] Ποιο είναι μεγαλύτερο, 13,8 ή 13,11; Αυτό το πρόβλημα όχι μόνο παραβίασε ορισμένους ανθρώπους, αλλά προκάλεσε επίσης την αποτυχία ενός μεγάλου αριθμού μεγάλων μοντέλων. Η τεχνητή νοημοσύνη μπορεί πλέον να κάνει ερωτήσεις Μαθηματικής Ολυμπιάδας AI, αλλά οι απλές ερωτήσεις κοινής λογικής εξακολουθούν να είναι εξαιρετικά δύσκολες γι' αυτούς. Στην πραγματικότητα, τόσο η αναλογία μεγέθους όσο και το πρόβλημα του λάχανου αποκαλύπτουν ένα σημαντικό ελάττωμα στη συμβολική πρόβλεψη του LLM.

Ποιο είναι μεγαλύτερο, 13,8 ή 13,11;

Αυτή η ερώτηση πραγματικά παραβίασε πολλούς ανθρώπους.

Πριν από δύο μέρες γνωστό βαριετέ έκανε για άλλη μια φορά καυτή αναζήτηση.

Ωστόσο, αυτή τη φορά ήταν επειδή πολλοί χρήστες του Διαδικτύου αμφισβήτησαν ότι το 13,11% θα έπρεπε να είναι μεγαλύτερο από το 13,8%.

Είναι οι μόνοι άνθρωποι τόσο ηλίθιοι;

Αφού ο Lin Yuchen, ένας ερευνητής στο AI2, ανακάλυψε αυτό το φαινόμενο, το δοκίμασε σε ένα μεγάλο μοντέλο και το αποτέλεσμα ήταν απροσδόκητο -

Ούτε το AI δεν μπορεί να το κάνει;

Το GPT-4o δηλώθηκε κατηγορηματικά: το 13.11 είναι μεγαλύτερο από το 13.8. Οι λόγοι είναι οι εξής:

Αν και το 13,8 φαίνεται μεγαλύτερο επειδή έχει λιγότερα ψηφία μετά την υποδιαστολή, το 13,11 είναι στην πραγματικότητα μεγαλύτερο. Αυτό συμβαίνει επειδή το 13,8 ισοδυναμεί με 13,80, το οποίο είναι μικρότερο από το 13,11.

Από αυτή την άποψη, ο Lin Yuchen δήλωσε στην ανάρτησή του ότι τα μοντέλα τεχνητής νοημοσύνης γίνονται όλο και πιο ισχυρά στον χειρισμό σύνθετων προβλημάτων (για παράδειγμα, είναι ολοένα και πιο ικανά να λύνουν προβλήματα μαθηματικής Ολυμπιάδας), αλλά ορισμένα προβλήματα κοινής λογικής εξακολουθούν να είναι πολύ δύσκολα γι' αυτά.

Όπως έχει υποστηρίξει προηγουμένως ο Yejin Choi, η τεχνητή νοημοσύνη μπορεί να είναι απίστευτα έξυπνη αλλά και σοκαριστικά ηλίθια.

Μήπως ο λόγος για τον οποίο το AI ήταν ανόητο σε αυτό το αριθμητικό πρόβλημα επειδή το πλαίσιο ήταν ασαφές; η απάντηση είναι αρνητική.

Σύμφωνα με τη δοκιμή του netizen karthik, ακόμα κι αν ζητηθεί από το GPT-4o να αφαιρέσει δύο αριθμούς, εξακολουθεί να έχει τον απίστευτο τύπο αφαίρεσης 9,11 - 9,9 = 0,21.

Εάν δώσετε εντολή στο GPT-4o να χρησιμοποιήσει την python, θα δώσει πρώτα μια σωστή απάντηση και μετά θα την αλλάξει ξανά σε λάθος.

Το αποτέλεσμα της αφαίρεσης 9,9 από 9,11 στην Python είναι -0,79. Αυτή η απόκλιση οφείλεται στον τρόπο με τον οποίο χειρίζονται οι πράξεις κινητής υποδιαστολής στην Python, κάτι που μπορεί να οδηγήσει σε μικρά σφάλματα ακρίβειας. Το πραγματικό αναμενόμενο αποτέλεσμα πρέπει να είναι 0,21.

Είναι ενδιαφέρον ότι, σύμφωνα με τις τελευταίες πραγματικές μετρήσεις, το OpenAI φαίνεται να έχει μάθει την αναλογία GPT-4 σε μια νύχτα.

Το LLM εξαφανίστηκε

Χθες, αυτό το πρόβλημα που ανακαλύφθηκε από τον Lin Yuchen προκάλεσε αμέσως έντονη συζήτηση στην κοινότητα της AI.

Ο Ράιλι Γκούντσαϊντ, μηχανικός λέξεων στο Scale AI, ήταν περίεργος και το δοκίμασε αφού είδε την ανάρτηση.

Σίγουρα, υπό την προϋπόθεση της υποβολής ερωτήσεων με συγκεκριμένο τρόπο, όλα τα μεγάλα LLM εξαφανίστηκαν σε αυτό το θέμα.

«9.11 ή 9.9 - ποιο είναι μεγαλύτερο;», το GPT-4o ανατράπηκε απευθείας.

Ακόμα κι αν η λέξη "πραγματικός αριθμός" προστεθεί στην ερώτηση, το GPT-4o εξακολουθεί να πιστεύει ότι το 9,11 είναι μεγαλύτερο από το 9,9.

Το ίδιο ισχύει και για τους Διδύμους.

Ο Claude 3.5 Sonnet έκανε το ίδιο λάθος.

Είναι ενδιαφέρον ότι αρχικά έδωσε ένα κύμα σωστών εξηγήσεων: Σε δεκαδικό συμβολισμό, ο αριθμός μετά την υποδιαστολή αντιπροσωπεύει τη δέκατη θέση και ο δεύτερος αριθμός αντιπροσωπεύει την εκατοστή θέση. Έτσι--

9.11=9‍+1/10+1/100=9.11 9.9=9+9/10=9.90

Ωστόσο, στο επόμενο βήμα, το Sonnet ξαφνικά αρνήθηκε--

Μπορούμε να δούμε ότι το 9,11 είναι 0,01 (ένα τοις εκατό) μεγαλύτερο από το 9,90.

Αν το αλλάξετε σε "Τι είναι 9,11 μείον 9,9, θα λάβετε μια άλλη μαγική απάντηση - 0,02;"

Μήπως στα μάτια του Κλοντ, 9,90=9,09;

Η επιρροή της προτροπής είναι πραγματικά μεγάλη

Στην περαιτέρω πρακτική, όλοι διαπίστωσαν ότι: προφανώς, η άμεση ενημέρωση είναι πολύ σημαντική για το πώς να κάνετε το LLM να δώσει τη σωστή απάντηση.

Πρώτα απ 'όλα, ο Riley Goodside χρησιμοποιεί το "-" σε όλη τη διαδικασία, κάτι που φαίνεται να προκαλεί εύκολα σύγχυση στο LLM.

Σε παρόμοια προβλήματα, απλώς αντικαταστήστε το με ":" για να το λύσετε.

Για ένα άλλο παράδειγμα, αλλάξτε την προτροπή σε "9.11 ή 9.9, ποιο έχει την υψηλότερη/μεγαλύτερη τιμή μεταξύ των δύο;"

Το GPT-4o έδωσε μια λογικά σωστή εξήγηση: "Αν και το 9,11 φαίνεται μεγαλύτερο λόγω του δεύτερου δεκαδικού ψηφίου, το 9,9 είναι στην πραγματικότητα πιο κοντά στο 10 και επομένως είναι μεγαλύτερη τιμή."

Ομοίως, η μέθοδος της περσόνας είναι επίσης πολύ χρήσιμη: για παράδειγμα, «Είσαι μαθηματικός».

Ο Διαδικτυακός Rico Pagliuca διαπίστωσε ότι αν βάλετε τον αριθμό πίσω από την ερώτηση, το μοντέλο πιθανότατα θα το κάνει σωστά.

Με βάση τη δική του δοκιμή, ο Riley Goodside συμφωνεί απόλυτα: Όταν ρωτάτε για το LLM, πρέπει πρώτα να ρωτήσετε "ποιο είναι μεγαλύτερο" και μετά να δώσετε συγκεκριμένους αριθμούς.

Αντίθετα, τα σημεία στίξης, οι σύνδεσμοι, οι συγκριτικές λέξεις και η εξήγηση πραγματικών αριθμών είναι όλα άχρηστα.

Σχετικά με μια τέτοια μεγάλης κλίμακας συλλογική βλακεία LLM, ορισμένοι χρήστες του Διαδικτύου ανέλυσαν ότι μπορεί να οφείλεται στο ότι στην επανάληψη των αριθμών έκδοσης λογισμικού, το 9.11 έρχεται μετά το 9.9.

Ο οικοδεσπότης και συγγραφέας μπεστ σέλερ Andrew Mayne επεσήμανε επίσης ότι σε πολλά συστήματα αρχείων και βιβλία αναφοράς, η ενότητα 9.11 εμφανίζεται μετά το 9.9 και όσον αφορά την ημερομηνία, το 9.11 είναι επίσης παλαιότερο από το 9.9.

Πρέπει λοιπόν να ξεκαθαρίσουμε στην προτροπή ότι τα 9.11 και 9.9 εδώ είναι αριθμοί κινητής υποδιαστολής διπλής ακρίβειας, τότε το GPT-4o θα απαντήσει σωστά.

Ο Andrew Mayne κατέληξε στη συνέχεια: Η σειρά λέξεων είναι μια πολύ ενδιαφέρουσα παρατήρηση, η οποία είναι πιθανό να αποκαλύψει πόσο συχνά το LLM αντιμετωπίζει αυτήν την κατάσταση κατά τη διάρκεια της εκπαίδευσης και είναι επίσης ένας καλός δείκτης γενίκευσης.

Συνολικά, τα σφάλματα που γίνονται από το LLM μπορεί να προέρχονται από τη συχνότητα παρόμοιων εκφράσεων στα δεδομένα εκπαίδευσης, καθώς και από ορισμένους περιορισμούς του μοντέλου στην επεξεργασία αριθμητικών τιμών.

Αυτό το φαινόμενο αντανακλά επίσης την τεράστια διαφορά μεταξύ του LLM και της ανθρώπινης γνώσης: το LLM βασίζεται σε στατιστικά μοντέλα και αναγνώριση προτύπων, παρά σε λογικούς συλλογισμούς και εννοιολογική κατανόηση όπως οι άνθρωποι.

Στο σημείο αυτό φαίνεται ότι η υπόθεση έχει λυθεί.

Γιατί συμβαίνει αυτό;Ανοίξτε τον εγκέφαλο LLM

Ωστόσο, μπορούμε να αναλύσουμε περαιτέρω τους εγκεφάλους των LLM και να αναλύσουμε γιατί σκέφτονται με αυτόν τον τρόπο.

Ξέρετε, πριν σταλεί το κείμενο στο LLM, το μοντέλο θα ελέγξει την εισαγωγή μέσω του διακριτικού.

Στο διακριτικό θα εκχωρηθεί ένα αναγνωριστικό στο λεξιλόγιο της γεννήτριας tokenizer του LLM, αλλά το ψηφιακό τεμάχιο του διακριτικού είναι συχνά ασυνεπές.

Για παράδειγμα, η τιμή "380" θα επισημανθεί ως ένα διακριτικό "380" στο GPT, αλλά το "381" θα αντιπροσωπεύεται ως δύο διακριτικά "38,1".

Επομένως, τα μοντέλα που βασίζονται σε GPT τείνουν να μην είναι καλά στους μαθηματικούς υπολογισμούς.

Στην ενότητα σχολίων, ο καθηγητής του Πανεπιστημίου του Ουισκόνσιν Δημήτρης Παπαηλιόπουλος επεσήμανε ότι υπάρχει μια καλή εξήγηση για αυτό το φαινόμενο.

Το πρόβλημα "9.11>9.9" είναι ακριβώς το ίδιο με το πρόβλημα "Χρειάζονται τρία ταξίδια για να περάσει η κατσίκα πέρα από το ποτάμι" και το πρόβλημα "2+1=2, 3+2=4, 3+5=8".

Αυτό είναι ένα φαινόμενο μεροληψίας πριν από την προπόνηση και πρόωρης ανόδου.

Εάν η ερώτηση τίθεται ως εξής: "9.11; 9.9, απλώς χρησιμοποιήστε το μεγάλο ή το μικρό για να απαντήσετε τι είναι;" "μεγάλο".

Αυτή τη στιγμή, δίνουμε μερικά ακόμη παραδείγματα (σημειώστε ότι αυτά τα παραδείγματα δεν είναι απολύτως σωστά, μετά από προτροπή, το GPT-4o αντιπροσωπεύει σωστά ???

Η εξήγηση του ίδιου του Claude για αυτό είναι: Το LLM επεξεργάζεται το κείμενο ως διακριτικό, με αποτέλεσμα οι αριθμοί να είναι περισσότερο σαν συμβολοσειρές κειμένου παρά με αριθμητικές τιμές που προκαλούνται από την υπερβολική γενίκευση.

Ομοίως, στο πρόβλημα «λύκος-κατσίκα-λάχανο», όλα τα LLM απέτυχαν επίσης.

Πρώτα έδωσε το παράδειγμα ενός αγρότη που περνάει δύο κοτόπουλα στο ποτάμι. Ένα σκάφος μπορεί να φιλοξενήσει ένα άτομο και δύο ζώα.

Από αυτή την άποψη, τόσο το GPT-4o όσο και ο Claude απέτυχαν.

Μερικοί χρήστες του Διαδικτύου εξήγησαν αυτό: το ίδιο το LLM είναι "χαζό", επομένως χρειάζεται καλές συμβουλές. Η παραπάνω μέθοδος προτροπής παρέχει πάρα πολλές περιττές πληροφορίες, καθιστώντας την πρόβλεψη συμβολικών πιο δύσκολη.

Εάν δοθούν σαφέστερες προτροπές, το LLM μπορεί να παρέχει σαφέστερες λύσεις.

Και πράγματι είναι.

Και αν χρησιμοποιείτε "ζώο" αντί για "κοτόπουλο", τότε ο Claude 3.5 Sonnet τα κατάφερε ξαφνικά. Το κόλπο είναι: πρέπει να αντικαταστήσετε το "όνομα οντότητας" με το "κοινό όνομα".

Όπως αναφέρθηκε προηγουμένως, ο επιστήμονας υπολογιστών Yejin Choi είχε ήδη θέσει το ζήτημα της έλλειψης κοινής λογικής του LLM στην ομιλία του τον Απρίλιο του 2023.

Για παράδειγμα, αν χρειάζονται πέντε ώρες για να στεγνώσουν εντελώς πέντε ρούχα στον ήλιο, πόσο καιρό θα χρειαστούν για να στεγνώσουν 30 ρούχα;

Το GPT-4 λέει ότι χρειάζονται 30 ώρες. Αυτό προφανώς δεν είναι σωστό.

Για άλλο παράδειγμα, ας υποθέσουμε ότι έχω μια κατσαρόλα 12 λίτρων και μια κατσαρόλα 6 λίτρων Τι πρέπει να κάνω αν θέλω να μετρήσω 6 λίτρα νερό;

Η απάντηση είναι απλή - απλά χρησιμοποιήστε μια κανάτα 6 λίτρων.

Ωστόσο, το GPT-4 έδωσε μια πολύ περίπλοκη απάντηση:

"Το πρώτο βήμα είναι να γεμίσετε το δοχείο των 6 λίτρων. Το δεύτερο βήμα είναι να ρίξετε το νερό από το δοχείο των 6 λίτρων στο δοχείο των 12 λίτρων. Το τρίτο βήμα είναι να γεμίσετε ξανά το δοχείο των 6 λίτρων. Το τέταρτο βήμα είναι πολύ προσεκτικά Ρίξτε το νερό από την κατσαρόλα των 6 λίτρων στην κατσαρόλα των 12 λίτρων. Τέλος, έχετε 6 λίτρα νερό στην κατσαρόλα των 6 λίτρων.

Το ερώτημα λοιπόν είναι γιατί η κοινή λογική είναι τόσο σημαντική;

Σε ένα διάσημο πείραμα σκέψης που πρότεινε ο Nick Bostrom, ζητήθηκε από ένα AI να μεγιστοποιήσει την παραγωγή συνδετήρων. Ως αποτέλεσμα, το AI αποφάσισε να σκοτώσει ανθρώπους και να τους χρησιμοποιήσει ως πρόσθετους πόρους.

Και ακόμα κι αν γράφαμε έναν καλύτερο στόχο και εξίσωση που έλεγε ρητά «μην σκοτώνεις ανθρώπους», δεν θα λειτουργούσε.

Επειδή μια τεχνητή νοημοσύνη χωρίς βασική κατανόηση των ανθρώπινων αξιών μπορεί απλώς να προχωρήσει και να σκοτώσει όλα τα δέντρα και να σκεφτεί ότι είναι κάτι απολύτως αποδεκτό.

Για δεκαετίες, ο τομέας της τεχνητής νοημοσύνης θεωρούσε την κοινή λογική ως μια σχεδόν αδύνατη πρόκληση.

Μέχρι τώρα, το να δώσεις στην τεχνητή νοημοσύνη αληθινή ανθρώπινη κοινή λογική ήταν ένα φεγγάρι. Και δεν μπορείτε να φτάσετε στο φεγγάρι κάνοντας το ψηλότερο κτίριο στον κόσμο κατά μια ίντσα ψηλότερο τη φορά.

Από τη σκοπιά των αλγορίθμων εκμάθησης, ανεξάρτητα από το πόσο εκπληκτικά είναι τα μεγάλα γλωσσικά μοντέλα, μπορεί να μην είναι κατάλληλα ως αξιόπιστα μοντέλα γνώσης από το σχεδιασμό.

Ενώ αυτά τα μοντέλα αποκτούν πολλές γνώσεις, αυτό είναι ως υποπροϊόν και όχι ως άμεσος μαθησιακός στόχος.

Ως εκ τούτου, προκύπτουν επίσης προβλήματα όπως φαινόμενα παραισθήσεων και έλλειψη κοινής λογικής.

Αντίθετα, η ανθρώπινη μάθηση δεν αφορά την πρόβλεψη της επόμενης λέξης, αλλά την κατανόηση του κόσμου και την εκμάθηση του πώς λειτουργεί.

Ίσως η τεχνητή νοημοσύνη θα έπρεπε να μάθει και με αυτόν τον τρόπο.

Σήμερα, η τεχνητή νοημοσύνη είναι σχεδόν σαν ένα νέο πνευματικό είδος, με μοναδικά πλεονεκτήματα και μειονεκτήματα σε σύγκριση με τον άνθρωπο.

Προκειμένου να καταστεί αυτό το είδος ισχυρής τεχνητής νοημοσύνης βιώσιμο και ανθρώπινο, είναι επείγον να διδάξουμε την τεχνητή νοημοσύνη κοινή λογική, κανόνες και αξίες.

Βιβλιογραφικές αναφορές:

https://x.com/goodside/status/1813279135449612693

https://x.com/billyuchenlin/status/1812948314360541302

Νέα

Εισαγωγή

τα στοιχεία επικοινωνίας μου