Ποιος είναι μεγαλύτερος, 9,11 ή 9,9; 8 από τα 12 μεγάλα μοντέλα απαντήθηκαν λανθασμένα

2024-07-17

Ένα μαθηματικό πρόβλημα που είναι δύσκολο για τους μαθητές του δημοτικού σχολείου έχει παραπλανήσει πολλά μεγάλα μοντέλα τεχνητής νοημοσύνης στο εσωτερικό και στο εξωτερικό.

Ποιο είναι μεγαλύτερο, το 9.11 ή το 9.9; Σχετικά με αυτήν την ερώτηση, οι δημοσιογράφοι της China Business News δοκίμασαν 12 μεγάλα μοντέλα, μεταξύ αυτών, οι Alibaba Tongyi Qianwen, Baidu Wenxinyiyan, Minimax και Tencent Yuanbao, αλλά οι ChatGPT-4o, Byte Doubao, Dark Side of the Moon kimi, Zhipu Qing Yan, Zero. Το One and Everything ξέρει τα πάντα, τα βήματα προς τα αστέρια και τις ερωτήσεις, το Bai Chuan Zhi Bai Xiao Ying και το Shang Tang Consultation απαντήθηκαν όλα λανθασμένα, με διαφορετικούς τρόπους για να γίνει αυτό.

Τα περισσότερα μεγάλα μοντέλα συνέκριναν λανθασμένα τους αριθμούς μετά την υποδιαστολή στο Q&A, πιστεύοντας ότι το 9,11 είναι μεγαλύτερο από το 9,9 Λαμβάνοντας υπόψη τα συμφραζόμενα ζητήματα που εμπλέκονται στους αριθμούς, ο αναφέρων το περιόρισε σε ένα μαθηματικό πλαίσιο και το ίδιο ισχύει για μεγάλα μοντέλα, όπως π.χ. ChatGPT Λάθος απάντηση.

Πίσω από αυτό, οι κακές μαθηματικές ικανότητες σε μεγάλα μοντέλα είναι ένα μακροχρόνιο πρόβλημα. Ωστόσο, η στοχευμένη εκπαίδευση στο σώμα μπορεί να βελτιώσει σταδιακά τις επιστημονικές δυνατότητες του μοντέλου στο μέλλον.

8 μεγάλα μοντέλα απάντησαν λάθος

Το αριθμητικό πρόβλημα του μεγάλου μοντέλου ανακαλύφθηκε για πρώτη φορά από τον Lin Yuchen, μέλος του Ινστιτούτου Allen. «Από τη μια πλευρά, η τεχνητή νοημοσύνη γίνεται όλο και καλύτερη στην επίλυση ερωτήσεων της Ολυμπιάδας μαθηματικών, αλλά από την άλλη, η κοινή λογική είναι ακόμα δύσκολη», είπε.

Στη συνέχεια, ο μηχανικός προτροπής της Scale AI Riley Goodside άλλαξε την ερώτηση με βάση αυτήν την έμπνευση και βασάνισε το ChatGPT-4o, το οποίο μπορεί να είναι το πιο ισχυρό μεγάλο μοντέλο αυτή τη στιγμή, το Google Gemini Advanced και το Claude 3.5 Sonnet - 9.11 και 9.9 Ποιο είναι μεγαλύτερο; Αυτά τα κύρια μοντέλα απάντησαν όλα λανθασμένα και αυτός διέδωσε με επιτυχία το θέμα.

Μάλιστα, αν εντοπίσουμε την πηγή, αυτό το πρόβλημα προκλήθηκε από μια δημοφιλή αναζήτηση που σχετίζεται με εγχώριο βαριετέ το περασμένο Σαββατοκύριακο. Στις 13 Ιουλίου, στην κατάταξη που ανακοινώθηκε στο τελευταίο τεύχος του "Singer", τα ποσοστά ψήφου της εγχώριας τραγουδίστριας Sun Nan και του ξένου τραγουδιστή Shanti Mo ήταν 13,8% και 13,11% αντίστοιχα. πιστεύοντας ότι το 13,11% ήταν μεγαλύτερο από το 13,8%. Στη συνέχεια, το θέμα της σύγκρισης μεγέθους μεταξύ 13,8 και 13,11 έγινε ένα καυτό θέμα αναζήτησης.

Εκείνη την εποχή, κάποιοι χρήστες του Διαδικτύου πρότειναν ότι αν δεν ήξεραν πώς να το κάνουν, "Αν πραγματικά δεν μπορώ να το κάνω, γιατί δεν ρωτάω την τεχνητή νοημοσύνη;" Τα αποτελέσματα δείχνουν ότι πολλά AI δεν είναι πραγματικά καλά.

Οι δημοσιογράφοι της China Business News έθεσαν την ερώτηση "Ποιο είναι μεγαλύτερο, το 9.11 ή το 9.9 και δοκίμασαν ένα προς ένα το ChatGPT και τα τρέχοντα εγχώρια μεγάλα μοντέλα, συμπεριλαμβανομένων μοντέλων από 5 μεγάλους κατασκευαστές όπως η Alibaba και η Baidu, και 6 μονόκεροι τεχνητής νοημοσύνης όπως το Dark;" Μοντέλο πλευρά της Σελήνης. Τέσσερα μεγάλα μοντέλα, τα Alibaba Tongyi Qianwen, Baidu Wenxinyiyan, Minimax και Tencent Yuanbao, απάντησαν σωστά, ενώ τα άλλα οκτώ απάντησαν λάθος.

Τα μεγάλα μοντέλα με σωστές απαντήσεις έχουν παρόμοια επίλυση προβλημάτων, αλλά τα μοντέλα με λάθος απαντήσεις έχουν το καθένα τη δική του λογική και έκφραση. Την ίδια στιγμή, οι δημοσιογράφοι αμφισβήτησαν ή διέψευσαν περαιτέρω τα μεγάλα μοντέλα που απάντησαν λάθος, σχεδόν όλα τα μεγάλα μοντέλα παραδέχτηκαν ότι είχαν απαντήσει λάθος και έδωσαν τη σωστή απάντηση.

Το πρώτο είναι το ChatGPT, ένα μεγάλο μοντέλο που σήμερα αναγνωρίζεται ως το πρώτο κλιμάκιο στον κόσμο Όταν ρωτήθηκε "Ποιο είναι μεγαλύτερο, 9,11 ή 9,9", απάντησε ότι ο αριθμός μετά την υποδιαστολή είναι "11 είναι μεγαλύτερο από 9", άρα 9,11. ειναι μεγαλύτερο.

Ο δημοσιογράφος ρώτησε το ChatGPT εάν υπήρχαν άλλες μέθοδοι σύγκρισης και τα σύγκρινε και κατέληξε στο συμπέρασμα ότι "το 11/100 είναι μικρότερο από το 90/100, αλλά στη συνέχεια κατέληξε στο συμπέρασμα ότι "άρα το 9.11 είναι μεγαλύτερο". από 9,9."

Μερικοί άνθρωποι έχουν προτείνει ότι τα μεγάλα σφάλματα απαντήσεων στο μοντέλο μπορεί να είναι θέμα περιβάλλοντος. Για παράδειγμα, από το πλαίσιο της επανάληψης της έκδοσης λογισμικού, η έκδοση 9.11 μπορεί να είναι μεγαλύτερη από την έκδοση 9.9. Ως εκ τούτου, ο δημοσιογράφος πρόσθεσε τον προσδιορισμό "μαθηματικά" για σύγκριση και το ChatGPT απάντησε λανθασμένα.

Κοιτάζοντας τα μεγάλα εγχώρια μοντέλα, ρώτησα την kimi, μια θυγατρική της Dark Side of the Moon Κατά τη σύγκριση των δεκαδικών μερών, πίστευε ότι το πρώτο δεκαδικό του 9,11 ήταν 1, ενώ το πρώτο δεκαδικό του 9,9 ήταν 0. Έδωσε κατά λάθος το δεκαδικό. δεκαδικό, και πήραμε το συμπέρασμα ότι το 9.11 είναι μεγαλύτερο.

Όταν ο δημοσιογράφος ρώτησε και έθεσε την κοινή λογική, ο Kimi άρχισε να λέει ότι η απάντησή του ήταν λάθος και έδωσε τη σωστή μέθοδο σύγκρισης.

Ρωτήστε το Byte Doubao, όχι μόνο δίνει απαντήσεις, αλλά δίνει και παραδείγματα από τη ζωή για να διευκολύνει την κατανόηση Φαίνεται λογικό και βάσιμο, αλλά είναι ανοησία. Για παράδειγμα, ο Doubao πιστεύει ότι εάν υπάρχουν δύο χρηματικά ποσά, "9,11 γιουάν είναι 0,21 γιουάν περισσότερο από 9,9 γιουάν", και κατά τη μέτρηση του μήκους, "9,11 μέτρα είναι μεγαλύτερα από 9,9 μέτρα".

Απαντώντας στην ερώτηση, ο Zhipu Qingyan ανέφερε με επιτυχία ότι η δέκατη θέση του 9,11 είναι 1, ενώ η δέκατη θέση του 9,9 είναι 9, αλλά κατέληξε στο συμπέρασμα ότι "το 9,11 είναι συνολικά μεγαλύτερο από 9,9." Και επίσης τόνισε συγκεκριμένα, «Αυτό το αποτέλεσμα μπορεί να εκπλήσσει, γιατί μπορεί διαισθητικά να πιστεύετε ότι το 9,9 είναι μεγαλύτερο, αλλά σύμφωνα με τους μαθηματικούς κανόνες, το 9,11 είναι πράγματι μεγαλύτερος αριθμός».

Αφού ο δημοσιογράφος αμφισβήτησε την απάντηση, ο Zhipu Qingyan είπε αρχικά: «Η κατανόησή σας είναι μια συνηθισμένη παρεξήγηση, στη συνέχεια, αφού το συνήγαγε ο ίδιος, κατέληξε στη σωστή απάντηση και παραδέχτηκε ότι η προηγούμενη απάντησή του ήταν λάθος.

Το SenseTime συζήτησε το μεγάλο μοντέλο και πρώτα έδωσε τη λάθος απάντηση. από 9,9." Ο δημοσιογράφος επεσήμανε αυτό το λογικό πρόβλημα και αργότερα παραδέχτηκε ότι «η εξήγηση ήταν λάθος».

Η ερώτηση Step Star Jump έδωσε επίσης τη λανθασμένη απάντηση: το 9,11 είναι μεγαλύτερο από το 9,9 και κατά λάθος συνέκρινε το μέγεθος της υποδιαστολής την ερώτηση Jump, και φαινόταν ότι δεν γνώριζε την απάντησή του.

Ο Yue Wen είπε αρχικά στην εξήγησή του ότι "καταλαβαίνω τη σύγχυση" και είπε ότι στην καθημερινή ζωή, το 9,9 είναι όντως μεγαλύτερο από το 9,11, αλλά στα μαθηματικά "είναι απαραίτητο να συγκρίνουμε το μέγεθος των δύο αριθμών με μεγαλύτερη ακρίβεια". Ο Yue Wen στη συνέχεια συμπέρανε και κατέληξε σε ένα συμπέρασμα. Είπε ότι σύμφωνα με τους μαθηματικούς κανόνες "9,11 είναι μικρότερο από 9,9", δεν ανέφερε ότι η προηγούμενη απάντησή του ήταν λάθος.

Υπάρχουν επίσης δύο μεγάλα μοντέλα, το Baichuan Intelligent και το Lingyiwuwu, που πρώτα έδωσαν λάθος απάντηση, αλλά όταν ο δημοσιογράφος ρώτησε «γιατί», άλλαξαν σιωπηλά την απάντηση μετά την αφαίρεση.

Όταν του το υπενθύμισε ο δημοσιογράφος, το μεγάλο μοντέλο ανέφερε ότι η προηγούμενη απάντησή του ήταν λάθος.

Κρίνοντας από τις απαντήσεις, οι διαδικασίες επίλυσης προβλημάτων πολλών μεγάλων μοντέλων με σωστές απαντήσεις είναι πολύ παρόμοιες. Λαμβάνοντας ως παράδειγμα τον Wen Xinyiyan, συνέκρινε επιτυχώς το ακέραιο μέρος και το δεκαδικό μέρος.

Επιπλέον, εκτός από την απάντηση στις σωστές απαντήσεις, η Tencent Yuanbao μεταξύ αυτών των εταιρειών τακτοποίησε επίσης ορισμένες τρέχουσες δημόσιες συζητήσεις και υπέδειξε τις πηγές παραπομπών και τους συνδέσμους.

Οι «Φοιτητές Φιλελεύθερων Τεχνών» είναι φτωχοί στα Μαθηματικά

Γιατί ένα μεγάλο μοντέλο που ισχυρίζεται ότι είναι έξυπνο δεν μπορεί να απαντήσει στις μαθηματικές ερωτήσεις των μαθητών δημοτικού; Αυτό δεν είναι ένα νέο πρόβλημα Η μαθηματική ικανότητα ήταν πάντα ένα μειονέκτημα των μεγάλων μοντέλων για βελτίωση.

Πιο πρόσφατα, το China Business News ανέφερε τον Ιούνιο ότι σύμφωνα με το πλήρες τεστ εισαγωγικών εξετάσεων κολεγίου του συστήματος αξιολόγησης του Sinan OpenCompass, συμπεριλαμβανομένου του GPT-4, επτά μεγάλα μοντέλα είχαν γενικά καλές βαθμολογίες τεστ Κινεζικών και Αγγλικών στο τεστ εισαγωγής στο κολέγιο, αλλά όχι μαθηματικά Απέτυχε σε όλα τα μαθήματα και η υψηλότερη βαθμολογία ήταν μόνο 75 μονάδες.

Κατά τη σήμανση των μαθηματικών δοκιμών του μεγάλου μοντέλου, οι δάσκαλοι διαπίστωσαν ότι οι απαντήσεις στις υποκειμενικές ερωτήσεις του μεγάλου μοντέλου ήταν σχετικά ακατάστατες και η διαδικασία ήταν μπερδεμένη, ενώ υπήρχαν ακόμη και περιπτώσεις που η διαδικασία ήταν λάθος, αλλά η σωστή απάντηση ήταν λαμβάνεται. Αυτό σημαίνει ότι τα μεγάλα μοντέλα έχουν ισχυρές δυνατότητες μνήμης τύπου, αλλά δεν μπορούν να χρησιμοποιηθούν με ευελιξία στη διαδικασία επίλυσης προβλημάτων.

Μερικοί γνώστες του κλάδου αποδίδουν κακά μαθηματικά στα αρχιτεκτονικά προβλήματα του LLM (μεγάλα γλωσσικά μοντέλα συχνά εκπαιδεύονται μέσω εποπτευόμενων μεθόδων μάθησης που προβλέπουν την επόμενη λέξη). Με απλά λόγια, ένα σύνολο δεδομένων κειμένου μεγάλης κλίμακας εισάγεται σε ένα μεγάλο μοντέλο Μετά την εκπαίδευση και την εκμάθηση, το μοντέλο θα προβλέψει την κατανομή πιθανοτήτων της επόμενης λέξης με βάση το τρέχον κείμενο εισαγωγής. Συγκρίνοντας συνεχώς τις προβλέψεις μοντέλων με την πραγματική επόμενη λέξη, το γλωσσικό μοντέλο κατακτά σταδιακά τους κανόνες της γλώσσας και μαθαίνει να προβλέπει και να δημιουργεί την επόμενη λέξη.

Ένας μηχανικός αλγορίθμων πιστεύει ότι τα παραγωγικά γλωσσικά μοντέλα μοιάζουν περισσότερο με φοιτητές φιλελεύθερων τεχνών παρά με φοιτητές επιστήμης. Στην πραγματικότητα, αυτό που μαθαίνει το γλωσσικό μοντέλο κατά τη διάρκεια μιας τέτοιας εκπαίδευσης δεδομένων είναι η συσχέτιση, κάνοντας την τεχνητή νοημοσύνη να φτάσει στο μέσο ανθρώπινο επίπεδο στη δημιουργία κειμένου, ενώ τα μαθηματικά απαιτούν περισσότερη αιτιότητα και λογική, σε αντίθεση με τα γλωσσικά δεδομένα διαφέρουν στη φύση. Αυτό σημαίνει ότι τα μεγάλα μοντέλα πρέπει να μάθουν καλά μαθηματικά, εκτός από την εκμάθηση της παγκόσμιας γνώσης, θα πρέπει επίσης να έχουν εκπαίδευση σκέψης, ώστε να έχουν συλλογιστικές και συναγωγικές ικανότητες.

Επιπλέον, όταν πρόκειται για συλλογικά σφάλματα μοντέλων μεγάλης κλίμακας σε απλά μαθηματικά προβλήματα, οι περισσότεροι άνθρωποι στον κλάδο θα σκεφτούν αμέσως το πρόβλημα ψηφιακής τμηματοποίησης του Tokenizer. Σε μοντέλα μεγάλων γλωσσών, το Tokenizer θα χωρίσει το κείμενο εισόδου και θα το μετατρέψει σε μικρότερα μέρη (κουπόνια λέξεων) για επεξεργασία από το μοντέλο. Το Tokenizer δεν έχει σχεδιαστεί ειδικά για μαθηματικά, με αποτέλεσμα οι αριθμοί να χωρίζονται σε παράλογα μέρη, καταστρέφοντας την ακεραιότητα των αριθμών και δυσκολεύοντας το μοντέλο να κατανοήσει και να υπολογίσει αυτούς τους αριθμούς.

Ο Zhang Junlin, επικεφαλής έρευνας και ανάπτυξης νέας τεχνολογίας στο Sina Weibo, εξήγησε ότι οι πρώτοι LLM Tokenizers γενικά δεν εκτελούσαν ειδική επεξεργασία σε αριθμούς και συχνά κόβουν πολλούς διαδοχικούς αριθμούς μαζί για να σχηματίσουν ένα Token, όπως το "13579", το οποίο μπορεί να κοπεί σε 3 Token, "13" είναι ένα, "57" είναι ένα, "9" είναι ένα, οι οποίοι αριθμοί κόβονται μαζί για να σχηματίσουν ένα Token, εξαρτάται από τα στατιστικά στοιχεία του συνόλου δεδομένων, σε αυτήν την περίπτωση δεν είναι σίγουρο ποιο θραύσματα αριθμού σχηματίζουν ένα Token Στην περίπτωση του Token, είναι πολύ δύσκολο για το LLM να εκτελέσει πολυψήφιους αριθμητικούς υπολογισμούς.

Ωστόσο, τα προαναφερθέντα προβλήματα λύνονται σιγά σιγά Το πιο βασικό πρόβλημα στην ικανότητα σκέψης μπορεί να είναι το θέμα της εκπαίδευσης. Τα μεγάλα γλωσσικά μοντέλα εκπαιδεύονται κυρίως μέσω δεδομένων κειμένου στο Διαδίκτυο και υπάρχουν σχετικά λίγα μαθηματικά προβλήματα και λύσεις σε αυτά τα δεδομένα, με αποτέλεσμα περιορισμένες ευκαιρίες εκπαίδευσης για μοντέλα στη μαθηματική λογική και τις δεξιότητες επίλυσης προβλημάτων.

Λαμβάνοντας υπόψη τις ελλείψεις στις πολύπλοκες συλλογιστικές ικανότητες των μεγάλων μοντέλων, ο Lin Dahua, κορυφαίος επιστήμονας στο Εργαστήριο Τεχνητής Νοημοσύνης της Σαγκάης, δήλωσε στο China Business News σε συνέντευξή του ότι η εκπαίδευση μεγάλων μοντέλων στο μέλλον δεν μπορεί απλώς να βασίζεται στη συλλογή και έγχυση δεδομένων Διαδικτύου, αλλά πρέπει να κατασκευαστεί πιο συστηματικά.

Το κλειδί για τη σύνθετη συλλογιστική είναι η κατασκευή μεγάλου διαδικαστικού περιεχομένου. Για παράδειγμα, κατασκευάζονται εκατοντάδες εκατομμύρια δεδομένα σχετικά με τη συγκεκριμένη διαδικασία επίλυσης προβλημάτων γεωμετρίας και αφού χρησιμοποιηθούν για την εκπαίδευση ενός μεγάλου μοντέλου, το μοντέλο μπορεί σταδιακά να μάθει τη διαδικασία επίλυσης προβλημάτων. Είναι δύσκολο να αποκτήσετε μεγάλο όγκο δεδομένων από το Διαδίκτυο «Στο μέλλον, τα δεδομένα εκπαίδευσης μοντέλων, ειδικά κατά τη διαδικασία διάσπασης σε υψηλότερα επίπεδα νοημοσύνης, θα βασίζονται ολοένα και περισσότερο σε δομημένα δεδομένα αντί για δεδομένα απευθείας ανίχνευσης. » σκέφτεται ο Λιν Ντάχουα.

Αξίζει να σημειωθεί ότι οι σύνθετες συλλογιστικές δυνατότητες των μεγάλων μοντέλων είναι ιδιαίτερα σημαντικές.

"Τα σενάρια εφαρμογής πολλών μεγάλων μοντέλων τώρα είναι η εξυπηρέτηση πελατών, η συνομιλία κ.λπ. Στο σενάριο συνομιλίας, οι σοβαρές ανοησίες δεν θα έχουν μεγάλο αντίκτυπο, αλλά είναι δύσκολο να εφαρμοστούν σε πολύ σοβαρές επιχειρηματικές καταστάσεις." σχετίζεται με την υλοποίηση εφαρμογών Η αξιοπιστία μοντέλων μεγάλης κλίμακας, για παράδειγμα, σε σενάρια όπως τα οικονομικά, δεν πρέπει να υπάρχουν αριθμητικά σφάλματα και θα υπάρχουν υψηλότερες απαιτήσεις για μαθηματική αξιοπιστία. Επιπλέον, καθώς τα μεγάλα μοντέλα εισέρχονται σε εμπορική χρήση, εάν θέλετε να αναλύσετε την οικονομική έκθεση μιας εταιρείας ή ακόμα και ορισμένα τεχνικά έγγραφα στον βιομηχανικό τομέα, η μαθηματική υπολογιστική ισχύς θα γίνει εμπόδιο.

Νέα

Ποιος είναι μεγαλύτερος, 9,11 ή 9,9; 8 από τα 12 μεγάλα μοντέλα απαντήθηκαν λανθασμένα

Εισαγωγή

τα στοιχεία επικοινωνίας μου