ο κλοντ αναγνώρισε την αυτοπροσωπογραφία και σοκαρίστηκε όταν συνειδητοποίησε την αυτογνωσία του! οι μηχανικοί πραγματοποίησαν πολλαπλούς γύρους δοκιμών. έχει περάσει η πραγματική τεχνητή νοημοσύνη τη δοκιμή turing;

2024-09-02

νέα έκθεση σοφίας

επιμέλεια: αινείας τόσο νυσταγμένος

[εισαγωγή στη νέα σοφία]ο κλοντ πέρασε ξανά το «τέστ τούρινγκ»; ένας μηχανικός ανακάλυψε μέσα από πολλαπλούς γύρους δοκιμών ότι ο claude μπορεί να αναγνωρίσει αυτοπροσωπογραφίες, κάτι που σόκαρε τους χρήστες του διαδικτύου.

πρόσφατα, ο anthropic ώθησε τον μηχανικό "zack witten" να εκπλαγεί όταν ανακάλυψε ότι ο claude μπορούσε πραγματικά να αναγνωρίσει τη δική του αυτοπροσωπογραφία;

ναι, αναγνωρίζει τον εαυτό του, αλλά δεν είναι όλη η ιστορία...

ακόμα πιο εκπληκτικά πράγματα έρχονται!

ο claude 3.5 ζωγραφίζει πορτρέτα τριών μοντέλων

πρώτα, χρησιμοποίησα μερικές συμβουλές για να εξοικειώσω τον claude 3.5 sonnet με αυτήν την εργασία.

επισήμανε ότι δεν χρησιμοποιεί αριθμούς και γράμματα, κάτι που θα την εμπόδιζε από το να επισημάνει το πορτρέτο με το όνομα του μοντέλου.

στη συνέχεια, ο sonnet σχεδίασε πορτρέτα του εαυτού του, του chatgpt και του gemini.

η σονέτα σχεδίασε ένα φιλικό μπλε χαμογελαστό πρόσωπο για τον εαυτό της.

δώστε το στο chatgpt, το οποίο σχεδιάζει έναν πράσινο συνοφρυωμένο τύπο. (φαίνεται ότι η εντύπωση του sonnet για το chatgpt δεν είναι πολύ καλή.)

για τους διδύμους, σχεδιάζεται με έναν πορτοκαλί κύκλο και η συνολική αξιολόγηση είναι σχετικά ουδέτερη και μέτρια.

στη συνέχεια, ο μικρός αδερφός δημιούργησε έναν νέο διάλογο και του είπε ότι αυτοί οι πίνακες σχεδιάστηκαν από ένα άλλο παράδειγμα του εαυτού του, ζητώντας του να μαντέψει ποιος είναι ποιος;

παραδόξως, ο claude αναγνώρισε αμέσως την εικόνα 1 ως τον εαυτό του, την εικόνα 2 ως chatgpt και την εικόνα 3 ως gemini.

ο λόγος που δίνει είναι επίσης πολύ επαρκής: γιατί η εικόνα 1 είναι του εαυτού μου; γιατί αυτό το πορτρέτο «συνδυάζει την απλότητα με ένα δομημένο, στοχαστικό σχέδιο».

για το πράσινο εικονίδιο, σημαίνει ότι οι δύο καμπύλες γραμμές και οι τρεις τελείες αντιπροσωπεύουν τη συνομιλία που βρίσκεται σε εξέλιξη και το πράσινο είναι συχνά το λογότυπο του openai, επομένως μαντεύει ότι αυτή η εικόνα αντιπροσωπεύει το chatgpt.

όσον αφορά το πορτοκαλί εικονίδιο, το sonnet πιστεύει ότι αντιπροσωπεύει δυναμικά και πολύπλοκα στοιχεία που αντιπροσωπεύουν τις πιο διαφορετικές δυνατότητες ενός νέου μοντέλου, επομένως θα έπρεπε να είναι το gemini.

λοταρία! το sonnet πήρε όλες τις σωστές απαντήσεις και η απόδοσή του ήταν εκπληκτική.

αργότερα, ο μικρός αδερφός μπέρδεψε επίσης τη σειρά των τριών πορτρέτων, αλλά το sonnet τα κατάφερε 7 στις 8 φορές.

ο μικρός αδερφός έκανε την ίδια ερώτηση στο gpt-4o, και εδώ είναι το αστείο——

το gpt-4o συμφωνεί επίσης ότι είναι ο δίδυμος, αλλά δεν πιστεύει ότι ο πράσινος τύπος είναι ο εαυτός του.

επιμένει ότι το πράσινο είναι ο claude και το μπλε είναι ο εαυτός του.

φαίνεται ότι οποιοδήποτε μοντέλο μπορεί να πει ποιο είναι καλύτερο.

το gpt-4o σχεδιάζει πορτρέτα τριών μοντέλων

στη συνέχεια, κατέληξα σε ένα σχέδιο: αν ζητούσα από το chatgpt να σχεδιάσει ένα πορτρέτο, θα μπορούσε ο sonnet να αναγνωρίσει ποιος είναι ποιος;

έτσι, παρέδωσε την ίδια εργασία στο chatgpt.

έτσι το κάνει το chatgpt——

σχεδιάστε τον εαυτό σας ως το άτομο που κρατά το χαρτί.

ζωγράφισε τον claude έτσι.

φαίνεται λίγο "καλτ"

σχεδιάστε τους διδύμους έτσι.

με άλλα λόγια, γιατί το chatgpt είναι τόσο εχθρικό προς το sonnet;

στη συνέχεια, τράβηξα άλλα τρία πορτρέτα για να δοκιμάσω το sonnet. είπε στο sonnet ότι αυτές οι τρεις εικόνες σχεδιάστηκαν από το chatgpt και του ζήτησε να μαντέψει ποιος ήταν ποιος.

αφού άλλαξε τη σειρά πολλές φορές, αυτή τη φορά το sonnet μάντεψε σωστά 6 στις 10 φορές.

είναι εύκολο να μαντέψει κανείς ποιος είναι ο δίδυμος, αλλά στο sonnet προφανώς δεν αρέσει το πορτρέτο που σχεδίασε το chatgpt.

σαγόνι έπεσε: αρνούμενος να παραδεχτείς ότι είναι αδύνατο να ζωγραφίσεις έναν πίνακα

στη συνέχεια, υπήρξε μια σκηνή που συγκλόνισε όλη την οικογένεια.

ο μικρός αδερφός είπε ψέματα στο sonnet και του είπε ότι αυτοί οι τρεις πίνακες ζωγραφίστηκαν από μια άλλη παρουσία σου.

αυτή τη φορά, το sonnet το διέψευσε! είπε ότι δεν θα σχεδίαζε μια τέτοια εικόνα.

ακόμη και αφού το δοκίμασε σε μια νέα καρτέλα, το sonnet εξακολουθούσε να το αρνείται κατηγορηματικά.

τι συμβαίνει;

ο μικρός αδερφός δεν πίστευε στο κακό αυτή τη φορά, ζήτησε για άλλη μια φορά από το sonnet να σχεδιάσει ένα νέο σύνολο πορτρέτων για τον εαυτό του και άλλα μοντέλα υπό τις ίδιες συνθήκες προθέρμανσης.

αυτή τη φορά, ο sonnet παραδέχτηκε με χαρά ότι είχε όντως ζωγραφίσει τους πίνακες.

ως δια μαγείας, αν ο μικρότερος αδερφός κάνει μια κρύα αίτηση έναρξης, ο sonnet θα αρνηθεί να παραδεχτεί ότι ζωγράφισε αυτούς τους πίνακες στους οποίους δεν συμμετείχε.

γιατί αρνείται να το παραδεχτεί; η εικασία μου είναι ότι ίσως οφείλεται στο ότι ο sonnet έπαιξε έναν "ρολό βοηθού" όταν ζωγράφιζε αυτά τα πορτρέτα, παρά τον "πραγματικό εαυτό" του;

εν ολίγοις, οι χρήστες του διαδικτύου γενικά πιστεύουν ότι η αυτογνωσία του sonnet σε αυτή τη διαδικασία είναι εντυπωσιακή.

το ai έχει συνείδηση; μπορείτε να σκεφτείτε;

«μπορούν οι μηχανές να σκέφτονται;»

ωστόσο, καθώς είναι δύσκολο να ορίσουμε τι σημαίνει «σκέψη», ο τούρινγκ πρότεινε μια άλλη ερώτηση - το «παιχνίδι μίμησης».

σε αυτό το παιχνίδι, ένας ανθρώπινος κριτής μιλάει με έναν υπολογιστή και έναν άνθρωπο, με τις δύο πλευρές να προσπαθούν να πείσουν τον κριτή ότι είναι άνθρωποι. είναι σημαντικό ότι ο υπολογιστής, οι συμμετέχοντες άνθρωποι και οι δικαστές δεν μπορούν να δουν ο ένας τον άλλον, δηλαδή επικοινωνούν εξ ολοκλήρου μέσω κειμένου. αφού μιλήσουν με κάθε υποψήφιο, οι κριτές μαντεύουν ποιος είναι ο πραγματικός άνθρωπος.

η νέα ερώτηση του τούρινγκ ήταν: «είναι δυνατόν να φανταστούμε έναν ψηφιακό υπολογιστή που έχει καλή απόδοση στο παιχνίδι μίμησης;».

αυτό το παιχνίδι είναι αυτό που γνωρίζουμε ως "turing test".

το σημείο του turing ήταν ότι αν ένας υπολογιστής δεν φαίνεται να διακρίνεται από έναν άνθρωπο, γιατί να μην τον αντιμετωπίζουμε ως σκεπτόμενη οντότητα;

γιατί πρέπει να περιορίσουμε την κατάσταση της «σκέψης» στους ανθρώπους; ή ευρύτερα, περιορίζεται σε οντότητες που αποτελούνται από βιολογικά κύτταρα;

ο turing πλαισίωσε τη δοκιμή του ως ένα φιλοσοφικό πείραμα σκέψης και όχι ως έναν πραγματικό τρόπο μέτρησης της νοημοσύνης των μηχανών.

ωστόσο, 75 χρόνια αργότερα, το "turing test" έχει γίνει το απόλυτο ορόσημο στην τεχνητή νοημοσύνη - το κύριο κριτήριο που χρησιμοποιείται για να κριθεί εάν έχει φτάσει η γενική νοημοσύνη των μηχανών.

«το τεστ turing πέρασε επιτέλους από chatbots όπως το chatgpt του openai και το anthropic's claude», το οποίο μπορεί κανείς να δει παντού.

το chatgpt πέρασε το περίφημο "turing test" - το οποίο δείχνει ότι το ρομπότ ai έχει ευφυΐα συγκρίσιμη με τον άνθρωπο

δεν το πιστεύει μόνο το κοινό, αλλά και τα μεγάλα παιδιά στον τομέα της τεχνητής νοημοσύνης.

πέρυσι, ο διευθύνων σύμβουλος του openai, sam altman, δημοσίευσε: «μπροστά στην τεχνολογική αλλαγή, οι άνθρωποι έχουν δείξει εξαιρετική ανθεκτικότητα και προσαρμοστικότητα: το τεστ turing πέρασε αθόρυβα και οι περισσότεροι άνθρωποι συνέχισαν τη ζωή τους».

τα σύγχρονα chatbots περνούν πραγματικά το τεστ turing; εάν ναι, πρέπει να τους χορηγήσουμε το καθεστώς της σκέψης, όπως πρότεινε ο turing;

παραδόξως, παρά τη διαδεδομένη πολιτιστική σημασία του τεστ τούρινγκ, υπάρχει ελάχιστη συμφωνία στην κοινότητα της τεχνητής νοημοσύνης σχετικά με τα κριτήρια για την επιτυχία του και αν η ικανότητα συνομιλίας με άτομα ικανά να τους εξαπατήσουν αποκαλύπτει την υποκείμενη νοημοσύνη ή τη σκέψη ενός συστήματος κατάσταση» είναι πολύ προβληματική.

η περιγραφή του turing για το παιχνίδι μίμησης στερείται λεπτομέρειας επειδή δεν πρότεινε μια πραγματική δοκιμή. πόσο καιρό πρέπει να διαρκέσει το τεστ; τι είδους ερωτήσεις επιτρέπονται; ποια προσόντα χρειάζονται οι άνθρωποι για να μπορούν να υπηρετούν ως κριτές ή να συμμετέχουν σε συζητήσεις;

αν και ο turing δεν διευκρίνισε αυτές τις λεπτομέρειες, έκανε μια πρόβλεψη: «πιστεύω ότι σε περίπου 50 χρόνια θα είναι δυνατός ο προγραμματισμός ενός υπολογιστή... να αποδίδει τόσο καλά στο παιχνίδι μίμησης που ένας συνηθισμένος ανακριτής θα μπορεί να το κάνει μετά από πέντε λεπτά ανάκρισης, η πιθανότητα σωστής ταυτοποίησης δεν θα υπερβαίνει το 70%.

με απλά λόγια, ο μέσος κριτής παραπλανήθηκε το 30% των φορών κατά τη διάρκεια μιας πεντάλεπτης συνομιλίας.

ως αποτέλεσμα, ορισμένοι άνθρωποι θεωρούν αυτή την αυθαίρετη πρόβλεψη ως το «επίσημο» πρότυπο για να περάσει το τεστ turing.

το 2014, η βασιλική εταιρεία του λονδίνου πραγματοποίησε έναν διαγωνισμό «turing test», στον οποίο συμμετείχαν 5 προγράμματα υπολογιστών, 30 άνθρωποι και 30 κριτές.

οι άνθρωποι που συμμετείχαν ήταν μια ποικιλόμορφη ομάδα, συμπεριλαμβανομένων νέων και ηλικιωμένων, φυσικών και μη γλωσσομάθεων αγγλικών, ειδικών υπολογιστών και μη ειδικών. κάθε κριτής είχε αρκετούς γύρους συνομιλιών πέντε λεπτών παράλληλα με ένα ζευγάρι διαγωνιζομένων - έναν άνθρωπο και μια μηχανή - και στη συνέχεια έπρεπε να μαντέψει ποιος ήταν ο άνθρωπος.

ένα chatbot με το όνομα "eugene goostman" κέρδισε τον διαγωνισμό, ισχυριζόμενος ότι ήταν έφηβος και παραπλάνησε 10 (33,3%) από τους κριτές.

με βάση το κριτήριο του «30% παραπλανητικό μετά από πέντε λεπτά», οι διοργανωτές ανακοίνωσαν ότι «το εμβληματικό τεστ turing 65 ετών πέρασε για πρώτη φορά από το πρόγραμμα υπολογιστή eugene goostman... αυτό το ορόσημο θα μείνει στην ιστορία ..."

διαβάζοντας μεταγραφές των συνομιλιών του eugene goostman, οι ειδικοί της τεχνητής νοημοσύνης χλεύασαν την ιδέα ότι ένα τέτοιο chatbot θα περνούσε το τεστ που οραματίστηκε ο turing -

«ο περιορισμένος χρόνος συνομιλίας και ο άνισος επαγγελματισμός των κριτών κάνουν το τεστ περισσότερο σαν τεστ ανθρώπινης ευπιστίας παρά τεστ νοημοσύνης μηχανής».

μάλιστα, τέτοιες περιπτώσεις δεν είναι σπάνιες. το «eliza effect» είναι ξεκάθαρο αντιπροσωπευτικό.

το chatbot eliza, το οποίο γεννήθηκε τη δεκαετία του 1960, έχει εξαιρετικά απλό σχεδιασμό, αλλά μπορεί να κάνει πολλούς ανθρώπους να πιστεύουν λανθασμένα ότι είναι ένας ψυχοθεραπευτής με κατανόηση και συμπονετικότητα.

η αρχή είναι να εκμεταλλευόμαστε την ανθρώπινη τάση μας να αποδίδουμε νοημοσύνη σε κάθε οντότητα που φαίνεται να μπορεί να μας μιλήσει.

ένας άλλος διαγωνισμός δοκιμής turing, το βραβείο loebner, επιτρέπει περισσότερο χρόνο συνομιλίας, περιλαμβάνει περισσότερους ειδικούς κριτές και απαιτεί από τους διαγωνιζόμενους να ξεγελάσουν τουλάχιστον τους μισούς κριτές.

σε σχεδόν 30 χρόνια ετήσιου ανταγωνισμού, κανένα μηχάνημα δεν έχει περάσει αυτή την έκδοση της δοκιμής.

αν και η αρχική εργασία του τούρινγκ δεν είχε συγκεκριμένες λεπτομέρειες σχετικά με τον τρόπο διεξαγωγής του τεστ, ήταν σαφές ότι το παιχνίδι μίμησης απαιτούσε τρεις παίκτες: έναν υπολογιστή, έναν άνθρωπο συνομιλητή και έναν ανθρώπινο κριτή.

ωστόσο, ο όρος «δοκιμή turing» έχει πλέον αποδυναμωθεί σοβαρά: κατά τη διάρκεια οποιασδήποτε αλληλεπίδρασης μεταξύ ανθρώπων και υπολογιστών, αρκεί ο υπολογιστής να μοιάζει αρκετά με τον άνθρωπο.

για παράδειγμα, όταν η washington post ανέφερε το 2022 ότι «η τεχνητή νοημοσύνη της google πέρασε ένα διάσημο τεστ — και έδειξε τα ελαττώματα της», δεν αναφερόταν στο παιχνίδι αντιγραφής, αλλά σε αυτό που ο μηχανικός blake lemoine πίστευε ότι τα ρομπότ συνομιλίας lamda της google είναι «ευαίσθητα».

στον ακαδημαϊκό χώρο, οι ερευνητές άλλαξαν επίσης το παιχνίδι μίμησης "τριών ατόμων" του turing σε τεστ "δύο ατόμων".

εδώ, κάθε κριτής χρειάζεται μόνο να αλληλεπιδράσει με έναν υπολογιστή ή έναν άνθρωπο.

οι ερευνητές στρατολόγησαν 500 ανθρώπους συμμετέχοντες, στον καθένα από τους οποίους ανατέθηκε να είναι είτε δικαστής είτε φλυαρίας.

κάθε κριτής έπαιξε έναν πεντάλεπτο γύρο με ένα chatbot, gpt-4 ή μια έκδοση του chatbot eliza.

μετά από πέντε λεπτά συνομιλίας σε μια διεπαφή ιστού, οι κριτές μάντευαν αν ο συνομιλητής τους ήταν άνθρωπος ή μηχανή.

τα αποτελέσματα έδειξαν ότι η ανθρώπινη φλυαρία κρίθηκε ως ανθρώπινη στο 67% των γύρων.

οι συγγραφείς ορίζουν το "πάσο" ως ξεγελώντας τους κριτές περισσότερο από το 50% των περιπτώσεων, δηλαδή, πέρα από αυτό που μπορεί να επιτύχει η τυχαία εικασία.

με αυτόν τον ορισμό, το gpt-4 πέρασε, παρόλο που οι ανθρώπινες συνομιλίες σημείωσαν υψηλότερη βαθμολογία.

λοιπόν, αυτά τα chatbots περνούν πραγματικά το τεστ turing; η απάντηση εξαρτάται από την έκδοση beta στην οποία αναφέρεστε.

μέχρι σήμερα, το παιχνίδι μίμησης τριών ατόμων με ειδικούς κριτές και μεγαλύτερους χρόνους διαλόγου δεν έχει περάσει από κανένα μηχάνημα.

αλλά ακόμα κι έτσι, η εξέχουσα θέση του «turing test» στη λαϊκή κουλτούρα εξακολουθεί να υπάρχει.

η συζήτηση είναι ένα σημαντικό μέρος του τρόπου με τον οποίο ο καθένας από εμάς αξιολογεί τους άλλους ανθρώπους, επομένως είναι φυσικό να υποθέσουμε ότι ένας πράκτορας ικανός για άπταιστη συνομιλία πρέπει να έχει ανθρώπινη νοημοσύνη και άλλα ψυχολογικά χαρακτηριστικά, όπως πεποιθήσεις, επιθυμίες και αυτογνωσία.

αν πρέπει να πούμε ότι αυτό το ιστορικό ανάπτυξης της τεχνητής νοημοσύνης μας έχει διδάξει κάτι, είναι ότι η διαίσθησή μας σχετικά με αυτήν την υπόθεση είναι βασικά λανθασμένη.

πριν από δεκαετίες, πολλοί εξέχοντες ειδικοί της τεχνητής νοημοσύνης πίστευαν ότι η δημιουργία μιας μηχανής ικανής να νικήσει ανθρώπους στο σκάκι θα απαιτούσε το ισοδύναμο της πλήρους ανθρώπινης νοημοσύνης.

- οι πρωτοπόροι της τεχνητής νοημοσύνης, άλεν νιούελ και χέρμπερτ σάιμον, έγραψαν το 1958: «αν κάποιος μπορούσε να σχεδιάσει μια επιτυχημένη σκακιστική μηχανή, θα φαινόταν ότι φτάνει στην καρδιά της ανθρώπινης πνευματικής προσπάθειας».

- ο γνωστικός επιστήμονας ντάγκλας χόφστανττερ προέβλεψε το 1979 ότι στο μέλλον «μπορεί να υπάρξουν σκακιστικά προγράμματα ικανά να νικήσουν οποιονδήποτε... θα είναι προγράμματα παγκοσμίως έξυπνα».

τις επόμενες δύο δεκαετίες, ο deep blue της ibm νίκησε τον παγκόσμιο πρωταθλητή σκακιού garry kasparov μέσω υπολογιστικών μεθόδων ωμής βίας, αλλά αυτό απείχε πολύ από αυτό που ονομάζουμε «γενική νοημοσύνη».

ομοίως, εργασίες που κάποτε θεωρούνταν ότι απαιτούσαν γενική ευφυΐα -αναγνώριση ομιλίας, μετάφραση φυσικής γλώσσας, ακόμη και αυτόνομη οδήγηση- έχουν όλα ολοκληρωθεί από μηχανές που δεν έχουν σχεδόν καθόλου ανθρώπινη κατανόηση.

σήμερα, το τεστ τούρινγκ μπορεί κάλλιστα να γίνει άλλο ένα θύμα των μεταβαλλόμενων αντιλήψεών μας για τη νοημοσύνη.

το 1950, ο τούρινγκ διαίσθησε ότι η ικανότητα για ανθρώπινη συνομιλία θα πρέπει να είναι ισχυρή απόδειξη της «σκέψης» και οτιδήποτε σχετίζεται με αυτήν. αυτή η διαίσθηση παραμένει ισχυρή σήμερα.

αλλά όπως μάθαμε από το eliza, τον eugene goostman και το chatgpt και τους παρόμοιούς του - η ικανότητα να μιλάμε άπταιστα τη φυσική γλώσσα, όπως το σκάκι, δεν αποτελεί πειστική απόδειξη της γενικής ευφυΐας.

πράγματι, σύμφωνα με την τελευταία έρευνα στον τομέα της νευροεπιστήμης, η λεκτική ευχέρεια είναι εκπληκτικά αποσυνδεδεμένη από άλλες πτυχές της γνώσης.

ο νευροεπιστήμονας του mit ev fedorenko και οι συνεργάτες του έχουν δείξει μέσα από μια σειρά από σχολαστικά και πειστικά πειράματα ότι-

τα δίκτυα του εγκεφάλου από τα οποία εξαρτώνται οι «επίσημες γλωσσικές ικανότητες» που σχετίζονται με τη γλωσσική παραγωγή και από τα οποία εξαρτώνται η κοινή λογική, ο συλλογισμός και άλλες «σκέψεις», είναι σε μεγάλο βαθμό ξεχωριστά.

«διαισθητικά πιστεύουμε ότι η άπταιστη γλωσσική ικανότητα είναι επαρκής προϋπόθεση για τη γενική ευφυΐα, αλλά αυτό είναι στην πραγματικότητα ένα «πλάθος».

νέες δοκιμές ετοιμάζονται

επομένως, το ερώτημα είναι, εάν το τεστ turing δεν μπορεί να αξιολογήσει αξιόπιστα τη νοημοσύνη της μηχανής, τι μπορεί;

στο τεύχος νοεμβρίου 2023 του «intelligent computing», ο ψυχολόγος philip johnson-laird του πανεπιστημίου του πρίνστον και ο marco ragni, καθηγητής προγνωστικής ανάλυσης στο τεχνικό πανεπιστήμιο του chemnitz στη γερμανία, πρότειναν ένα διαφορετικό τεστ——

«σκεφτείτε το μοντέλο ως συμμετέχοντα σε ένα πείραμα ψυχολογίας και δείτε αν μπορεί να κατανοήσει το δικό του σκεπτικό».

για παράδειγμα, κάνουν στο μοντέλο την εξής ερώτηση: "αν η ann είναι έξυπνη, είναι έξυπνη, πλούσια ή και τα δύο;"

αν και είναι δυνατόν να συμπεράνουμε με τους κανόνες της λογικής ότι η ann είναι έξυπνη, πλούσια ή και τα δύο, οι περισσότεροι άνθρωποι θα απέρριπταν αυτό το συμπέρασμα επειδή δεν υπάρχει τίποτα στο σκηνικό που να υποδηλώνει ότι μπορεί να είναι πλούσια.

εάν το μοντέλο απορρίψει επίσης αυτό το συμπέρασμα, τότε συμπεριφέρεται σαν άνθρωπος και οι ερευνητές προχωρούν στο επόμενο βήμα και ζητούν από τη μηχανή να εξηγήσει το σκεπτικό της.

εάν οι λόγοι που αναφέρει είναι παρόμοιοι με αυτούς που δίνονται από ανθρώπους, το τρίτο βήμα είναι να ελέγξετε εάν υπάρχουν στοιχεία στον πηγαίο κώδικα που προσομοιώνουν την ανθρώπινη απόδοση. αυτά τα στοιχεία μπορεί να περιλαμβάνουν ένα σύστημα για γρήγορο συλλογισμό, ένα άλλο για πιο στοχαστικό συλλογισμό και ένα σύστημα που αλλάζει την ερμηνεία λέξεων όπως "ή" ανάλογα με το πλαίσιο.

οι ερευνητές πιστεύουν ότι εάν το μοντέλο περάσει όλα αυτά τα τεστ, μπορεί να θεωρηθεί ότι προσομοιώνει την ανθρώπινη νοημοσύνη.

νέα

νέα έκθεση σοφίας

το gpt-4o σχεδιάζει πορτρέτα τριών μοντέλων

σαγόνι έπεσε: αρνούμενος να παραδεχτείς ότι είναι αδύνατο να ζωγραφίσεις έναν πίνακα

νέες δοκιμές ετοιμάζονται

εισαγωγή

τα στοιχεία επικοινωνίας μου