Το Q* του OpenAI δεν έχει ξαναδεί, αλλά το Q* από διάφορες εταιρείες startup είναι εδώ

Το Q* του OpenAI δεν έχει δει ποτέ πριν, αλλά το Q* από μια σειρά startup εταιρειών είναι εδώ

2024-07-31

Πόσο μακριά είμαστε από την τεχνητή νοημοσύνη που μπορεί να «σκέφτεται αργά»;

Συγγραφέας: Στέφανι Παλατσόλο

Συλλογή |

Συντάκτης｜Jingyu

Πέρυσι, πριν και μετά την προσωρινή απόλυση του Sam Altman, οι ερευνητές του OpenAI έστειλαν κοινή επιστολή στο διοικητικό συμβούλιο, επισημαίνοντας ότι το μυστηριώδες έργο με την κωδική ονομασία Q μπορεί να απειλήσει όλη την ανθρωπότητα. Το OpenAI αναγνώρισε το Q* σε μια επόμενη εσωτερική επιστολή προς τους υπαλλήλους και περιέγραψε το έργο ως ένα «υπεράνθρωπο αυτόνομο σύστημα».

Αν και το Q* δεν έχει δει ακόμα, υπάρχουν πάντα φήμες για αυτό στον κόσμο.

Ο Lu Yifeng, ανώτερος μηχανικός στο Google DeepMind, έκανε μια εικασία για το Geek Park από επαγγελματική σκοπιά: Το μοντέλο πρέπει να συνειδητοποιήσει ποια προβλήματα δεν είναι σίγουρο και τι πρέπει να κάνει στη συνέχεια. Αυτή τη στιγμή, το μοντέλο μπορεί να χρειαστεί να σερφάρει στο Διαδίκτυο, να διαβάσει βιβλία, να κάνει πειράματα, να σκεφτεί κάποιες ανεξήγητες ιδέες και να συζητήσει με άλλους όπως ανθρώπους.

Φέτος, όταν κάνω ερωτήσεις στις εφαρμογές βοηθού τεχνητής νοημοσύνης μεγάλων κατασκευαστών μοντέλων, αισθάνομαι ότι οι απαντήσεις είναι πιο αξιόπιστες από πέρυσι, πολλοί κατασκευαστές είπαν επίσης ότι εργάζονται σκληρά για να κάνουν τα μοντέλα να σκεφτούν περισσότερο και να βελτιωθούν περαιτέρω τις συλλογιστικές τους ικανότητες. Πώς είναι η πρόοδος μέχρι στιγμής;

Σχετικά με τα παραπάνω ζητήματα, η δημοσιογράφος του The Information Stephanie Palazzolo, στο άρθρο «How OpenAI's Smaller Rivals Are Developing The Own AI That 'Reasons'», συζήτησε τα υπάρχοντα μοντέλα startup εταιρειών για τη βελτίωση των δυνατοτήτων συλλογιστικής μοντέλων, συμπεριλαμβανομένης της κινεζικής εταιρείας Q*. Διοργανώνεται από το Geek Park, έχει ως εξής:

Μικρότεροι ανταγωνιστές του OpenAI

Αναπτύξτε τη δική σας «συλλογιστική» AI

Εξαιρουμένων των φυσαλίδων, το πόσο χρήσιμο είναι αυτό το κύμα τεχνητής νοημοσύνης είναι ένα θέμα που έχει επανειλημμένα εξεταστεί φέτος στο προσκήνιο.

Η αρχή του μεγάλου μοντέλου είναι να δημιουργεί μονάδες λέξεων μία προς μία με βάση την πρόβλεψη πιθανοτήτων, αλλά η παπαγαλία των λέξεων με βάση το σώμα που τροφοδοτείται κατά τη διάρκεια της εκπαίδευσης και η δημιουργία παραισθήσεων όταν αντιμετωπίζετε ερωτήσεις που δεν έχουν ξαναδεί, προφανώς δεν είναι αυτό που όλοι αναμένει. Η περαιτέρω βελτίωση των συλλογιστικών ικανοτήτων του μοντέλου έχει γίνει βασικό.

Από αυτή την άποψη, δεν έχουμε δει ακόμη πρόοδο από το OpenAI και την Google, αλλά ορισμένες νεοσύστατες επιχειρήσεις και άτομα λένε ότι έχουν βρει κάποιες «φτηνές» μεθόδους (φτηνές αμυχές) για να επιτύχουν ορισμένες μορφές συλλογιστικής τεχνητής νοημοσύνης.

Αυτές οι συντομεύσεις περιλαμβάνουν τη διάσπαση ενός σύνθετου προβλήματος σε πιο απλά βήματα και την υποβολή δεκάδων πρόσθετων ερωτήσεων στο μοντέλο για να το βοηθήσουν να αναλύσει αυτά τα βήματα.

Για παράδειγμα, όταν ζητείται να συντάξει μια ανάρτηση ιστολογίου σχετικά με ένα νέο προϊόν, η εφαρμογή AI ενεργοποιεί αυτόματα πρόσθετα ερωτήματα, όπως ζητώντας από το μεγάλο μοντέλο να αξιολογήσει τις απαντήσεις του και τους τομείς προς βελτίωση. Φυσικά, στη διεπαφή χρήστη, δεν μπορείτε να δείτε αυτές τις ενέργειες που εκτελούνται από το μοντέλο στο παρασκήνιο.

Αυτό είναι παρόμοιο με τη σωκρατική μέθοδο διδασκαλίας των μαθητών να σκέφτονται κριτικά για τις πεποιθήσεις ή τα επιχειρήματά τους. Ο τελευταίος υιοθετεί μια μέθοδο διδασκαλίας με ερωτήσεις και απαντήσεις, όταν επικοινωνεί με τους μαθητές, ο Σωκράτης δεν θα δίνει απευθείας απαντήσεις, αντίθετα, θα καθοδηγεί τους μαθητές να ανακαλύψουν μόνοι τους προβλήματα και να αποκαλύπτουν τις αντιφάσεις και τις ελλείψεις στις απόψεις τους. , και σταδιακά διορθώστε το για να βγάλετε το σωστό συμπέρασμα.

Με αυτόν τον σύνδεσμο, η εφαρμογή AI μπορεί να ζητήσει από το μεγάλο μοντέλο να ξαναγράψει την παραπάνω ανάρτηση ιστολογίου, λαμβάνοντας υπόψη τα σχόλια που μόλις έδωσε κατά τη σύνταξη. Αυτή η διαδικασία ονομάζεται συχνά προβληματισμός και ένας επιχειρηματίας εφαρμογών AI είπε ότι συχνά οδηγεί σε καλύτερα αποτελέσματα.

Εκτός από την αναστοχαστική προσέγγιση, οι προγραμματιστές μπορούν επίσης να ακολουθήσουν την Google και να δοκιμάσουν Μια τεχνική που ονομάζεται δειγματοληψία. Κατά τη δειγματοληψία, οι προγραμματιστές βελτιώνουν την ικανότητα μεγάλων μοντέλων να παράγουν δημιουργικές και τυχαίες απαντήσεις θέτοντας την ίδια ερώτηση δεκάδες ή και 100 φορές και, στη συνέχεια, επιλέγοντας την καλύτερη απάντηση.

Για παράδειγμα, μια εφαρμογή βοηθού προγραμματισμού μπορεί να ζητήσει από ένα μεγάλο μοντέλο να δώσει 100 διαφορετικές απαντήσεις στην ίδια ερώτηση και, στη συνέχεια, η εφαρμογή εκτελεί όλα αυτά τα αποσπάσματα κώδικα. Η τελική εφαρμογή βοηθού προγραμματισμού θα επιλέξει τον κωδικό που παράγει τη σωστή απάντηση και θα επιλέξει αυτόματα τον πιο συνοπτικό κώδικα.

Η Meta τόνισε κάποιες παρόμοιες τεχνικές στην πρόσφατη εργασία της στο Llama 3.

Αλλά αυτή η λύση - το να καλέσετε ένα μοντέλο μεγάλης γλώσσας 100 φορές ή να του ζητήσετε να εξάγει τόσο πολύ κείμενο και κώδικα - είναι εξαιρετικά αργή και δαπανηρή. Αυτός είναι πιθανώς ο λόγος που ορισμένοι προγραμματιστές επέκριναν τον βοηθό προγραμματισμού που δημιούργησε η Cognition, μια startup που χρησιμοποιεί αυτές τις τεχνολογίες, για την αργή απόδοσή του.

Οι προγραμματιστές έχουν επίσης δει αυτό το πρόβλημα και προσπαθούν να το λύσουν.ο τρόπος είναιΕπιλέξτε παραδείγματα του μοντέλου που δείχνουν καλή συλλογιστική ικανότητα για ένα συγκεκριμένο πρόβλημα και «τροφοδοτήστε» τα πίσω στο μοντέλοδεδομένα εκπαίδευσηςΕπικεντρωθείτε στην επίλυση αυτού του προβλήματος. Όπως είπε ένας επιχειρηματίας, αυτή η προσέγγιση είναι παρόμοια με την εκμάθηση των πινάκων πολλαπλασιασμού στο δημοτικό σχολείο. Αρχικά, οι μαθητές μπορεί να χρειαστεί να υπολογίσουν χειροκίνητα κάθε πρόβλημα πολλαπλασιασμού. Αλλά με τον καιρό, και απομνημονεύουν αυτούς τους πίνακες πολλαπλασιασμού, οι απαντήσεις σχεδόν γίνονται μέρος της διαίσθησης του μαθητή.

Για να αναπτύξουν αυτό το είδος AI, οι προγραμματιστές χρειάζονται έλεγχο σε μεγάλα μοντέλα. Αλλά είναι δύσκολο να αποκτήσετε μια αίσθηση ελέγχου από τα μοντέλα κλειστού κώδικα του OpenAI ή του Anthropic, επομένως είναι πιο πιθανό να χρησιμοποιήσουν ένα μοντέλο ανοιχτού βάρους όπως το Llama 3 (το ανοιχτό βάρος είναι ένας όρος στον κόσμο ανοιχτού κώδικα, που σημαίνει κώδικας με υψηλό βαθμό διαφάνειας).

Οι παραπάνω δύο μέθοδοι μπορεί να είναι οι τεχνολογίες που χρησιμοποιεί το OpenAI πίσω από την ανακάλυψη του στη συλλογιστική. Φυσικά, το OpenAI δεν έχει κυκλοφορήσει ακόμη το Q*, το οποίο είναι γνωστό και ως έργο «Strawberry».

Q* Κίνας

Κινέζοι προγραμματιστές και ερευνητές κατακτούν επίσης σταδιακά αυτές τις τεχνολογίες.

Ερευνητές από το Skywork AI της Κίνας και το Τεχνολογικό Πανεπιστήμιο Nanyang δημοσίευσαν μια εργασία για αυτό το θέμα τον Ιούνιο του τρέχοντος έτους. Σε αυτό το άρθρο, ονόμασαν επίσης την τεχνολογία Q* προς τιμήν μιας έκδοσης του OpenAI που δεν είχαν ξαναδεί.

Η τεχνολογία Q* της Κίνας επιτρέπει σε μεγάλα μοντέλα να λύνουν προβλήματα με πολλαπλά βήματα, όπως πολύπλοκα λογικά παζλ.

ο τρόπος είναι«Αναζήτηση» σε κάθε βήμα της απάντησης για το καλύτερο επόμενο βήμα που θα έπρεπε να δοκιμάσει το μεγάλο μοντέλο, αντί να ακολουθήσει τα βήματα για να καταλήξει σε συμπέρασμα (αυτή η μέθοδος είναι επίσης γνωστή ως αναζήτηση δέντρου Monte Carlo και χρησιμοποιήθηκε νωρίτερα στο Google AlphaGo) . Αυτό επιτυγχάνεται μέσω μιας ειδικής εξίσωσης που ονομάζεται μοντέλο Q-value που βοηθά το μεγάλο μοντέλο να εκτιμήσει τη μελλοντική ανταμοιβή κάθε πιθανού επόμενου βήματος — ή την πιθανότητα η τελική απάντηση να είναι σωστή.

Οι ερευνητές λένε ότι σκοπεύουν να κυκλοφορήσουν δημόσια την τεχνολογία αυτό το φθινόπωρο.

Ο Alex Graveley, Διευθύνων Σύμβουλος της Minion AI, μιας έξυπνης startup πράκτορα και ο πρώην επικεφαλής αρχιτέκτονας του GitHub Copilot, είπε ότι ακόμα προσπαθούν Διδάξτε το γλωσσικό μοντέλο να πηγαίνει ένα βήμα πίσω όταν συνειδητοποιεί ότι κάτι πήγε στραβά.Ισχυρίζεται ότι αυτή η επίγνωση μπορεί να συμβεί όταν ένα μεγάλο μοντέλο παράγει μια λανθασμένη απάντηση ή του ζητείται να σκεφτεί τα ενδιάμεσα βήματα του (παρόμοιο με το παράδειγμα στην παραπάνω ανάρτηση ιστολογίου), συνειδητοποιώντας ότι είχε γίνει ένα λάθος.

Υπάρχουν περισσότερες προσπάθειες στον κλάδο, συμπεριλαμβανομένης της εργασίας "Quiet-STaR" που δημοσιεύθηκε από το Πανεπιστήμιο Stanford και το Notbad AI τον Μάρτιο. Ακριβώς όπως οι άνθρωποι σταματούν για να σκεφτούν τις σκέψεις τους πριν μιλήσουν ή γράψουν, αυτό το άρθρο εξηγεί πώς να διδάξουν μεγάλα γλωσσικά μοντέλα για να δημιουργήσουν πληροφορίες σχετικά με τα εσωτερικά βήματα «σκέψης» που κάνουν σε πολύπλοκα προβλήματα συλλογισμού για να τους βοηθήσουν να λάβουν καλύτερες αποφάσεις.

Η τεχνολογία Q*/Strawberry του OpenAI μπορεί να έχει ένα προβάδισμα, αλλά όλοι οι άλλοι φαίνεται να αγωνίζονται για να καλύψουν τη διαφορά.

*Πηγή εικόνας κεφαλής: GulfNews

ρώτησε ο Γκικ

Νομίζεις ότι είμαστε πολύ μακριά

Πόσο μακριά είναι η τεχνητή νοημοσύνη που μπορεί να κάνει «αργή σκέψη»;

Πραγματική μέτρηση της εγγραφής κλήσεων iOS 18.1 beta, το τηλέφωνο Android μπορεί ακόμα να λαμβάνει προτροπές εγγραφής.

Κάντε like και followΛογαριασμός βίντεο Geek Park，

Νέα

Το Q* του OpenAI δεν έχει δει ποτέ πριν, αλλά το Q* από μια σειρά startup εταιρειών είναι εδώ

Εισαγωγή

τα στοιχεία επικοινωνίας μου