η ομάδα του χρυσού μεταλλίου o1 αποκαλύπτει την εκπληκτική στιγμή που η τεχνητή νοημοσύνη ξεπερνά τους ανθρώπους! το πλήρες βίντεο διάρκειας 22 λεπτών δημοσιεύεται στο public

η ομάδα του χρυσού μεταλλίου o1 αποκαλύπτει την εκπληκτική στιγμή που η τεχνητή νοημοσύνη ξεπερνά τους ανθρώπους! η πλήρης έκδοση του βίντεο διάρκειας 22 λεπτών είναι πλέον ανοιχτή στο κοινό

2024-09-22

νέα έκθεση σοφίας

επιμέλεια: tao zi qiao yang

[εισαγωγή στη νέα σοφία】η γέννηση του o1 είναι η πιο επαναστατική στιγμή για την ομάδα openai. στο πλήρες βίντεο της συνέντευξης διάρκειας 22 λεπτών, μοιράστηκαν τις σκέψεις τους για το νέο μοντέλο και την ιστορία ανάπτυξης πίσω από αυτό.

το πλήρες βίντεο της συνέντευξης με την ομάδα του openai o1 είναι επιτέλους online!

για 22 λεπτά, η ομάδα έρευνας & ανάπτυξης o1, που οργανώθηκε από το project bob mcgrew, μοιράστηκαν μια «αχα» στιγμή μαζί.

κάποιοι ανέφεραν ότι το νέο μοντέλο o1 ισοδυναμεί με τη «σύντηξη» πολλών γιατρών και συχνά αποδίδει καλύτερα από τους ανθρώπους. κάποιοι είπαν ότι μετά την κυκλοφορία του o1 ένιωσαν ξεκάθαρα την άφιξη του agi.

«όταν τα μοντέλα ξεπερνούν τους ανθρώπους σε τομείς όπως τα μαθηματικά, η κωδικοποίηση, το go και το σκάκι, το μέλλον του agi γίνεται πιο ξεκάθαρο».

ο nathan lambert, ένας επιστήμονας από το ινστιτούτο allen, έκανε μια περίληψη των σημαντικότερων στιγμών αυτού του βίντεο.

υπάρχουν 8 βαθμοί συνολικά:

το 1 o1 με την ενισχυτική μάθηση είναι καλύτερο από τους ανθρώπους στην ανακάλυψη νέων συλλογιστικών βημάτων cot

2 η εμφάνιση της αυτοκριτικής είναι η πιο δυνατή στιγμή του o1

3 αφήστε το o1 να ολοκληρώσει την απάντηση πριν από το "timeout" και μετά ξαφνικά να έχει τη στιγμή "aha".

4. η πρόκληση της κλιμάκωσης μεγεθών παραμέτρων και η συνέχιση της πορείας της προώθησης των αλγορίθμων ενισχυτικής μάθησης

5 πολλοί ανέφεραν πόσο σημαντική είναι η υποδομή σε σύγκριση με τους αλγόριθμους

6 μέσω του σχεδιασμού και της διόρθωσης σφαλμάτων, το o1 μπορεί να λύσει νέα προβλήματα στον κόσμο

7 το νέο πρότυπο εκπαίδευσης είναι μια εντελώς νέα προσέγγιση που δίνει περισσότερη υπολογιστική ισχύ στο μοντέλο

8 o1όταν γράφετε κώδικα, όταν εξάγει τον κωδικό που θα χρησιμοποιηθεί, πρέπει να περάσει τη δοκιμή μονάδας

στη συνέχεια, ας ρίξουμε μια πιο προσεκτική ματιά στην ιστορία πίσω από το μοντέλο o1.

ενισχυτική μάθηση + σκέψη, o1 ανοίγει ένα νέο παράδειγμα

ως νέα σειρά openai, η μεγαλύτερη διαφορά μεταξύ του o1 και του μοντέλου gpt βρίσκεται στο συμπέρασμα.

ουσιαστικά είναι ένα συλλογιστικό μοντέλο, που σημαίνει ότι θα «σκέφτεται» περισσότερο από πριν.

σύμφωνα με ερευνητές του openai, η «σκέψη» είναι ο πιο διαισθητικός τρόπος συλλογισμού.

μερικές φορές, όταν μας ρωτούν ποια είναι η πρωτεύουσα της ιταλίας, μπορούμε να βρούμε την απάντηση σχεδόν αμέσως, χωρίς καν να σκεφτούμε. αλλά μερικές φορές, όταν πρόκειται για επαγγελματικά σχέδια, συγγραφή μυθιστορημάτων κ.λπ., απαιτεί μια μακρά διαδικασία σκέψης.

περιττό να πούμε ότι όσο περισσότερο το σκέφτεστε, τόσο καλύτερα θα είναι τα αποτελέσματα.

επομένως, ο συλλογισμός είναι η ικανότητα μετατροπής του χρόνου σκέψης σε βέλτιστα αποτελέσματα.

σύμφωνα με τα λόγια του mark chen, ο συλλογισμός είναι μια «πρωτόγονη» και ο μόνος τρόπος για να επιτευχθεί οποιαδήποτε αξιόπιστη διαδικασία σκέψης.

όσον αφορά την έρευνα συμπερασμάτων, το openai ξεκίνησε στην πραγματικότητα πολύ νωρίς. στις πρώτες μέρες της ίδρυσής του, είδαν τις δυνατότητες του alphago να νικήσει τους ανθρώπους μέσω των αλγορίθμων rl και έκαναν πολλή έρευνα.

για παράδειγμα, άνοιξαν την πλατφόρμα δοκιμών παιχνιδιών «universe» το 2016, η οποία είναι μια πλατφόρμα ανοιχτού κώδικα για την εκπαίδευση του γενικού επιπέδου νοημοσύνης της ai.

το 2018, δημιουργήθηκε ένα παιχνίδι ai με το όνομα openai five, το οποίο νίκησε επιτυχώς την παγκόσμια πρωταθλήτρια ομάδα og στο δύο φορές international invitational tournament dota2.

ταυτόχρονα, έχει σημειωθεί σημαντική πρόοδος κλιμάκωσης στους τομείς των δεδομένων και της ρομποτικής.

η ομάδα του openai άρχισε να σκέφτεται: πώς να εφαρμόσετε την ενισχυτική μάθηση σε γενικούς τομείς και να επιτύχετε μια πολύ ισχυρή τεχνητή νοημοσύνη;

δηλαδή, το νέο παράδειγμα που άνοιξε η σειρά gpt. έχει επιτύχει εκπληκτικά αποτελέσματα στην κλιμάκωση της μάθησης χωρίς επίβλεψη.

και, από τότε, οι ερευνητές άρχισαν να διερευνούν πώς να συνδυάσουν αυτά τα δύο παραδείγματα - την ενισχυτική μάθηση και τη μάθηση χωρίς επίβλεψη.

είναι δύσκολο να πούμε ακριβώς πότε ξεκίνησε η προσπάθεια, αλλά ήταν στα σκαριά εδώ και πολύ καιρό, είπαν οι ερευνητές.

"αχα" στιγμή

στο βίντεο, κάποιος είπε ότι πίστευαν ότι το πιο ωραίο πράγμα στην έρευνα ήταν η στιγμή "αχα".

σε μια συγκεκριμένη χρονική στιγμή, μια απροσδόκητη σημαντική ανακάλυψη συνέβη στην έρευνα και όλα έγιναν ξαφνικά ξεκάθαρα, σαν θεοφάνεια.

λοιπόν, τι είδους «αχα» στιγμές βίωσαν τα μέλη της ομάδας;

κάποιος είπε ότι ένιωθε ότι υπήρχε μια κρίσιμη στιγμή στη διαδικασία εκπαίδευσης του μοντέλου, η οποία ήταν όταν επένδυσαν περισσότερη υπολογιστική ισχύ από πριν και δημιούργησαν ένα πολύ συνεκτικό cot για πρώτη φορά.

αυτή τη στιγμή, όλοι ήταν ευχάριστα έκπληκτοι: ήταν προφανές ότι αυτό το μοντέλο ήταν σημαντικά διαφορετικό από το προηγούμενο.

άλλοι είπαν ότι όταν σκέφτεστε να εκπαιδεύσετε ένα μοντέλο με συλλογιστικές ικανότητες, το πρώτο πράγμα που έρχεται στο μυαλό είναι να αφήσετε τους ανθρώπους να καταγράφουν τις διαδικασίες σκέψης τους και να εκπαιδεύονται ανάλογα.

για αυτόν, η στιγμή ήταν όταν ανακάλυψε ότι η εκπαίδευση ενός μοντέλου μέσω της ενισχυτικής μάθησης για τη δημιουργία και τη βελτιστοποίηση του cot ήταν ακόμη καλύτερη από την cot που γράφτηκε από ανθρώπους.

αυτή η στιγμή δείχνει ότι μπορούμε να επεκτείνουμε και να εξερευνήσουμε τις συλλογιστικές δυνατότητες του μοντέλου με αυτόν τον τρόπο.

αυτός ο ερευνητής είπε ότι έχει εργαστεί σκληρά για να βελτιώσει την ικανότητα του μοντέλου να λύνει μαθηματικά προβλήματα.

προς απογοήτευσή του, το μοντέλο δεν φαινόταν ποτέ να αμφισβητεί τι είχε κάνει λάθος κάθε φορά που δημιουργούσε ένα αποτέλεσμα.

ωστόσο, όταν εκπαίδευαν ένα από τα πρώτα μοντέλα o1, εξεπλάγησαν όταν διαπίστωσαν ότι η βαθμολογία του μοντέλου στο τεστ μαθηματικών βελτιώθηκε ξαφνικά σημαντικά.

επιπλέον, οι ερευνητές μπορούν να δουν την ερευνητική διαδικασία του μοντέλου - αρχίζει να αναλογίζεται τον εαυτό του και να αμφισβητεί τον εαυτό του.

αναφώνησε: επιτέλους φτιάξαμε κάτι διαφορετικό!

αυτό το συναίσθημα ήταν εξαιρετικά δυνατό και εκείνη τη στιγμή όλα έμοιαζαν να ενώνονται.

ένας άλλος ερευνητής είπε ότι όταν ζητάτε από το μοντέλο να ολοκληρώσει τη σκέψη του πριν από το "timeout", η διαδικασία είναι πολύ ενδιαφέρουσα.

είναι σαν να συμμετέχεις σε έναν μαθηματικό διαγωνισμό οποιαδήποτε σκέψη είναι χρονικά περιορισμένη.

είπε ότι αυτός ήταν και ο κύριος λόγος για τον οποίο μπήκε στον τομέα της τεχνητής νοημοσύνης και τώρα, για αυτόν, μπορεί να θεωρηθεί ως μια στιγμή «κλειστού βρόχου».

επιπλέον, αυτό που είναι εκπληκτικό με το μοντέλο o1 είναι ότι βοηθάει πολύ στην προώθηση της επιστημονικής ανακάλυψης και της προόδου της μηχανικής.

για πολλούς ανθρώπους, το agi φαίνεται να είναι μια πολύ αφηρημένη και τραβηγμένη έννοια μέχρι να δουν την τεχνητή νοημοσύνη να κάνει πράγματα στα οποία είναι καλοί οι άνθρωποι, δεν μπορούν να πιστέψουν στην άφιξη του agi.

για τους επαγγελματίες σκακιστές και παίκτες go, το deep blue της ibm, καθώς και το deepmind alphago και το alphazero, τους έκαναν να το συνειδητοποιήσουν πριν από μερικά χρόνια.

για την ομάδα επιστημόνων του openai που είναι καλοί στα μαθηματικά και την κωδικοποίηση, το μοντέλο o1 έχει παρόμοια σημασία. αυτό που είναι ακόμα πιο ενδιαφέρον είναι ότι η δουλειά τους ισοδυναμεί με τη δημιουργία μιας τεχνητής νοημοσύνης που μπορεί να κατακλύσει τις δικές τους ικανότητες.

τι δυσκολίες αντιμετωπίσατε κατά τη διάρκεια του έργου;

όσον αφορά τα εμπόδια που συναντήθηκαν στη διαδικασία, οι ερευνητές δήλωσαν ευθέως ότι η εκπαίδευση llm είναι θεμελιωδώς πολύ δύσκολη.

παρόμοια με την εκτόξευση ενός πυραύλου από τη γη στο φεγγάρι, υπάρχει μόνο ένα στενό μονοπάτι προς την επιτυχία, αλλά υπάρχουν αμέτρητα μονοπάτια προς την αποτυχία αν παρεκκλίνετε έστω και ελαφρώς από μια γωνία, δεν θα μπορέσετε να φτάσετε στον στόχο.

υπάρχουν χιλιάδες τρόποι με τους οποίους η εκπαιδευτική διαδικασία μπορεί να πάει στραβά, και ακόμη και στα χέρια αυτής της ταλαντούχας ομάδας ερευνητών επιστημόνων, εκατοντάδες προβλήματα αντιμετωπίστηκαν σε κάθε γύρο εκπαίδευσης.

επιπλέον, καθώς τα μοντέλα γίνονται όλο και πιο έξυπνα, όπως το o1, που ισοδυναμεί με ανθρώπους με πολλά διδακτορικά διπλώματα, η αξιολόγηση γίνεται όλο και πιο δύσκολη.

μερικές φορές, χρειάζονται πολύ χρόνο για να προσδιορίσουν εάν το μοντέλο κάνει το σωστό και τελικά πολλά κοινά χρησιμοποιούμενα σημεία αναφοράς του κλάδου γίνονται κορεσμένα και πρέπει να βρουν ξανά σημεία αναφοράς κατάλληλα για τις δυνατότητες του o1.

εκτός από τη διαδικασία ανάπτυξης του μοντέλου, οι ερευνητές ρωτήθηκαν επίσης για τις αγαπημένες τους περιπτώσεις χρήσης για το μοντέλο o1.

ο hyung won chung είπε ότι το o1 μπορεί να είναι ένας καλός βοηθός κωδικοποίησης.

συνήθως ακολουθεί τη μέθοδο ανάπτυξης tdd (test-driven development) με τη βοήθεια του o1, μπορεί να σώσει τον εαυτό του από τη σύνταξη δοκιμών μονάδων, αντίθετα, μπορεί να καθορίσει τις απαιτήσεις και να αφήσει το μοντέλο να γραφτεί αυτόματα.

επιπλέον, το μήνυμα σφάλματος που συναντήθηκε μπορεί επίσης να μεταδοθεί απευθείας στο o1 αν και μερικές φορές δεν μπορεί να λύσει απευθείας το πρόβλημα, μπορεί να κάνει μια καλύτερη ερώτηση από τον μεταγλωττιστή και να σας βοηθήσει να λύσετε το σφάλμα.

ο jason wei είπε ότι χρησιμοποιεί συχνά το o1 ως συνεργάτη καταιγισμού ιδεών και το φάσμα των θεμάτων που μπορούν να συζητηθούν είναι αρκετά ευρύ, από το πώς να λύσετε ένα πρόβλημα μηχανικής μάθησης μέχρι το πώς να σχεδιάσετε ένα blog ή tweet.

ένα ιστολόγιο που έγραψε τον μάιο του τρέχοντος έτους σχετικά με την αξιολόγηση llm βασίστηκε στις απόψεις του o1, όπως η δομή του άρθρου, τα πλεονεκτήματα και τα μειονεκτήματα διαφόρων σημείων αναφοράς αξιολόγησης και το στυλ γραφής.

πώς είναι να εργάζεσαι στην openai;

σε αυτό το θέμα πολλοί μίλησαν για την ευφυΐα όλων και την αρμονία του ομαδικού κλίματος.

για παράδειγμα, διόρθωνα έναν κωδικό για μια εβδομάδα και ένας συνάδελφος που περνούσε το έλυσε αμέσως, περνώντας χρόνο με εξαιρετικά έξυπνους συναδέλφους κάθε μέρα με έκανε σταδιακά ταπεινό.

ο mark chen χαρακτήρισε το έργο «strawberry» ως ένα πολύ «οργανικό» έργο, γιατί ο καθένας έχει τις δικές του απόψεις και απόψεις για επαγγελματικά θέματα και όλοι έχουν ιδέες που θέλουν να προωθήσουν με ενθουσιασμό.

όταν αυτές οι ιδέες ενωθούν, θα ξεσπάσουν σπίθες και χιονόμπαλες σαν χιονόμπαλες.

ωστόσο, η άλλη πλευρά του να είσαι διεκδικητικός είναι ότι ο καθένας επιμένει στις απόψεις του, αλλά δεν είναι πεισματάρης. θα αλλάξουν επίσης γνώμη αν δουν αντικειμενικά αποτελέσματα που διαψεύδουν τους ισχυρισμούς τους.

αυτό που είναι ακόμη πιο αξιέπαινο είναι ότι αυτή η ομάδα εξαιρετικά έξυπνων ανθρώπων είναι επίσης πολύ καλοί και πρόθυμοι να βοηθήσουν τους συναδέλφους να τρώνε μαζί και να κάνουν παρέα στη συνέντευξη εμπειρία".

η ιστορία πίσω από το o1-mini

το κίνητρο για την κυκλοφορία του o1-mini είναι να παρέχουμε σε περισσότερους ερευνητές μοντέλα που έχουν χαμηλότερο προϋπολογισμό αλλά εξακολουθούν να έχουν ισχυρές δυνατότητες συμπερασμάτων.

μπορεί να ονομαστεί «ειδικός συλλογισμός» και είναι πιο έξυπνος από το καλύτερο μοντέλο openai στο παρελθόν.

επιπλέον, το κόστος και η καθυστέρηση είναι πολύ χαμηλά.

ίσως, μπορεί να μην γνωρίζει απαραίτητα ένα διάσημο άτομο από την ημερομηνία γέννησής του, αλλά έχει την ικανότητα να συλλογίζεται αποτελεσματικά και πολλή σοφία.

οι ερευνητές του openai είπαν ότι θα βελτιώσουν περαιτέρω τον αλγόριθμο για να τον κάνουν συγκρίσιμο με τα καλύτερα μικρά μοντέλα.

επιπλέον, ερευνητές σε όλο τον κόσμο έχουν επενδύσει σε περισσότερους υπολογιστές και υλικό, με αποτέλεσμα το κόστος του μοντέλου να μειωθεί εκθετικά για μεγάλο χρονικό διάστημα.

ένα ελάττωμα, ωστόσο, είναι ότι δεν αφιερώσαμε περισσότερο χρόνο για να βρούμε έναν νέο τρόπο να αλλάξουμε τα πράγματα.

το νέο παράδειγμα του o1 είναι η ανακάλυψη - κλιμάκωση συμπερασμάτων, η οποία μπορεί επίσης να βελτιστοποιήσει την απόδοση υπολογιστικής ισχύος.

τι σας παρακινεί να κάνετε έρευνα;

ποιος είναι ο λόγος για τον οποίο αυτή η ομάδα «ευφυών εγκεφάλων» μπορεί να συγκεντρωθεί για να τους εμπνεύσει να κάνουν έρευνα;

ένας ερευνητής είπε ότι ήταν συναρπαστικό να σκεφτόμαστε τους διαφορετικούς τρόπους με τους οποίους θα μπορούσε να χρησιμοποιήσει το μοντέλο του για να βγάλει συμπεράσματα.

άλλοι είπαν: «όλα τα καλά πράγματα έρχονται στα δύσκολα».

το γεγονός ότι το o1 μπορεί να απαντήσει τόσο γρήγορα είναι το πρώτο βήμα προς ένα μοντέλο που μπορεί να σκεφτεί ερωτήσεις για μεγάλο χρονικό διάστημα. στο μέλλον, θα χρειαστούν μήνες ή και χρόνια έρευνας για να το προχωρήσουμε στο επόμενο ταξίδι.

«είναι πολύ συναρπαστικό και σημαντικό να πιστεύει κανείς ότι ένας μικρός αριθμός από εμάς μπορεί να έχει αντίκτυπο που αλλάζει τον κόσμο».

το πιο συναρπαστικό είναι ότι το νέο παράδειγμα ξεκλειδώνει εργασίες που το μοντέλο δεν μπορούσε να ολοκληρώσει πριν.

ακόμη περισσότερο, το o1 μπορεί να δημιουργήσει νέα γνώση, η οποία είναι το πιο συναρπαστικό μέρος της επιστημονικής ανακάλυψης.

οι ερευνητές λένε ότι σε σύντομο χρονικό διάστημα, το μοντέλο θα γίνει ολοένα και πιο ισχυρός συνεισφέρων στη δική του ανάπτυξη.

τέλος, όταν ο υπεύθυνος του o1 ρώτησε «υπάρχουν άλλες άξιες αναφοράς παρατηρήσεις;».

ο jason wei μοιράστηκε, "μια ενδιαφέρουσα παρατήρηση είναι ότι κάθε εκπαιδευμένο μοντέλο είναι ελαφρώς διαφορετικό και έχει τις δικές του ιδιορρυθμίες, σαν ένα τεχνούργημα. αυτή η μοναδικότητα προσθέτει μια νότα προσωπικότητας σε κάθε μοντέλο."

η πλήρης έκδοση του βίντεο έχει ως εξής:

νέα

εισαγωγή

τα στοιχεία επικοινωνίας μου