o1 ξαφνική έκθεση εκ των έσω; η google αποκάλυψε την αρχή νωρίτερα δεν υπάρχει τάφρος για μεγάλα μοντέλα μόνο με λογισμικό.

2024-09-17

το mingmin προέρχεται από τον ναό aofei
qubits | δημόσιος λογαριασμός qbitai

λιγότερο από μία εβδομάδα μετά την κυκλοφορία του, η τάφρο του ισχυρότερου μοντέλου o1 του openai έχει φύγει.

κάποιος ανακάλυψε ότι μια εργασία που δημοσιεύτηκε από το google deepmind τον αύγουστο αποκάλυψε την αρχή και τον τρόπο λειτουργίας του o1.σχεδόν ομόφωνη。

αυτή η μελέτη δείχνει ότι η αύξηση των υπολογισμών του χρόνου δοκιμής είναι πιο αποτελεσματική από την επέκταση των παραμέτρων του μοντέλου.

με βάση τη στρατηγική επέκτασης υπολογισμού χρόνου δοκιμής-βέλτιστου χρόνου που προτείνεται στο έγγραφο, το μικρότερο βασικό μοντέλο μπορεί να ξεπεράσει το ένα σε ορισμένες εργασίες.14 φορές μεγαλύτερομοντέλο.

οι χρήστες του διαδικτύου είπαν:

αυτή είναι σχεδόν η αρχή του o1.
όπως όλοι γνωρίζουμε, στον ultraman αρέσει να προηγείται της google, γι' αυτό λοιπόν η o1 κυκλοφόρησε πρώτα την έκδοση προεπισκόπησης;

κάποιοι θρηνούσαν αυτό:

πράγματι, όπως είπε και η ίδια η google, κανείς δεν έχει τάφρο, και κανείς δεν θα έχει ποτέ τάφρο.

μόλις τώρα, το openai αύξησε την ταχύτητα του o1-mini κατά 7 φορές και μπορεί να χρησιμοποιήσει 50 αντικείμενα ανά ημέρα.

εξοικονομήστε 4 φορές το ποσό του υπολογισμού

ο τίτλος αυτού του εγγράφου google deepmind είναι:κατά τη βελτιστοποίηση της δοκιμής llm, ο υπολογισμός είναι πιο αποτελεσματικός από την επέκταση της κλίμακας παραμέτρων του μοντέλου。

η ερευνητική ομάδα επεκτάθηκε από τα ανθρώπινα πρότυπα σκέψης εφόσον οι άνθρωποι θα χρειαστούν περισσότερο χρόνο για να σκεφτούν και να βελτιώσουν τις αποφάσεις τους όταν αντιμετωπίζουν πολύπλοκα προβλήματα, μπορεί το ίδιο να ισχύει και για το llm;

με άλλα λόγια, όταν αντιμετωπίζει μια πολύπλοκη εργασία, μπορεί το llm να είναι σε θέση να χρησιμοποιήσει πιο αποτελεσματικά τους πρόσθετους υπολογισμούς κατά τη διάρκεια της δοκιμής για να βελτιώσει την ακρίβεια.

μερικές προηγούμενες μελέτες έχουν δείξει ότι αυτή η κατεύθυνση είναι πράγματι εφικτή, αλλά το αποτέλεσμα είναι σχετικά περιορισμένο.

έτσι, αυτή η μελέτη ήθελε να ανακαλύψει πόσο μπορεί να βελτιωθεί η απόδοση του μοντέλου όταν χρησιμοποιούνται σχετικά λίγοι πρόσθετοι υπολογισμοί συμπερασμάτων;

σχεδίασαν ένα σύνολο πειραμάτων για να δοκιμάσουν το σύνολο δεδομένων math χρησιμοποιώντας το palm2-s*.

αναλύονται κυρίως δύο μέθοδοι:

(1) επαναληπτική αυτοαναθεώρηση: αφήστε το μοντέλο να προσπαθήσει να απαντήσει σε μια ερώτηση πολλές φορές, αναθεωρώντας την μετά από κάθε προσπάθεια για να λάβετε μια καλύτερη απάντηση.
(2) αναζήτηση: σε αυτήν την προσέγγιση, το μοντέλο δημιουργεί πολλαπλές υποψήφιες απαντήσεις,

μπορεί να φανεί ότι όταν χρησιμοποιείται η μέθοδος αυτο-αναθεώρησης, καθώς αυξάνεται ο όγκος υπολογισμού κατά τη διάρκεια της δοκιμής, το χάσμα μεταξύ της τυπικής στρατηγικής best-of-n (best-of-n) και της υπολογιστικά βέλτιστης στρατηγικής επέκτασης σταδιακά διευρύνεται.

η χρήση της μεθόδου αναζήτησης για τον υπολογισμό της βέλτιστης στρατηγικής επέκτασης δείχνει προφανή πλεονεκτήματα στο αρχικό στάδιο. και υπό ορισμένες συνθήκες, μπορεί να επιτύχει το ίδιο αποτέλεσμα με την καλύτερη στρατηγική n,το ποσό του υπολογισμού είναι μόνο το 1/4 αυτού。

σύγκριση του palm 2-s* (χρησιμοποιώντας την υπολογιστικά βέλτιστη στρατηγική) με ένα 14 φορές μεγαλύτερο προεκπαιδευμένο μοντέλο (χωρίς πρόσθετα συμπεράσματα) σε μια αξιολόγηση αντιστοίχισης των flop συγκρίσιμων με τον προεκπαιδευμένο υπολογισμό.

διαπιστώθηκε ότι κατά τη χρήση της μεθόδου αυτο-αναθεώρησης, όταν οι μάρκες συμπερασμάτων είναι πολύ μικρότερες από τις μάρκες πριν από την εκπαίδευση, το αποτέλεσμα της χρήσης της στρατηγικής υπολογισμού του χρόνου δοκιμής είναι καλύτερο από αυτό της προεκπαίδευσης. αλλά καθώς η αναλογία αυξάνεται ή σε πιο δύσκολα προβλήματα, η προ-προπόνηση εξακολουθεί να λειτουργεί καλύτερα.

δηλαδή, και στις δύο περιπτώσεις, το κλειδί για τον υπολογισμό εάν η μέθοδος επέκτασης είναι έγκυρη σύμφωνα με διαφορετικές δοκιμές είναιυπόδειξη δυσκολίας。

η μελέτη συνέκρινε περαιτέρω διαφορετικές μεθόδους αναζήτησης prm και τα αποτελέσματα έδειξαν ότι η αναζήτηση προς τα εμπρός (άκρα δεξιά) απαιτεί περισσότερους υπολογισμούς.

όταν το ποσό του υπολογισμού είναι μικρό, η χρήση της βέλτιστης στρατηγικής υπολογισμού μπορεί να εξοικονομήσει έως και 4 φορές πόρους.

συγκρίνοντας το μοντέλο o1 του openai, αυτή η μελέτη δίνει σχεδόν το ίδιο συμπέρασμα.

το μοντέλο o1 μαθαίνει να βελτιώνει τη διαδικασία σκέψης του, να δοκιμάζει διαφορετικές στρατηγικές και να αναγνωρίζει τα λάθη του. και με περισσότερη ενισχυτική μάθηση (υπολογισμένη κατά τη διάρκεια της προπόνησης) και περισσότερο χρόνο σκέψης (υπολογιζόμενο κατά τη διάρκεια της δοκιμής), η απόδοση του o1 συνεχίζει να βελτιώνεται.

ωστόσο, το openai κυκλοφόρησε το μοντέλο πιο γρήγορα, ενώ η google χρησιμοποιεί το palm2 και δεν έχει κυκλοφορήσει ενημέρωση για το gemini2.

netizen: η τάφρο αφορά μόνο το υλικό;

τέτοια νέα ευρήματα αναπόφευκτα υπενθυμίζουν στους ανθρώπους τις απόψεις που διατυπώθηκαν στα εσωτερικά έγγραφα της google πέρυσι:

δεν έχουμε τάφρο, ούτε και το openai. το μοντέλο ανοιχτού κώδικα μπορεί να νικήσει το chatgpt.

σήμερα, κάθε ταχύτητα έρευνας είναι πολύ γρήγορη και κανείς δεν μπορεί να εξασφαλίσει ότι είναι πάντα μπροστά.

η μόνη τάφρο μπορεί να είναι υλικό.

(έτσι ο μασκ θα φτιάξει ένα υπολογιστικό κέντρο;)

κάποιοι λένε ότι η nvidia ελέγχει πλέον άμεσα ποιος έχει περισσότερη υπολογιστική ισχύ. τι θα συμβεί λοιπόν εάν η google/microsoft αναπτύξει ένα προσαρμοσμένο τσιπ που λειτουργεί καλύτερα;

αξίζει να αναφέρουμε ότι το πρώτο τσιπ του openai παρουσιάστηκε πριν από λίγο καιρό και θα χρησιμοποιεί την πιο προηγμένη διαδικασία σε επίπεδο angstrom a16 της tsmc και είναι ειδικά κατασκευασμένο για εφαρμογές βίντεο sora.

προφανώς, για μεγάλα πεδία μάχης μοντέλων, δεν αρκεί πλέον μόνο η κύλιση του ίδιου του μοντέλου.

σύνδεσμοι αναφοράς:
https://www.reddit.com/r/singularity/comments/1fhx8ny/deepmind_understands_strawberry_there_is_no_moat/

νέα

o1 ξαφνική έκθεση εκ των έσω; η google αποκάλυψε την αρχή νωρίτερα δεν υπάρχει τάφρος για μεγάλα μοντέλα μόνο με λογισμικό.

εξοικονομήστε 4 φορές το ποσό του υπολογισμού

netizen: η τάφρο αφορά μόνο το υλικό;

εισαγωγή

τα στοιχεία επικοινωνίας μου