Τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Νέα Έκθεση Σοφίας
Επιμέλεια: Qiao Yang
[Εισαγωγή στη Νέα Σοφία]Όλο και περισσότερες μελέτες έχουν βρει ότι η μετά την προπόνηση είναι εξίσου σημαντική για την απόδοση του μοντέλου. Ο Nathan Lambert, ερευνητής μηχανικής μάθησης στο Allen AI, δημοσίευσε πρόσφατα μια τεχνική ανάρτηση ιστολογίου που συνοψίζει τις συνταγές εκπαίδευσης μετά το μοντέλο που χρησιμοποιούν οι τεχνολογικοί γίγαντες.
Με την ταχεία ανάπτυξη των ακαδημαϊκών και βιομηχανικών κύκλων LLM, όχι μόνο η υπολογιστική ισχύς και τα δεδομένα που χρησιμοποιούνται για την προεκπαίδευση παρουσιάζονται τρελά, αλλά και οι μέθοδοι ευθυγράμμισης και λεπτομέρειας της μετεκπαίδευσης ενημερώνονται επίσης συνεχώς.
Τα μοντέλα που κυκλοφόρησαν παλαιότερα, όπως το InstructGPT και το WebGPT, χρησιμοποιούν τυπικές μεθόδους RLHF και το στυλ διαχείρισης δεδομένων και η κλίμακα σε αυτά φαίνεται να είναι ξεπερασμένα.
Τους τελευταίους μήνες, γίγαντες της τεχνητής νοημοσύνης όπως η Meta, η Google και η NVIDIA κυκλοφόρησαν μοντέλα ανοιχτού κώδικα, συνοδευόμενα από λεπτομερή έγγραφα ή αναφορές, συμπεριλαμβανομένων των , , , και της αναφοράς βασικού μοντέλου της Apple Intellegence.
Από αυτές τις πληροφορίες που αποκαλύπτονται, μπορούμε να δούμε ορισμένες τάσεις αιχμής στις μεθόδους μετά την εκπαίδευση. Ο ερευνητής Allen AI Nathan Lambert δημοσίευσε πρόσφατα ένα άρθρο σχετικά με αυτό το θέμα.
Αρχική διεύθυνση: https://www.interconnects.ai/p/frontier-model-post-training
Ο Δρ Nathan Lambert αποφοίτησε από το UC Berkeley, ηγήθηκε της ομάδας RLHF στο HuggingFace και επί του παρόντος είναι ερευνητής μηχανικής μάθησης στο Allen AI.
Στο άρθρο του, επισημαίνει ότι τα συνθετικά δεδομένα, η επαναληπτική εκπαίδευση, οι ετικέτες ανθρώπινων προτιμήσεων και το εκτεταμένο φιλτράρισμα είναι κοινά χαρακτηριστικά των μεθόδων μετά την εκπαίδευση που χρησιμοποιούνται σε αυτά τα μοντέλα. Συγκεκριμένα, η νέα συνταγή μετά την προπόνηση βασίζεται στις παρακάτω προεπιλογές:
-Τα συνθετικά δεδομένα μπορεί να είναι υψηλότερης ποιότητας από τα ανθρώπινα δεδομένα, ειδικά για απαιτητικές εργασίες
- Το RLHF μπορεί να κλιμακωθεί σε μεγαλύτερες κλίμακες από τη λεπτομερή ρύθμιση των οδηγιών
- Απαιτούνται πολλαπλοί κύκλοι εκπαίδευσης και παραγωγής για να αποκτήσετε το καλύτερο μοντέλο
- Το φιλτράρισμα δεδομένων είναι το πιο σημαντικό μέρος της εκπαίδευσης
Αυτές οι υποθέσεις είναι σε μεγάλο βαθμό αλληλένδετες για να σχηματίσουν ένα πρόγραμμα προπόνησης που μπορεί να κλιμακωθεί σε μεγάλες ομάδες, καθιστώντας το ιδανικό για τεχνολογικούς γίγαντες. Το συγκεκριμένο περιεχόμενο του άρθρου παρέχει λεπτομερή επεξήγηση των παραπάνω τεσσάρων σημείων.
Ο νέος πρότυπος αγωγός
Αν αναλογιστούμε ότι η βαθμολογία ChatBot Arena μετρά την απόδοση του μοντέλου μετά την προπόνηση, η οποία σχετίζεται σε μεγάλο βαθμό με το στυλ και τη στιβαρότητα, σχεδόν όλα τα μεγάλα εργαστήρια έχουν επιτύχει σημαντικά κέρδη μέσω της επαναληπτικής εκπαίδευσης.
Δεν έχουμε δει ακόμη την κυκλοφορία του Gemini 2 ή του GPT-5, το οποίο μπορεί να επαναφέρει το τρέχον πρότυπο μετά την εκπαίδευση και ενδεχομένως να ξεκλειδώσει βαθύτερο έλεγχο στα μοντέλα μας.
Όμως από την τρέχουσα σκοπιά, οι μέθοδοι που χρησιμοποιούνται από διάφορα κορυφαία εργαστήρια προφανώς συγκλίνουν και αυτή η τάση είναι πολύ πιο ξεκάθαρη από το αναμενόμενο.
Δεδομένα ανθρώπινων προτιμήσεων
Ο αρχικός αγωγός RLHF εστιάζει σε ανθρώπινα δεδομένα, τα οποία διατίθενται σε δύο κύριες μορφές: 1) ανθρώπινα δεδομένα για οδηγίες λεπτομερούς ρύθμισης για εξειδικευμένες εργασίες.
Τέτοια σύνολα δεδομένων ακριβείας είναι ακριβά και προστατεύονται αυστηρά, από όσο γνωρίζω, το μόνο δημόσιο είναι το No Robots, το οποίο κυκλοφόρησε ο Lambert όταν ήταν στην ομάδα του HuggingFace.
Διεύθυνση αποθήκης: https://huggingface.co/datasets/HuggingFaceH4/no_robots
Τα δεδομένα ανθρώπινων προτιμήσεων σχετίζονται σε μεγάλο βαθμό με βελτιώσεις σε συγκεκριμένα μοντέλα. Αλλά ακόμα και όταν τα δεδομένα μπορούν να γίνουν ανοιχτά, δεν υπάρχει βεβαιότητα ότι οι προτιμήσεις από ένα μοντέλο μπορούν να μεταφερθούν σε άλλο.
Ο Lambert και η ομάδα του έκαναν μια παρόμοια προσπάθεια στο HuggingFace, αλλά απέτυχε σε ένα μικρό συμβόλαιο δεδομένων επί πληρωμή.
Αυτήν τη στιγμή, η μόνη πτυχή όπου χρησιμοποιούνται ανθρώπινα δεδομένα είναι τα δεδομένα προτιμήσεων. Κρίνοντας από τα δεδομένα που αποκαλύφθηκαν από το Llama 2 και άλλες φήμες, ο Meta μπορεί να ξόδεψε 10-20 εκατομμύρια δολάρια σε δεδομένα προτιμήσεων ή ακόμα περισσότερα. Αυτό περιορίζεται επίσης στο τελικό δημοσιευμένο μοντέλο και δεν περιλαμβάνει ευρύτερα πειράματα και αξιολογήσεις.
Το Nemotron χρησιμοποιεί μεγάλη ποσότητα συνθετικών δεδομένων για να αντικαταστήσει τα ανθρώπινα δεδομένα, αλλά σχετικά, η τελειοποίηση αυτού του μοντέλου δεν είναι τόσο καλή.
Υπάρχει μια επείγουσα πρόκληση, αλλά και μια ευκαιρία, για την ανοιχτή κοινότητα: να υπολογίσει την έκταση της ανθρώπινης παρέμβασης σε αυτού του είδους τα δεδομένα και εάν μπορεί να αντικατασταθεί από μεθόδους όπως το LLM-as-a-Judge ή τα μοντέλα ανταμοιβής.
ExtendedRLHF
Ο Thomas Scialom, επικεφαλής ευθυγράμμισης στο Llama 3, είπε στο podcast Latent Space:
Το RLHF είναι πολύ πιο επεκτάσιμο. Είναι λιγότερο ακριβό, πιο εύκολο στη λειτουργία και γενικά έχει καλύτερη απόδοση.
Είπε επίσης ότι θα χρησιμοποιούσε "το 100% του προϋπολογισμού δεδομένων ευθυγράμμισης για τα δεδομένα ευθυγράμμισης που απαιτούνται στο στάδιο RL, αντί να αφιερώνει περισσότερο χρόνο σε οδηγίες".
Οι περισσότερες προσπάθειες ευθυγράμμισης ανοιχτού κώδικα επικεντρώνονται στην εκτεταμένη λεπτομέρεια εντολών (IFT ή SFT). Το IFT είναι εύκολο στη χρήση, κατάλληλο για μια ποικιλία εργασιών και εύκολο στη χρήση με συνθετικά δεδομένα.
Αλλά είναι σαφές ότι ο κλάδος χρησιμοποιεί μόνο το IFT ως σημείο εκκίνησης για την επέκταση του RLHF. Τα δεδομένα SFT επικεντρώνονται κυρίως σε συγκεκριμένες περιοχές που δεν κάλυπταν τα προηγούμενα μοντέλα και στη συνέχεια επεκτείνουν το RLHF σε αυτή τη βάση.
Το RLHF είναι μια επαναληπτική διαδικασία και η διαδικασία δημιουργίας μοντέλου του επιτρέπει να συνεχίσει να βελτιώνεται. Η προπόνηση 5 γύρων περιγράφεται λεπτομερώς στα έγγραφα του Llama 2 και του Nemotron, αλλά δεν γνωρίζουμε αν υπάρχει ανώτατο όριο σε αυτόν τον αριθμό.
Το Llama 3.1 εκπαιδεύτηκε με 6 γύρους δεδομένων προτίμησης, το Llama 2 εκπαιδεύτηκε με 5 γύρους, το Nemotron εκπαιδεύτηκε με 4 γύρους και υπήρχαν πολλοί γύροι βελτιστοποίησης οδηγιών πριν.
Για τα δεδομένα ανθρώπινης προτίμησης, οι πολλαπλές επαναλήψεις μπορούν να καθοδηγούνται κυρίως από λόγους σκοπιμότητας:
1. Τα δεδομένα μεταφέρονται από την εταιρεία σχολιασμού στο εργαστήριο σε παρτίδες
2. Η διεξαγωγή πολλαπλών κύκλων εκπαίδευσης μικρής κλίμακας μπορεί να μειώσει τον κίνδυνο παράδοσης τελικού προϊόντος. Αντί να περιμένετε να είναι διαθέσιμα όλα τα δεδομένα πριν ξεκινήσετε την εκπαίδευση, αφήστε το μοντέλο να μπει σταδιακά σε καλό δρόμο
Τέτοιοι πρακτικοί παράγοντες μπορεί να φαίνονται ασήμαντοι, αλλά συχνά ενεργοποιούν ορισμένα πρότυπα του κλάδου.
Η παρακάτω εικόνα είναι από το έγγραφο Llama 2, το οποίο καταγράφει δεδομένα που σχετίζονται με 5 γύρους δειγματοληψίας απόρριψης και PPO.
Το Nemotron κάνει επίσης επένδυση SFT 2 τροχών και ευθυγράμμιση 4 τροχών. Μεταξύ αυτών, το RPO είναι ένα μοντέλο ανταμοιβής σταθμισμένο με βελτιστοποιητή DPO.
Παρόμοιες επαναληπτικές μέθοδοι RLHF μπορούν να αναχθούν στη «Συνταγματική Τεχνητή Νοημοσύνη» που προτείνεται από την Anthropic, αλλά η κοινότητα ανοιχτού κώδικα δεν φαίνεται να έχει αναπαράγει αυτό το αποτέλεσμα σε μεγάλη κλίμακα.
Επί του παρόντος, η ακαδημαϊκή κοινότητα δίνει προσοχή στην "διαδικτυακή εκπαίδευση DPO", η οποία είναι παρόμοια σε κατεύθυνση, αλλά δεν δίνει τόση σημασία στα δεδομένα μεταξύ των γύρων. Αυτή η προσέγγιση απαιτεί ακόμη πολλή χειρωνακτική εργασία, αλλά μόλις αυτοματοποιηθεί η διαδικασία, το διαδικτυακό DPO θα είναι το μέλλον.
Στην πραγματικότητα, η επιλογή αλγορίθμου κάθε ομάδας για τη φάση μετά την προπόνηση δεν πρέπει να είναι τόσο άκαμπτη. Το DPO και το PPO έχουν τα δικά τους πλεονεκτήματα και μειονεκτήματα Το πρώτο είναι πιο εύκολο να κλιμακωθεί, αλλά οι μέθοδοι που εμπνέονται από PPO (όπως το online RL) έχουν υψηλότερο ανώτατο όριο απόδοσης.
Αυτές οι προσεγγίσεις βασίζονται επί του παρόντος κυρίως στην απλότητα, καθώς αυτές οι ομάδες εξακολουθούν να είναι σχετικά νέες και να κατασκευάζουν αρθρωτά συστήματα και ένα μέλος της ομάδας μετά την εκπαίδευση του Llama 3 επιβεβαίωσε αυτή την προσέγγιση στην απλότητα της μηχανικής.
Το Llama 3 έχει έναν απλό βρόχο μετά την εκπαίδευση: δειγματοληψία απόρριψης, SFT και DPO. Αυτό όχι μόνο έχει ως αποτέλεσμα τη βέλτιστη απόδοση σε εμπειρικό επίπεδο, αλλά επιτρέπει επίσης την αναπαραγωγιμότητα. Επιπλέον, οι ομάδες μπορούν να εξερευνήσουν πολλές διαφορετικές ροές εργασίας (π.χ. κωδικοποίηση, μαθηματικά) ασύγχρονα, φέρνοντας δεδομένα μαζί στον ίδιο απλό βρόχο.συνθετικά δεδομένα
Ένα σημαντικό μέρος αυτού του νέου κύκλου RLHF είναι τα δεδομένα συνθετικών εντολών που υπερβαίνουν τις ανθρώπινες δυνατότητες στις περισσότερες εργασίες.
Εάν μπορείτε να βελτιώσετε λίγο το μοντέλο και να δημιουργήσετε καλύτερες οδηγίες, τότε "ξεκινήστε από την αρχή" και ενημερώστε τα σημεία ελέγχου.
Η Meta δηλώνει ρητά στο έγγραφο ότι "χρησιμοποιούν το μοντέλο 405B για να βελτιώσουν την ποιότητα μετά την εκπαίδευση των μικρότερων μοντέλων μας" Η Google το κάνει αυτό με απόσταξη του Gemini Flash, αλλά στην πραγματικότητα τα περισσότερα μοντέλα αιχμής περιλαμβάνουν πιθανώς κάποια παρόμοια βήματα.
Άκουσα ότι το OpenAI χρησιμοποιεί 50 τρισεκατομμύρια μάρκες δεδομένων για να εκπαιδεύσει το μοντέλο επόμενης γενιάς, τα περισσότερα από τα οποία είναι συνθετικά δεδομένα. Υπήρχε μια φήμη πέρυσι ότι η Anthropic είχε ένα «corpus τεχνητής νοημοσύνης της κλίμακας προετοιμασίας», το οποίο τώρα φαίνεται λογικό.
Αυτές οι εταιρείες τεχνητής νοημοσύνης συνειδητοποίησαν τη σημασία των συνθετικών δεδομένων πριν από 12 έως 18 μήνες, όταν δεν χρησιμοποιούσαν πλέον την έξοδο μοντέλων για εκπαίδευση αυτοεπανάληψης. Αλλά το Meta είναι διαφορετικό γιατί επωφελείται από άλλα καλύτερα ανοιχτά μοντέλα.
Μια ματιά στη σημερινή μετεκπαίδευση καθιστά σαφές ότι το πρόβλημα των σφαλμάτων μοντέλων σε συνθετικά δεδομένα είναι πολύ υπερβολικό. Η κατάρρευση μοντέλου συμβαίνει μόνο όταν τα αρχικά δεδομένα απορρίπτονται και μόνο τα νέα δεδομένα που δημιουργούνται παραμένουν σε ένα τεχνητά ρυθμισμένο περιβάλλον.
Η ποιότητα των δεδομένων είναι βασιλιάς
Μεγάλο μέρος της αναφοράς Llama 3.1 αφορά τις λεπτομέρειες της διαχείρισης δεδομένων, με κάθε σχετική υποπεριοχή να απαιτεί εκτενείς και συγκεκριμένες οδηγίες διαχείρισης.
Αυτό είναι σύμφωνο με όσα γνωρίζω για την ομάδα μετά την εκπαίδευση με επικεφαλής τον John Schulman στο OpenAI και άλλες παρόμοιες ομάδες - καθορίστε έναν συγκεκριμένο τομέα, λάβετε σχετικά δεδομένα και το μοντέλο βελτιώνεται.
Αλλά χωρίς εκτεταμένο φιλτράρισμα και διαχείριση δεδομένων, καμία από τις παραπάνω μεθόδους RLHF δεν θα λειτουργήσει.
Στην Allen AI, αρχίσαμε να δίνουμε προτεραιότητα στα δεδομένα περισσότερο στη διαδικασία μετά την εκπαίδευση και μπορείτε να νιώσετε αμέσως την αλλαγή στην ταχύτητα βελτίωσης του μοντέλου.
Μελέτη περίπτωσης - Nemotron και Llama
Η διαδικασία μετά την προπόνηση του Llama είναι η εξής:
Αυτή η εικόνα από το Nemotron είναι σχετικά απλή:
Συνολικά, μπορούμε να δούμε τι κοινό έχουν οι περισσότερες μέθοδοι.
Αλλά το παρακάτω διάγραμμα, και οι περισσότερες ερευνητικές εργασίες του κλάδου, αγνοούν δεδομένα.
Μοντέλα όπως το Llama 3.1 έχουν αναφέρει πολλές λεπτομέρειες στην αναφορά, όπως τακτοποίηση, προσαρμογή της συνάρτησης απώλειας, υπολογισμός μέσου όρου μοντέλου κ.λπ., αλλά αυτά είναι οριακά κέρδη στην απόδοση του μοντέλου και είναι σε μεγάλο βαθμό πέρα από το πεδίο του βασικού κύκλου λεπτομέρειας .
Σε μια συγκεκριμένη χρονική στιγμή, αυτές οι λεπτομέρειες θα γίνουν ασήμαντες.
Παραπομπές:
https://www.interconnects.ai/p/frontier-model-post-training