Τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
- Συνεισφορά από την Tencent Youtu Lab
Qubits | Δημόσιος λογαριασμός QbitAI
Με την ταχεία ανάπτυξη μεγάλων μοντέλων, ο συντονισμός εντολών διαδραματίζει κρίσιμο ρόλο στη βελτίωση της απόδοσης του μοντέλου και των δυνατοτήτων γενίκευσης.
Ωστόσο, οι μέθοδοι αξιολόγησης και επιλογής δεδομένων για σύνολα δεδομένων συντονισμού εντολών δεν έχουν ακόμη σχηματίσει ένα ενοποιημένο σύστημα και λείπει μια ολοκληρωμένη και σε βάθος αναθεώρηση.
Για να καλύψει αυτό το κενό, το Tencent Youtu Lab κυκλοφόρησε μια πλήρη ανασκόπηση για διευθέτηση.
Είναι πάνω από 10.000 λέξεις και περιλαμβάνει περισσότερα από 400 έγγραφα.
Αυτή η μελέτη καλύπτει μεθόδους αξιολόγησης και επιλογής δεδομένων σε τρεις κύριες πτυχές: ποιότητα, ποικιλομορφία και σημασία, καθεμία από τις οποίες ταξινομείται και επεξεργάζεται λεπτομερώς.
Ταυτόχρονα, ο συγγραφέας δίνει επίσης προσοχή στην τελευταία πρόοδο και τις τάσεις σε αυτόν τον τομέα, συμπεριλαμβανομένων ορισμένων αναδυόμενων τεχνολογιών και μεθόδων, όπως η χρήση ισχυρών μοντέλων γλώσσας όπως η GPT για βαθμολόγηση δεδομένων, η δειγματοληψία Coreset με βάση τη βελτιστοποίηση δύο επιπέδων κ.λπ. .
Ο στόχος ανάπτυξης των LLM είναι να ξεκλειδώσουν την ικανότητα γενίκευσης για εργασίες επεξεργασίας φυσικής γλώσσας (NLP), στις οποίες ο συντονισμός εντολών παίζει σημαντικό ρόλο και η ποιότητα των δεδομένων είναι κρίσιμη για την επίδραση του συντονισμού εντολών.
Οι συγγραφείς διεξάγουν μια εις βάθος μελέτη των μεθόδων αξιολόγησης και επιλογής δεδομένων για διάφορα σύνολα δεδομένων συντονισμού εντολών, ταξινομώντας και επεξεργάζοντάς τα από τρεις πτυχές: ποιότητα, ποικιλομορφία και σημασία.
★Αξιολόγηση και επιλογή ποιότητας
Η «ποιότητα» αναφέρεται κυρίως στην πληρότητα, την ακρίβεια και τη λογική των σημείων δεδομένων απόκρισης εντολών.
Όσον αφορά την ποιότητα του συνόλου δεδομένων, ο συγγραφέας συνοψίζει κυρίως τέσσερις μεθόδους δοκιμής:
★Αξιολόγηση και επιλογή διαφορετικότητας
Η ποικιλομορφία εδώ αναφέρεται στην ατομική ποικιλομορφία (όπως το λεξιλόγιο και τον σημασιολογικό πλούτο) και τη συνολική ποικιλομορφία (όπως η διανομή δεδομένων) του συνόλου δεδομένων εντολών Η επιλογή ενός συνόλου δεδομένων με ποικιλομορφία μπορεί να βελτιώσει την ικανότητα γενίκευσης του μοντέλου.
Ο συγγραφέας συνοψίζει επίσης τέσσερις τρόπους δοκιμής της ποικιλομορφίας των συνόλων δεδομένων.
★Εκτίμηση και επιλογή σημασίας
Η σημασία αναφέρεται στην αναγκαιότητα δειγμάτων για εκπαίδευση μοντέλων, η οποία σχετίζεται με την εργασία του μοντέλου και σχετίζεται επίσης με την απόδοση. Τα εύκολα δείγματα μπορεί να μην απαιτούν πρόσθετο συντονισμό, ενώ τα σκληρά δείγματα είναι κρίσιμα για την εκπαίδευση μοντέλων.
Υπάρχουν διάφοροι κύριοι δείκτες και μέθοδοι για την αξιολόγηση της σημασίας:
Υπάρχουσες προκλήσεις και μελλοντικές κατευθύνσεις
Οι συγγραφείς βρήκαν ένα χάσμα μεταξύ της αποτελεσματικότητας της επιλογής δεδομένων και της αναφερόμενης απόδοσης του μοντέλου σε δείκτες αναφοράς, λόγω λόγων όπως η κακή συσχέτιση μεταξύ της απώλειας αξιολόγησης και της απόδοσης των σημείων αναφοράς, η μόλυνση του συνόλου δοκιμών κ.λπ.
Στο μέλλον, πρέπει να δημιουργηθούν εξειδικευμένα σημεία αναφοράς για την αξιολόγηση μοντέλων συντονισμού εντολών και επιλεγμένων σημείων δεδομένων και για την αποσύνδεση της επιλογής δεδομένων και της αξιολόγησης μοντέλων για τον αποκλεισμό των επιπτώσεων της μόλυνσης των δεδομένων.
Επί του παρόντος δεν υπάρχει ενιαίο πρότυπο για τη διάκριση των «καλών» και των «κακών» οδηγιών ανάγκες των κατάντη εργασιών.
Καθώς το σύνολο δεδομένων επεκτείνεται, ο καθορισμός της βέλτιστης αναλογίας επιλογής γίνεται δύσκολος λόγω αυξημένου θορύβου, υπερβολικής προσαρμογής και λήθης. Βέλτιστες αναλογίες επιλογής και βελτιστοποιημένοι αγωγοί επεκτασιμότητας για αξιολόγηση και επιλογή δεδομένων.
Εκτός από τα σύνολα δεδομένων, το μέγεθος των ίδιων των μεγάλων μοντέλων αυξάνεται επίσης, καθιστώντας την αξιολόγηση και την επιλογή δεδομένων λιγότερο οικονομικά αποδοτική, απαιτώντας την ανάπτυξη αποτελεσματικών υποκατάστατων μοντέλων, ενώ επανεξετάζονται οι παραδοσιακές τεχνικές μηχανικής μάθησης, όπως οι τεχνικές βελτιστοποίησης και οι μέθοδοι μείωσης διαστάσεων.
Αρχική σελίδα του έργου:
https://github.com/yuleiqin/fantastic-data-engineering
Διεύθυνση χαρτιού:
https://arxiv.org/abs/2408.02085