νέα

Μια αξιολόγηση 10.000 λέξεων μεγάλων συνόλων δεδομένων συντονισμού εντολών μοντέλων! Παράγεται από κοινού από την Tencent και το Πανεπιστήμιο Jiao Tong της Σαγκάης

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

  • Συνεισφορά από την Tencent Youtu Lab
    Qubits | Δημόσιος λογαριασμός QbitAI

Με την ταχεία ανάπτυξη μεγάλων μοντέλων, ο συντονισμός εντολών διαδραματίζει κρίσιμο ρόλο στη βελτίωση της απόδοσης του μοντέλου και των δυνατοτήτων γενίκευσης.

Ωστόσο, οι μέθοδοι αξιολόγησης και επιλογής δεδομένων για σύνολα δεδομένων συντονισμού εντολών δεν έχουν ακόμη σχηματίσει ένα ενοποιημένο σύστημα και λείπει μια ολοκληρωμένη και σε βάθος αναθεώρηση.

Για να καλύψει αυτό το κενό, το Tencent Youtu Lab κυκλοφόρησε μια πλήρη ανασκόπηση για διευθέτηση.

Είναι πάνω από 10.000 λέξεις και περιλαμβάνει περισσότερα από 400 έγγραφα.



Αυτή η μελέτη καλύπτει μεθόδους αξιολόγησης και επιλογής δεδομένων σε τρεις κύριες πτυχές: ποιότητα, ποικιλομορφία και σημασία, καθεμία από τις οποίες ταξινομείται και επεξεργάζεται λεπτομερώς.

Ταυτόχρονα, ο συγγραφέας δίνει επίσης προσοχή στην τελευταία πρόοδο και τις τάσεις σε αυτόν τον τομέα, συμπεριλαμβανομένων ορισμένων αναδυόμενων τεχνολογιών και μεθόδων, όπως η χρήση ισχυρών μοντέλων γλώσσας όπως η GPT για βαθμολόγηση δεδομένων, η δειγματοληψία Coreset με βάση τη βελτιστοποίηση δύο επιπέδων κ.λπ. .

Ολοκληρωμένη αξιολόγηση των συνόλων δεδομένων συντονισμού εντολών

Ο στόχος ανάπτυξης των LLM είναι να ξεκλειδώσουν την ικανότητα γενίκευσης για εργασίες επεξεργασίας φυσικής γλώσσας (NLP), στις οποίες ο συντονισμός εντολών παίζει σημαντικό ρόλο και η ποιότητα των δεδομένων είναι κρίσιμη για την επίδραση του συντονισμού εντολών.

Οι συγγραφείς διεξάγουν μια εις βάθος μελέτη των μεθόδων αξιολόγησης και επιλογής δεδομένων για διάφορα σύνολα δεδομένων συντονισμού εντολών, ταξινομώντας και επεξεργάζοντάς τα από τρεις πτυχές: ποιότητα, ποικιλομορφία και σημασία.



★Αξιολόγηση και επιλογή ποιότητας

Η «ποιότητα» αναφέρεται κυρίως στην πληρότητα, την ακρίβεια και τη λογική των σημείων δεδομένων απόκρισης εντολών.

Όσον αφορά την ποιότητα του συνόλου δεδομένων, ο συγγραφέας συνοψίζει κυρίως τέσσερις μεθόδους δοκιμής:

  • Ο πρώτος είναι ο χειροκίνητος σχεδιασμός δεικτών, όπως η χρήση λεξιλογίου, σύνταξης, σημασιολογικής ομοιότητας κ.λπ. για την αξιολόγηση της ποιότητας των δεδομένων.
  • Η δεύτερη είναι η χρήση δεικτών που βασίζονται σε μοντέλα Αυτή η μέθοδος χρησιμοποιεί ένα εκπαιδεύσιμο μοντέλο (όπως η χρήση της αμηχανίας, του πολυδιάστατου αξιολογητή βαθμολογίας, κ.λπ.), σε συνδυασμό με μια υβριδική τεχνολογία πολλαπλών δεικτών με επίγνωση της εκπαίδευσης (όπως η αβεβαιότητα, η βαθμολογία ανταμοιβής). , κ.λπ.). Αυτή η μέθοδος έχει τη δυνατότητα επιλογής αμερόληπτων δειγμάτων υψηλής ποιότητας.
  • Η τρίτη μέθοδος είναι να την παραδώσετε απευθείας στο GPT και να καλέσετε τα OpenAI API για να βαθμολογήσετε αυτόματα το σύνολο δεδομένων συντονισμού εντολών για τη μέτρηση της ποιότητας μπορεί να βελτιώσει την αποδοτικότητα κόστους.
  • Τέλος, υπάρχει η μη αυτόματη αξιολόγηση ως βαθμολογία GPT.

★Αξιολόγηση και επιλογή διαφορετικότητας

Η ποικιλομορφία εδώ αναφέρεται στην ατομική ποικιλομορφία (όπως το λεξιλόγιο και τον σημασιολογικό πλούτο) και τη συνολική ποικιλομορφία (όπως η διανομή δεδομένων) του συνόλου δεδομένων εντολών Η επιλογή ενός συνόλου δεδομένων με ποικιλομορφία μπορεί να βελτιώσει την ικανότητα γενίκευσης του μοντέλου.

Ο συγγραφέας συνοψίζει επίσης τέσσερις τρόπους δοκιμής της ποικιλομορφίας των συνόλων δεδομένων.

  • Δείκτες που έχουν σχεδιαστεί με μη αυτόματο τρόπο: συμπεριλαμβανομένης της λεξιλογικής ποικιλομορφίας (όπως αναλογία διακριτικού τύπου, vocd-D, MTLD, HD-D, κ.λπ.) και σημασιολογικής ποικιλομορφίας (όπως υπολογισμός απόστασης μέσω γραφήματος k-NN, υπολογισμός διακύμανσης χρησιμοποιώντας ενσωμάτωση BERT κ.λπ. ), κλπ. είδος δείκτη.
  • Μετρήσεις που βασίζονται σε μοντέλα: Αξιολογήστε την ποικιλομορφία μέσω μεθόδων που σχετίζονται με την εντροπία (όπως εντροπία βανίλιας, εντροπία Rényi, δείκτης Simpson, βαθμολογία Vendi, κ.λπ.), ενσωματώσεις Task2Vec, δείκτες διαφοροποίησης ανοιχτής ετικέτας, κ.λπ.
  • Δειγματοληψία Coreset με βάση γεωμετρικά χαρακτηριστικά: Επιλέξτε το πιο ενημερωτικό και ποικίλο υποσύνολο μέσω μεθόδων k-center greedy, herding και άλλων μεθόδων για την αναπαράσταση ολόκληρου του συνόλου δεδομένων, έτσι ώστε η απόδοση εκπαίδευσης του μοντέλου στο υποσύνολο να είναι κοντά στην απόδοση εκπαίδευσης στο ολόκληρο το σύνολο δεδομένων, η τεχνολογία ομαδοποίησης παίζει ρόλο στην εξήγηση της δομής δεδομένων.
  • Δειγματοληψία Coreset με βάση το Bi-level: Αντιμετωπίστε τη δειγματοληψία Coreset ως πρόβλημα βελτιστοποίησης δύο επιπέδων, επιλέγοντας υποσύνολα βελτιστοποιώντας σκληρές μάσκες ή μαλακά βάρη, που περιλαμβάνει τη βελτιστοποίηση των εσωτερικών παραμέτρων του μοντέλου και τον εξωτερικό βρόχο επιλογής δεδομένων από το σύνολο επικύρωσης, τις τεχνικές αντιστοίχισης κλίσης και βελτιστοποίησης κ.λπ. για τη βελτίωση της ευρωστίας και της αποτελεσματικότητας.

★Εκτίμηση και επιλογή σημασίας

Η σημασία αναφέρεται στην αναγκαιότητα δειγμάτων για εκπαίδευση μοντέλων, η οποία σχετίζεται με την εργασία του μοντέλου και σχετίζεται επίσης με την απόδοση. Τα εύκολα δείγματα μπορεί να μην απαιτούν πρόσθετο συντονισμό, ενώ τα σκληρά δείγματα είναι κρίσιμα για την εκπαίδευση μοντέλων.

Υπάρχουν διάφοροι κύριοι δείκτες και μέθοδοι για την αξιολόγηση της σημασίας:

  • Μετρήσεις σχεδιασμένες με το χέρι: Αξιολογήστε τη δυσκολία του κειμένου μέσω μετρήσεων αναγνωσιμότητας (όπως γραμματική, λεξιλόγιο, εξαρτήσεις συμπερασμάτων κ.λπ.), επιλέξτε απαιτητικά δείγματα για να αξιολογήσετε την ευρωστία του μοντέλου και να δημιουργήσετε διακριτικά σημεία αναφοράς NLP.
  • Δείκτες βασισμένοι σε μοντέλα: συμπεριλαμβανομένης της αβεβαιότητας (όπως η άμεση αβεβαιότητα), των βαθμολογιών ανταμοιβής (χρησιμοποιώντας το μοντέλο ανταμοιβής για να κριθεί η αναγκαιότητα των δειγμάτων για τη συμπεριφορά του μοντέλου) και μοντέλα δεδομένων (όπως η πρόβλεψη του αντίκτυπου των σημείων δεδομένων στη συμπεριφορά του μοντέλου μέσω του μοντέλου δεδομένων, DSIR βάσει της βαθμολογίας εκτίμησης ομοιότητας κατανομής, συνεχής επιλογή MATES του πιο αποτελεσματικού υποσυνόλου, Xie et al.
  • Δειγματοληψία Coreset με βάση την απώλεια και το σφάλμα: Εκτίμηση της σημασίας καταγράφοντας τα λάθη των δειγμάτων στην προπόνηση (όπως η βαθμολογία λήθης, η απομνημόνευση, η επιρροή κ.λπ.), η επιλογή δειγμάτων που συμβάλλουν σημαντικά στην απώλεια ή οδηγούν σε κακή απόδοση, ορισμένες μελέτες χρησιμοποιούν επαναληπτική προσέγγιση και μικροί παράγοντες Το μοντέλο επιταχύνει τον υπολογισμό των οριακών επιπτώσεων.
  • Δειγματοληψία Coreset βάσει διαβάθμισης: χρησιμοποιεί τα χαρακτηριστικά των διαβαθμίσεων για να επηρεάσει άμεσα τη βελτιστοποίηση του μοντέλου γλώσσας, που επιλέγεται μέσω αντιστοίχισης διαβάθμισης (όπως η προσέγγιση της διαβάθμισης ολόκληρου του συνόλου δεδομένων) και επιρροής που βασίζεται σε κλίση (όπως η μέτρηση της επίδρασης των δειγμάτων στις παραμέτρους του μοντέλου μέσω πολλαπλασιασμού κλίσης ανώτερης στάθμισης) Δεδομένα, ορισμένες τεχνικές (όπως αναζήτηση ομοιότητας κλίσης χαμηλής κατάταξης, προσέγγιση κινούμενου δείγματος κ.λπ.) χρησιμοποιούνται για την επιτάχυνση των υπολογισμών και τη βελτίωση της απόδοσης, ενώ πρέπει να ληφθούν υπόψη η ακρίβεια και η αποτελεσματικότητα της προσέγγισης.



Υπάρχουσες προκλήσεις και μελλοντικές κατευθύνσεις

Οι συγγραφείς βρήκαν ένα χάσμα μεταξύ της αποτελεσματικότητας της επιλογής δεδομένων και της αναφερόμενης απόδοσης του μοντέλου σε δείκτες αναφοράς, λόγω λόγων όπως η κακή συσχέτιση μεταξύ της απώλειας αξιολόγησης και της απόδοσης των σημείων αναφοράς, η μόλυνση του συνόλου δοκιμών κ.λπ.

Στο μέλλον, πρέπει να δημιουργηθούν εξειδικευμένα σημεία αναφοράς για την αξιολόγηση μοντέλων συντονισμού εντολών και επιλεγμένων σημείων δεδομένων και για την αποσύνδεση της επιλογής δεδομένων και της αξιολόγησης μοντέλων για τον αποκλεισμό των επιπτώσεων της μόλυνσης των δεδομένων.

Επί του παρόντος δεν υπάρχει ενιαίο πρότυπο για τη διάκριση των «καλών» και των «κακών» οδηγιών ανάγκες των κατάντη εργασιών.

Καθώς το σύνολο δεδομένων επεκτείνεται, ο καθορισμός της βέλτιστης αναλογίας επιλογής γίνεται δύσκολος λόγω αυξημένου θορύβου, υπερβολικής προσαρμογής και λήθης. Βέλτιστες αναλογίες επιλογής και βελτιστοποιημένοι αγωγοί επεκτασιμότητας για αξιολόγηση και επιλογή δεδομένων.

Εκτός από τα σύνολα δεδομένων, το μέγεθος των ίδιων των μεγάλων μοντέλων αυξάνεται επίσης, καθιστώντας την αξιολόγηση και την επιλογή δεδομένων λιγότερο οικονομικά αποδοτική, απαιτώντας την ανάπτυξη αποτελεσματικών υποκατάστατων μοντέλων, ενώ επανεξετάζονται οι παραδοσιακές τεχνικές μηχανικής μάθησης, όπως οι τεχνικές βελτιστοποίησης και οι μέθοδοι μείωσης διαστάσεων.

Αρχική σελίδα του έργου:
https://github.com/yuleiqin/fantastic-data-engineering
Διεύθυνση χαρτιού:
https://arxiv.org/abs/2408.02085