Νέα

Το Πανεπιστήμιο Επιστήμης και Τεχνολογίας της Κίνας και η Huawei Noah Entropy Law αποκαλύπτουν την απόδοση και το ρυθμό συμπίεσης δεδομένων μεγάλων μοντέλων

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Η στήλη AIxiv είναι μια στήλη όπου το Machine Heart δημοσιεύει ακαδημαϊκό και τεχνικό περιεχόμενο. Τα τελευταία χρόνια, η στήλη Heart of the Machine AIxiv έχει λάβει περισσότερες από 2.000 αναφορές, που καλύπτουν κορυφαία εργαστήρια από μεγάλα πανεπιστήμια και εταιρείες σε όλο τον κόσμο, προωθώντας αποτελεσματικά τις ακαδημαϊκές ανταλλαγές και τη διάδοση. Εάν έχετε εξαιρετική δουλειά που θέλετε να μοιραστείτε, μη διστάσετε να συνεισφέρετε ή να επικοινωνήσετε μαζί μας για αναφορά. Email υποβολής: [email protected], [email protected]

Αυτή η εργασία ολοκληρώθηκε από την ομάδα του IEEE Fellow Chen Enhong του Εθνικού Εργαστηρίου Γνωσιακής Νοημοσύνης στο Πανεπιστήμιο Επιστήμης και Τεχνολογίας της Κίνας και του εργαστηρίου Noah's Ark Laboratory της Huawei. Η ομάδα του καθηγητή Chen Enhong ασχολείται βαθιά με τους τομείς της εξόρυξης δεδομένων και της μηχανικής μάθησης και έχει δημοσιεύσει πολλές εργασίες σε κορυφαία περιοδικά και συνέδρια που έχουν αναφερθεί περισσότερες από 20.000 φορές. Το Noah's Ark Laboratory είναι το εργαστήριο της Huawei που ασχολείται με τη βασική έρευνα για την τεχνητή νοημοσύνη.

Τα δεδομένα είναι ο ακρογωνιαίος λίθος της επιτυχίας των μεγάλων γλωσσικών μοντέλων (LLM), αλλά δεν είναι όλα τα δεδομένα ωφέλιμα για την εκμάθηση μοντέλων. Διαισθητικά, τα δείγματα υψηλής ποιότητας αναμένεται να έχουν καλύτερη αποτελεσματικότητα στη διδασκαλία του LLM. Επομένως, οι υπάρχουσες μέθοδοι συνήθως επικεντρώνονται στην επιλογή δεδομένων με βάση την ποιότητα. Ωστόσο, οι περισσότερες από αυτές τις μεθόδους αξιολογούν διαφορετικά δείγματα δεδομένων, αγνοώντας τα πολύπλοκα συνδυαστικά αποτελέσματα μεταξύ των δειγμάτων. Όπως φαίνεται στο Σχήμα 1, ακόμα κι αν κάθε δείγμα έχει τέλεια ποιότητα, ο συνδυασμός τους μπορεί να εξακολουθεί να μην είναι ο βέλτιστος λόγω του πλεονασμού ή της ασυνέπειας των αμοιβαίων πληροφοριών. Αν και το υποσύνολο που βασίζεται στην ποιότητα αποτελείται και από τα τρία δείγματα ποιότητας, η γνώση που κωδικοποιούν είναι στην πραγματικότητα περιττή και αντικρουόμενη. Αντίθετα, ένα άλλο υποσύνολο δεδομένων που αποτελείται από αρκετά σχετικά χαμηλότερης ποιότητας αλλά διαφορετικά δείγματα μπορεί να μεταφέρει περισσότερες πληροφορίες στη διδασκαλία του LLM. Επομένως, η επιλογή δεδομένων με βάση την ποιότητα δεν συνάδει πλήρως με τον στόχο της μεγιστοποίησης της γνώσης LLM.

Αυτό το άρθρο στοχεύει να αποκαλύψει την εγγενή σχέση μεταξύ της απόδοσης LLM και της επιλογής δεδομένων. Εμπνευσμένοι από τη φύση της συμπίεσης πληροφοριών LLM, ανακαλύψαμε έναν νόμο εντροπίας, ο οποίος συνδέει την απόδοση του LLM με τον ρυθμό συμπίεσης δεδομένων και την απώλεια προηγούμενων βημάτων εκπαίδευσης μοντέλων, που αντικατοπτρίζει αντίστοιχα τον βαθμό πλεονασμού πληροφοριών του συνόλου δεδομένων και το εγγενές αποτέλεσμα του LLM σχετικά με το σύνολο δεδομένων Ο βαθμός γνώσης. Μέσω της θεωρητικής εξαγωγής και της εμπειρικής αξιολόγησης, διαπιστώνουμε ότι η απόδοση του μοντέλου σχετίζεται αντιστρόφως με τον λόγο συμπίεσης των δεδομένων προπόνησης, που συνήθως οδηγεί σε μικρότερη απώλεια προπόνησης. Με βάση τα ευρήματα του νόμου της εντροπίας, προτείνουμε μια πολύ αποτελεσματική και γενική μέθοδο επιλογής δεδομένων για την εκπαίδευση LLM, που ονομάζεται ZIP, η οποία στοχεύει να δώσει προτεραιότητα σε υποσύνολα δεδομένων με χαμηλούς ρυθμούς συμπίεσης. Το ZIP επιλέγει άπληστα διαφορετικά δεδομένα σε πολλαπλά στάδια, λαμβάνοντας τελικά ένα υποσύνολο δεδομένων με καλή ποικιλομορφία.



Ομάδα: Η ομάδα του Chen Enhong στο Εθνικό Εργαστήριο Γνωσιακής Νοημοσύνης στο Πανεπιστήμιο Επιστήμης και Τεχνολογίας της Κίνας, στο εργαστήριο Noah's Ark Laboratory της Huawei

Σύνδεσμος χαρτιού: https://arxiv.org/pdf/2407.06645

Σύνδεσμος κωδικού: https://github.com/USTC-StarTeam/ZIP



Φιγούρα 1

Νόμος εντροπίας

Πραγματοποιούμε μια θεωρητική ανάλυση της σχέσης μεταξύ συμπίεσης δεδομένων και απόδοσης LLM. Διαισθητικά, η ορθότητα και η ποικιλομορφία των δεδομένων εκπαίδευσης θα επηρεάσει την απόδοση του τελικού μοντέλου. Ταυτόχρονα, η απόδοση του LLM μπορεί να μην είναι βέλτιστη εάν τα δεδομένα έχουν σοβαρές εγγενείς συγκρούσεις ή εάν το μοντέλο δεν κατανοεί καλά τις πληροφορίες που κωδικοποιούνται στα δεδομένα. Με βάση αυτές τις παραδοχές, δηλώνουμε την απόδοση του LLM ως Z, η οποία αναμένεται να επηρεαστεί από:

Αναλογία συμπίεσης δεδομένων R: Διαισθητικά, ένα σύνολο δεδομένων με χαμηλότερο λόγο συμπίεσης υποδηλώνει υψηλότερη πυκνότητα πληροφοριών.

Απώλεια προπόνησης L: Υποδεικνύει εάν τα δεδομένα είναι δύσκολο να θυμηθεί το μοντέλο. Σύμφωνα με το ίδιο βασικό μοντέλο, η υψηλή απώλεια προπόνησης οφείλεται συνήθως στην παρουσία θορύβου ή ασυνεπών πληροφοριών στο σύνολο δεδομένων.

Συνέπεια δεδομένων Γ: Η συνέπεια δεδομένων αντικατοπτρίζεται από την εντροπία της πιθανότητας του επόμενου διακριτικού δεδομένης της προηγούμενης κατάστασης. Η υψηλότερη συνέπεια δεδομένων συνήθως οδηγεί σε μικρότερη απώλεια προπόνησης.

Μέση ποιότητα δεδομένων Q: αντικατοπτρίζει τη μέση ποιότητα των δεδομένων σε επίπεδο δείγματος, η οποία μπορεί να μετρηθεί μέσω διαφόρων αντικειμενικών και υποκειμενικών πτυχών.



Με βάση τον νόμο της εντροπίας, προτείνουμε δύο συμπεράσματα:

Εάν το C αντιμετωπίζεται ως σταθερά, η απώλεια προπόνησης επηρεάζεται άμεσα από τον λόγο συμπίεσης. Επομένως, η απόδοση του μοντέλου ελέγχεται από τον λόγο συμπίεσης: εάν ο λόγος συμπίεσης δεδομένων R είναι υψηλότερος, τότε το Z είναι συνήθως χειρότερο, κάτι που θα επαληθευτεί στα πειράματά μας.

Με τον ίδιο λόγο συμπίεσης, υψηλότερη απώλεια προπόνησης σημαίνει χαμηλότερη συνέπεια δεδομένων. Επομένως, η αποτελεσματική γνώση που μαθαίνεται από το μοντέλο μπορεί να είναι πιο περιορισμένη. Αυτό μπορεί να χρησιμοποιηθεί για την πρόβλεψη της απόδοσης του LLM σε διαφορετικά δεδομένα με παρόμοια αναλογία συμπίεσης και ποιότητα δείγματος. Θα δείξουμε την εφαρμογή αυτού του συλλογισμού στην πράξη αργότερα.

ZIP: ένας εξαιρετικά ελαφρύς αλγόριθμος επιλογής δεδομένων

Υπό την καθοδήγηση του νόμου της εντροπίας, προτείναμε το ZIP, μια μέθοδο επιλογής δεδομένων που επιλέγει δείγματα δεδομένων μέσω του ρυθμού συμπίεσης δεδομένων, με στόχο τη μεγιστοποίηση της ποσότητας αποτελεσματικών πληροφοριών υπό περιορισμένο προϋπολογισμό δεδομένων εκπαίδευσης. Για λόγους αποδοτικότητας, υιοθετούμε ένα επαναληπτικό άπληστο παράδειγμα πολλαπλών σταδίων για να λάβουμε αποτελεσματικά κατά προσέγγιση λύσεις με σχετικά χαμηλούς ρυθμούς συμπίεσης. Σε κάθε επανάληψη, χρησιμοποιούμε πρώτα ένα στάδιο συνολικής επιλογής για να επιλέξουμε μια ομάδα υποψηφίων δειγμάτων με χαμηλό λόγο συμπίεσης για να βρούμε δείγματα με υψηλή πυκνότητα πληροφοριών. Στη συνέχεια, χρησιμοποιούμε ένα στάδιο τοπικής επιλογής με χονδρόκοκκο για να επιλέξουμε ένα σύνολο μικρότερων δειγμάτων που έχουν τον μικρότερο πλεονασμό με τα επιλεγμένα δείγματα. Τέλος, χρησιμοποιούμε ένα λεπτόκοκκο στάδιο τοπικής επιλογής για να ελαχιστοποιήσουμε την ομοιότητα μεταξύ των δειγμάτων που θα προστεθούν. Η παραπάνω διαδικασία συνεχίζεται μέχρι να ληφθούν επαρκή δεδομένα Ο συγκεκριμένος αλγόριθμος έχει ως εξής:



Πειραματικά αποτελέσματα

1. Αποτελεσματικότητα του αλγόριθμου επιλογής ZIP για διαφορετικά LLM και σε διαφορετικά στάδια ευθυγράμμισης LLM

Συγκρίνοντας διαφορετικούς αλγόριθμους επιλογής δεδομένων SFT, το μοντέλο που εκπαιδεύεται με βάση τα δεδομένα επιλογής ZIP παρουσιάζει πλεονεκτήματα στην απόδοση και είναι επίσης ανώτερο σε απόδοση. Δείτε τον παρακάτω πίνακα για συγκεκριμένα αποτελέσματα:



Χάρη στα ανεξάρτητα από μοντέλο και μη ευαίσθητα στο περιεχόμενο χαρακτηριστικά του ZIP, μπορεί επίσης να εφαρμοστεί στην επιλογή δεδομένων στο στάδιο της ευθυγράμμισης προτιμήσεων. Τα δεδομένα που επιλέγονται από το ZIP παρουσιάζουν επίσης μεγάλα πλεονεκτήματα. Δείτε τον παρακάτω πίνακα για συγκεκριμένα αποτελέσματα:



2. Πειραματική επαλήθευση του νόμου της Εντροπίας

Με βάση το πείραμα επιλογής δεδομένων SFT, προσαρμόζουμε πολλαπλές καμπύλες σχέσεων με βάση το αποτέλεσμα του μοντέλου, τον ρυθμό συμπίεσης δεδομένων και την απώλεια του μοντέλου στα προηγούμενα βήματα της εκπαίδευσης. Τα αποτελέσματα φαίνονται στο Σχήμα 2 και στο Σχήμα 3, από τα οποία μπορούμε να παρατηρήσουμε τη στενή συσχέτιση μεταξύ των τριών παραγόντων. Πρώτα απ 'όλα, τα δεδομένα χαμηλού ρυθμού συμπίεσης φέρνουν συνήθως καλύτερα αποτελέσματα για το μοντέλο αυτό επειδή η διαδικασία εκμάθησης των LLM σχετίζεται σε μεγάλο βαθμό με τη συμπίεση πληροφοριών και επομένως πιο πολύτιμο για τον συμπιεστή. Ταυτόχρονα, μπορεί να παρατηρηθεί ότι οι χαμηλότερες αναλογίες συμπίεσης συνήθως συνοδεύονται από υψηλότερες απώλειες εκπαίδευσης.



Εικόνα 2 Mistral-7B



Εικόνα 3 Llama-3-8B

3.Πρακτική εφαρμογή του νόμου της Εντροπίας

Παρέχουμε μια εφαρμογή ενός νόμου εντροπίας για την καθοδήγηση σταδιακών ενημερώσεων των δεδομένων εκπαίδευσης LLM σε πραγματικά σενάρια. Σε αυτό το σενάριο εργασίας, ο όγκος των δεδομένων εκπαίδευσης παραμένει σχετικά σταθερός και μόνο ένα μικρό μέρος των δεδομένων τροποποιείται.Τα αποτελέσματα φαίνονται στο Σχήμα 4, όπου



Είναι 5 εκδόσεις δεδομένων που ενημερώνονται σταδιακά Λόγω των απαιτήσεων εμπιστευτικότητας, παρέχεται μόνο η σχετική σχέση των επιπτώσεων του μοντέλου σε διαφορετικούς ρυθμούς συμπίεσης. Σύμφωνα με τις προβλέψεις του νόμου της εντροπίας, υποθέτοντας ότι η ποιότητα των δεδομένων δεν μειώνεται σημαντικά μετά από κάθε σταδιακή ενημέρωση, μπορεί να αναμένεται ότι η απόδοση του μοντέλου θα βελτιωθεί καθώς μειώνεται ο ρυθμός συμπίεσης δεδομένων.Αυτή η πρόβλεψη είναι συνεπής με την έκδοση δεδομένων στο σχήμα

Τα αποτελέσματα είναι συνεπή.Ωστόσο, η έκδοση δεδομένων

Παρουσιάζει ασυνήθιστες αυξήσεις στις απώλειες και στη συμπίεση δεδομένων, οι οποίες υποδεικνύουν πιθανή υποβάθμιση της απόδοσης του μοντέλου λόγω μειωμένης συνέπειας στα δεδομένα εκπαίδευσης. Αυτή η πρόβλεψη επιβεβαιώθηκε περαιτέρω από την επακόλουθη αξιολόγηση απόδοσης του μοντέλου. Επομένως, ο νόμος της εντροπίας μπορεί να χρησιμοποιηθεί ως κατευθυντήρια αρχή για την εκπαίδευση LLM για την πρόβλεψη του πιθανού κινδύνου αποτυχίας της εκπαίδευσης LLM χωρίς εκπαίδευση του μοντέλου στο πλήρες σύνολο δεδομένων μέχρι τη σύγκλιση. Αυτό είναι ιδιαίτερα σημαντικό δεδομένου του υψηλού κόστους εκπαίδευσης LLM.



Εικόνα 4