νέα

Το μικρό μοντέλο σηκώθηκε, η SOTA έφυγε από το πρόγραμμα περιήγησης, αγκαλιάζοντας το πρόσωπό μου: τα συνθετικά δεδομένα δεν είναι το μέλλον

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Ο Mengchen προέρχεται από τον ναό Aofei
Qubits | Δημόσιος λογαριασμός QbitAI

Το μικρό μοντέλο SOTA που μπορεί να τρέξει απευθείας στο πρόγραμμα περιήγησης είναι εδώ, κερδίζοντας στα 200 εκατομμύρια, 500 εκατομμύρια και 2 δισεκατομμύρια επίπεδα αντίστοιχα, που παρήγαγε η Huahuanlian.



Υπάρχουν μόνο δύο μυστικά:

  • Φιλτράρετε τα δεδομένα επιθετικά
  • Προπονηθείτε σκληρά σε εξαιρετικά φιλτραρισμένα σύνολα δεδομένων

Επικεφαλής επιστήμονας του HuaqiangΤόμας Γουλφ, συνοψίζοντας την εμπειρία της ομάδας στην ανάπτυξη μικρών μοντέλων, την προβολή νέων προοπτικών και την προσέλκυση της προσοχής του κλάδου:

Τα συνθετικά δεδομένα είναι προς το παρόν χρήσιμα μόνο σε συγκεκριμένους τομείςΤο δίκτυο είναι τόσο μεγάλο και ποικιλόμορφο που οι δυνατότητες των πραγματικών δεδομένων δεν έχουν ακόμη αξιοποιηθεί πλήρως.



Προς το παρόν, η έκδοση του μοντέλου 360M έχει κυκλοφορήσει ως επίδειξη και μπορεί να παιχτεί online (προσοχή στην κίνηση).



Καλέστε την τοπική GPU για να εκτελεστεί στο πρόγραμμα περιήγησης, συμπεριλαμβανομένων των βαρών του μοντέλου και της διεπαφής διεπαφής web, και αυτό γίνεται σε 400 MB.



Φιλτράρετε αυστηρά τα δεδομένα δικτύου και η απόδοση εκτοξεύεται στα ύψη

Για τη σειρά μικρών μοντέλων Microsoft Phi, υποστηρίζεται ότι χρησιμοποιούνται τα μισά συνθετικά δεδομένα και το αποτέλεσμα είναι πολύ καλό, αλλά τα δεδομένα δεν αποκαλύπτονται.

Η κοινότητα ανοιχτού κώδικα δεν αντέχει άλλο γιατί είναι τόσο δύσκολο να το αντέχει:

Δημιουργήστε ένα μεγάλο συνθετικό σύνολο δεδομένων για συγκριτική αξιολόγηση και ανοιχτού κώδικα.

Επιπλέον, η ομάδα υπαινίχθηκε αόριστα ότι αυτή η κίνηση θα δοκιμάσει επίσης τις φήμες ότι η Microsoft εξαπατούσε στο σετ δοκιμών και εάν αυτό ελήφθη υπόψη.



Το Huggy Face κατασκευάστηκε χρησιμοποιώντας το Mixtral-8-7B, το καλύτερο μοντέλο ανοιχτού κώδικα εκείνη την εποχή.25ΒΣυνθετικά δεδομένα.

Το εκπαιδευμένο μοντέλο έχει καλή απόδοση, αλλά εξακολουθεί να είναι κάπως κάτω από το επίπεδο των Phi-1 και Phi-1.5.

Προσπάθησαν να έχουν μεγάλα μοντέλα να εξηγούν διάφορα θέματα σε επίπεδο γυμνασίου και τελικά μόνο κακή απόδοση στο τεστ MMLU, επειδή το MMLU είναι μια ερώτηση σε επίπεδο διδακτορικού.



Η πραγματική ανακάλυψη απόδοσης προήλθε από μια παράπλευρη εργασία:

Εκτός από τη δημιουργία συνθετικών δεδομένων από την αρχή με μεγάλα μοντέλα, δοκιμάστεΦιλτράρισμα δεδομένων δικτύου με φιλτράρισμα μεγάλων μοντέλων

Συγκεκριμένα, αναπτύχθηκε ένας ταξινομητής χρησιμοποιώντας σχολιασμούς που δημιουργήθηκαν από το Llama3-70B-Struct.Διατηρήστε μόνο τις πιο εκπαιδευτικές ιστοσελίδες στο σύνολο δεδομένων FineWeb

Χρησιμοποιώντας αυστηρά φιλτραρισμένα δεδομένα δικτύου, η απόδοση εκτοξεύεται στα ύψη και ξεπερνά όλα τα άλλα μοντέλα παρόμοιου μεγέθους στα περισσότερα σημεία αναφοράς, συμπεριλαμβανομένου του Phi-1.5.



Η ομάδα Huahuanglian είπε ότι τα αποτελέσματα αυτού του πειράματος ήταν"Γλυκόπικρος"’s: Αν και η απόδοση του μοντέλου είναι άνευ προηγουμένου υψηλή, δείχνει επίσης ότι τα συνθετικά δεδομένα εξακολουθούν να είναι κατώτερα από τα πραγματικά δεδομένα.

Αργότερα χρησιμοποίησαν την ίδια ιδέα για να επεκταθούν από φυσική γλώσσα σε κώδικα και το φιλτραρισμένο σύνολο δεδομένων κώδικα αποδείχθηκε επίσης πολύ ισχυρό.

Βελτιώστε άμεσα τη βαθμολογία αναφοράς HumanEval από περίπου 13% σε πάνω από 20%.

Στο τελικό σύνολο μικτών δεδομένων που κατασκεύασαν, το φιλτραρισμένο σύνολο δεδομένων που αφαιρέθηκαν αντιπροσωπεύουν τη συντριπτική πλειοψηφία και τα καθαρά συνθετικά δεδομένα Cosmopedia v2 αντιπροσώπευαν μόνο το 15%.



Συνοψίζοντας λοιπόν, εξακολουθούν να είναι χρήσιμα τα συνθετικά δεδομένα;

Η ομάδα πιστεύει ότι μπορεί να έχει περισσότερο νόημα μόνο για τομείς όπου υπάρχει πραγματική έλλειψη πραγματικών δεδομένων, όπως η συλλογιστική και τα μαθηματικά.



Ακόμη και τα μικρά μοντέλα απαιτούν τρισεκατομμύρια μάρκες για να εκπαιδευτούν

Καθώς ενθουσιάζονταν με αυτά τα νέα ευρήματα και αποτελέσματα, ένας νέος ασκούμενος, ο Elie Bakouch, προσχώρησε.

Αν και ήταν απλώς ασκούμενος εκείνη την εποχή, ήταν πράγματι ειδικός σε διάφορες τεχνικές εκπαίδευσης.



Με τη βοήθεια του Elie, η ομάδα μείωσε το μέγεθος του μοντέλου από 1,7B σε 360M ή ακόμα και 170M, που είναι το τυπικό μοντέλο GPT-1, GPT-2 και BERT.

Μια δεύτερη σημαντική ανακάλυψη έγινε κατά τη διάρκεια αυτής της διαδικασίας: σε αντίθεση με την προηγούμενη συναίνεση,Ακόμη και τα μικρά μοντέλα πρέπει να εκπαιδεύονται σε τρισεκατομμύρια μάρκες, όσο περισσότερο τόσο το καλύτερο.

επίσηςΑνόπτηση δεδομένωνΤο (Anneal the data) έχει επίσης αποδειχθεί αποτελεσματικό, δηλαδή η διατήρηση ενός ειδικού συνόλου δεδομένων υψηλής ποιότητας για το τελευταίο μέρος της εκπαίδευσης.

Η τελευταία σειρά μοντέλων που κυκλοφόρησε είναι κατάλληλη για εγκατάσταση σε διάφορες συσκευές, από smartphone έως φορητούς υπολογιστές Το μεγαλύτερο μοντέλο 1,7B, το BF16, καταλαμβάνει μόνο 3G μνήμης με ακρίβεια.

Για αναφορά, η έκδοση εισόδου iPhone 15 έχει επίσης 6G και τα τηλέφωνα Android έχουν ακόμη περισσότερα.



Αν και το βασικό μοντέλο που εκπαιδεύτηκε αυτή τη φορά ήταν αρκετά καλό, η ομάδα βρήκε ακόμα ένα πρόβλημα.

Οι προηγούμενες τεχνολογίες ευθυγράμμισης και μικρορύθμισης, όπως SFT, DPO, PPO κ.λπ., είναι πολύ αποτελεσματικές για μεγάλα μοντέλα, αλλά δεν είναι ιδανικές για μικρά μοντέλα.

Η ομάδα ανέλυσε ότι το σύνολο δεδομένων ευθυγράμμισης περιείχε πολλές έννοιες που ήταν πολύ περίπλοκες για το μικρό μοντέλο και δεν είχαν καλοσχεδιασμένες απλές εργασίες.

Ο επόμενος νέος λάκκος έχει σκαφτεί και οι ενδιαφερόμενες ομάδες μπορούν να αρχίσουν να εργάζονται σε αυτό και μπορεί να γίνουν οι σωτήρες μικρών μοντέλων.

Ηλεκτρονική δοκιμή:
https://huggingface.co/spaces/HuggingFaceTB/instant-smollm

Σύνδεσμοι αναφοράς:
[1]https://huggingface.co/blog/smollm
[2]https://x.com/Thom_Wolf/status/1825094850686906857