Η Apple δημιούργησε το μοντέλο 7B και έδωσε ολόκληρο το σύνολο δεδομένων της διαδικασίας εκπαίδευσης

Η Apple δημιούργησε το μοντέλο 7B και έδωσε ολόκληρο το σύνολο δεδομένων της διαδικασίας εκπαίδευσης.

2024-07-22

Η Apple είναι η τελευταία που εισήλθε στο πεδίο μάχης μεγάλων μοντέλων ανοιχτού κώδικα και είναι πιο ανοιχτή από άλλες εταιρείες.

απλώνω, ξεδιπλώνω, ξετυλίγωΜοντέλο 7Β, όχι μόνο το αποτέλεσμα είναι το ίδιο μεΛάμα 3 8ΒΕίναι αρκετά καλό και είναι ανοιχτού κώδικα ταυτόχρονα.Όλες οι διαδικασίες και οι πόροι εκπαίδευσης。

Ξέρετε, πριν από λίγο καιρό, η Elizabeth Gibney, συντάκτρια του περιοδικού Nature,Γράφοντας κριτική：

Πολλά μοντέλα τεχνητής νοημοσύνης που ισχυρίζονται ότι είναι ανοιχτού κώδικα δεν είναι στην πραγματικότητα διαφανή όσον αφορά τα δεδομένα και τις μεθόδους εκπαίδευσης και δεν μπορούν να καλύψουν τις ανάγκες πραγματικής επιστημονικής έρευνας.

Αλλά αυτή τη φορά η Apple έγινε πραγματικότητα! !

Ακόμη και ο επιστήμονας του NLP και ο δημιουργός του AutoAWQ αναφώνησε:

Η Apple κυκλοφόρησε ένα μοντέλο που ξεπερνά το Mistral 7B, αλλά αυτό που είναι ακόμα καλύτερο είναι ότι τα πάντα είναι εντελώς ανοιχτού κώδικα,Περιλαμβάνει σύνολο δεδομένων πριν από την εκπαίδευση

Προσέλκυσε επίσης τους χρήστες του Διαδικτύου να γελοιοποιηθούν στο διαδίκτυο:

Όσο για τη σημασία αυτού του ανοιχτού κώδικα, ορισμένοι ενθουσιώδεις χρήστες του Διαδικτύου βοήθησαν επίσης να το συνοψίσουμε:

Για όποιον θέλει να εκπαιδεύσει ένα μοντέλο από την αρχή ή να τελειοποιήσει ένα υπάρχον μοντέλο,διαδικασία διαχείρισης δεδομένωνΠρέπει να μελετηθεί.

Φυσικά, εκτός από το OpenAI και την Apple, η Mistral AI και η NVIDIA κυκλοφόρησαν επίσης ένα μικρό μοντέλο παραμέτρων 12Β την περασμένη εβδομάδα.

Ο ιδρυτής του HuggingFace είπε,"Εβδομάδα μικρού μοντέλου"ερχομός!

ρολό! Συνεχίστε να κυλάτε! Πόσο αποτελεσματικό είναι λοιπόν το μικρό μοντέλο που κυκλοφόρησε αυτή τη φορά από την Apple;

Το εφέ είναι κοντά στο Llama 3 8B

Ας μην μιλήσουμε για το πόσο ισχυρό είναι.Βασική διαμόρφωση μοντέλου。

Για να συνοψίσω:

Βασικό μοντέλο 7B, που χρησιμοποιείται σε ανοιχτά σύνολα δεδομένων2,5Τ μάρκεςδιεξάγουν εκπαίδευση
Κυρίως αγγλικά στοιχεία, με2048παράθυρο περιβάλλοντος κουπονιών
Τα σύνολα δεδομένων περιλαμβάνουν DCLM-BASELINE, StarCoder και ProofPile2
Η βαθμολογία MMLU είναι κοντά στο Llama 3 8B
Εκπαίδευση χρησιμοποιώντας PyTorch και OpenLM πλαίσιο

Συγκεκριμένα, η ερευνητική ομάδα πρότεινε αρχικά ένα γλωσσικό μοντέλοΝέο σημείο αναφοράς για σύγκριση δεδομένων——DCLM.

Αυτό το σημείο αναφοράς προτάθηκε επειδή η ομάδα βρήκε:

από μεγαλύτερα σύνολα δεδομένων από μοντέλα μηχανικής μάθησης (ML).Αυτόματο φιλτράρισμα και επιλογή δεδομένων υψηλής ποιότητας, μπορεί να είναι το κλειδί για τη δημιουργία ενός σετ εκπαίδευσης υψηλής ποιότητας.

Ως εκ τούτου, η ομάδα χρησιμοποιεί το DCLM για να σχεδιάσει σύνολα δεδομένων υψηλής ποιότητας για να βελτιώσει την απόδοση του μοντέλου, ειδικά στον τομέα πολλαπλών μέσων.

ΟτιΙδέεςΕίναι απλό: χρησιμοποιήστε ένα τυποποιημένο πλαίσιο για τη διεξαγωγή πειραμάτων, συμπεριλαμβανομένης της αρχιτεκτονικής σταθερών μοντέλων, του κώδικα εκπαίδευσης, των υπερπαραμέτρων και της αξιολόγησης και, τέλος, ανακαλύψτε ποια στρατηγική αντιπαράθεσης δεδομένων είναι καλύτερη για την εκπαίδευση μοντέλων υψηλής απόδοσης.

Με βάση τις παραπάνω ιδέες, η ομάδα κατασκεύασε έναΣύνολο δεδομένων υψηλής ποιότητας DCLM-BASELINE, και το χρησιμοποίησε για να εκπαιδεύσει ένα μοντέλο παραμέτρων 7B-DCLM-7B από την αρχή.

Ποια είναι η συγκεκριμένη απόδοση του DCLM-7B;

Τα αποτελέσματα δείχνουν ότι είναι 5-shot στο σημείο αναφοράς MMLUΤο ποσοστό ακρίβειας φτάνει το 64%, συγκρίσιμο με το Mistral-7B-v0.3 (63%) και το Llama 3 8B (66%) και η μέση απόδοση σε 53 εργασίες κατανόησης φυσικής γλώσσας είναι επίσης συγκρίσιμη με το Llama 3 8B, ενώ ο απαιτούμενος υπολογισμός είναι μόνο 1. /6 του τελευταίου.

Σε σύγκριση με άλλα μοντέλα του ίδιου μεγέθους, η βαθμολογία MMLU του DCLM-7B ξεπερνά το Mistral-7B και είναι κοντά στο Llama 3 8B.

Τέλος, γιαΕλέγξτε την επίδραση του νέου συνόλου δεδομένων, ορισμένοι εμπιστευτικοί χρησιμοποίησαν το llm.c του Kapasi για να εκπαιδεύσουν το GPT-2 1.5B για να συγκρίνουν τα δύο σύνολα δεδομένων του DCLM-Baseline και του FineWeb-Edu.

Τα αποτελέσματα δείχνουν ότι το DCLM-Baseline επιτεύχθηκευψηλότερη μέση βαθμολογία, και αποδίδει καλύτερα σε εργασίες όπως ARC (συλλογισμός επιστημονικών προβλημάτων μαθητών δημοτικού σχολείου), HellaSwag (συλλογισμός κοινής λογικής) και MMLU.

Τα «μικρά» μοντέλα γίνονται νέα τάση

Επιστρέφοντας στην αρχή, τα «μικρά» μοντέλα έχουν γίνει η νέα τάση τον τελευταίο καιρό.

Πρώτα, η HuggingFace λάνσαρε μια οικογένεια μικρών μοντέλων“SmolLM”, το οποίο περιλαμβάνει μοντέλα 135M, 360M και 1.7B.

Έχουν καλύτερη απόδοση από μοντέλα παρόμοιου μεγέθους σε ένα ευρύ φάσμα σημείων αναφοράς συμπερασμάτων και κοινής λογικής.

Στη συνέχεια ξαφνικά κυκλοφόρησε το OpenAIGPT-4o μίνι, όχι μόνο η δυνατότητα είναι κοντά στο GPT-4, αλλά η τιμή έχει πέσει σημαντικά.

Μόλις στο GPT-4o miniΚυκλοφόρησε την ίδια μέρα, η Mistral AI και η NVIDIA κυκλοφόρησαν ένα μικρό μοντέλο παραμέτρων 12Β——Mistral NeMo。

Όσον αφορά τη συνολική απόδοση, το Mistral NeMo νίκησε τους Gemma 2 9B και Llama 3 8B σε πολλαπλές δοκιμές αναφοράς.

Λοιπόν, γιατί όλοι αρχίζουν να βγάζουν μικρά μοντέλα;

Ο λόγος μπορεί να είναι όπως υπενθύμισε ο ιδρυτής του smol AI Αν και το μοντέλο έχει γίνει μικρότερο, όταν οι δυνατότητες είναι παρόμοιες, το μικρό μοντέλοΠολύ μειωμένο κόστος。

Ακριβώς όπως η εικόνα που έδωσε, τα μικρά μοντέλα που αντιπροσωπεύονται από το GPT-4o mini είναι γενικά φθηνότερα από εκείνα στα δεξιά.

Από αυτή την άποψη, περιμένω τους ανθρώπους που τρώνε πεπόνια να είναι όπως:

Λοιπόν, ποιο προτιμάτε;

Νέα

Η Apple δημιούργησε το μοντέλο 7B και έδωσε ολόκληρο το σύνολο δεδομένων της διαδικασίας εκπαίδευσης.

Εισαγωγή

τα στοιχεία επικοινωνίας μου