Νέα

Το OpenAI ξεκινά αιματηρή μάχη με μικρά μοντέλα!Το DCLM της Apple κάνει ένα δυνατό ντεμπούτο, συντρίβοντας τον πλήρη ανοιχτό κώδικα του Mistral 7B

2024-07-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Νέα Έκθεση Σοφίας

Επιμέλεια: Tao Zi Qiao Yang

[Εισαγωγή στη Νέα Σοφία] Είναι εδώ η εποχή των μικρών μοντέλων; Το OpenAI μπήκε για πρώτη φορά στο πεδίο μάχης των μικρών μοντέλων με το GPT-4o mini και το Mistral AI και το HuggingFace κυκλοφόρησαν μικρά μοντέλα το ένα μετά το άλλο. Σήμερα, η Apple κυκλοφόρησε επίσης ένα μικρό μοντέλο DCLM 7 δισεκατομμυρίων παραμέτρων, το οποίο ξεπερνά σε απόδοση το Mistral-7B.

Το πεδίο μάχης των μικρών μοντέλων ξεκινά!

Μετά την κυκλοφορία του GPT-4o mini και του Mistral NeMo, η Apple μπήκε επίσης στο παιχνίδι.

Το μικρό μοντέλο DCLM περιέχει δύο μεγέθη παραμέτρων - 7 δισεκατομμύρια και 1,4 δισεκατομμύρια, και είναι ανοιχτού κώδικα κατά την κυκλοφορία. Η μέγιστη παράμετρος των 7 δισεκατομμυρίων ξεπερνά το Mistral-7B και η απόδοσή του είναι κοντά στο Llama 3 και στο Gemma.


Σύμφωνα με τον Vaishaal Shankar, ερευνητή στην ομάδα ML της Apple (επίσης προγραμματιστή DCLM), αυτό είναι το μοντέλο «πραγματικά ανοιχτού κώδικα» με τις καλύτερες επιδόσεις μέχρι σήμερα, το οποίο όχι μόνο έχει βάρη και κώδικα εκπαίδευσης, αλλά βασίζεται επίσης στο ανοιχτό σύνολο δεδομένων DCLM-Baseline.


Σε σύγκριση με την απόδοση του μοντέλου, το μοντέλο «πραγματικού ανοιχτού κώδικα» της DCLM είναι πιο εντυπωσιακό.

Αντίθετα, οι περισσότεροι τεχνολογικοί γίγαντες ασχολούνται μόνο με μοντέλα κλειστού κώδικα ή «ακόμα κρατιούνται από την πίπα και μισοκαλύπτουν τα πρόσωπά τους».


Επιπλέον, ο Shankar προέβλεψε επίσης ότι τα μοντέλα ενδιάμεσων σημείων ελέγχου και η κατάσταση του βελτιστοποιητή θα συνεχίσουν να είναι online στο μέλλον.


Θα μπορούσε να είναι ότι αυτή είναι η άνοιξη της κοινότητας ανοιχτού κώδικα LLM;


Η σειρά DCLM είναι πλήρως ανοιχτού κώδικα

Επί του παρόντος, όλα τα βάρη μοντέλων έχουν κυκλοφορήσει στο HuggingFace και οι κάρτες μοντέλων καλύπτουν βασικά βασικές πληροφορίες.


https://huggingface.co/apple/DCLM-7B

Το DCLM-7B υιοθετεί επίσης μια αρχιτεκτονική μόνο για αποκωδικοποιητή και χρησιμοποιεί πλαίσια PyTorch και OpenLM για προ-εκπαίδευση.

Το σύνολο δεδομένων γραμμής βάσης DCLM για ένα σύνολο κουπονιών 4Τ προέρχεται από ένα σύνολο 240Τ DCLM και το μοντέλο DCLM-7B φιλτράρει περαιτέρω 2,5Τ από αυτό για εκπαίδευση.


Το μήκος περιβάλλοντος είναι 2048, το οποίο είναι μικρότερο από το μήκος των 8k των Mistral 7B και Gemma 2 9B.

Όσον αφορά την απόδοση, ο συγγραφέας χρησιμοποίησε απευθείας τη σουίτα αξιολόγησης LLM Foundry για να δοκιμάσει τις βαθμολογίες του μοντέλου σε 53 εργασίες αναφοράς.

Κατά τη σύγκριση με άλλα μοντέλα, εκτός από τη βαθμολογία MMLU, ο συγγραφέας προσάρμοσε επίσης δύο δείκτες - "core accuracy" (core) και "extended accuracy" (εκτεταμένη).

Το πρώτο είναι ο μέσος όρος της κεντρικής ακρίβειας 22 εργασιών, συμπεριλαμβανομένων των HellaSwag και ARC-E, ενώ το δεύτερο καλύπτει και τις 53 εργασίες.

Αν και δεν χρησιμοποιεί τα περισσότερα δεδομένα, σε σύγκριση με άλλα μοντέλα ανοιχτών δεδομένων ίδιου μεγέθους (τόσο τα βάρη όσο και τα σύνολα δεδομένων είναι ανοιχτού κώδικα), το DCLM επιτυγχάνει την καλύτερη απόδοση και στους τρεις δείκτες.


Οι τρεις στήλες των βαθμολογιών αναφοράς από αριστερά προς τα δεξιά είναι: πυρήνας, MMLU, επέκταση

Σε σύγκριση με το προηγούμενο μοντέλο SOTA MAP-Neo, η ακρίβεια εργασιών MMLU 5 βολών του DCLM-7B έφτασε το 63,7%, σημειώνοντας αύξηση 6,6 ποσοστιαίων μονάδων, ενώ το ποσό του υπολογισμού που απαιτείται για την εκπαίδευση μειώθηκε κατά 40%.

Ωστόσο, εάν συγκριθούν με μοντέλα με βάρη ανοιχτού κώδικα και σύνολα δεδομένων κλειστού κώδικα, το αποτέλεσμα δεν είναι ικανοποιητικό.

Υπάρχει μεγάλο χάσμα μεταξύ DCLM και Phi-3 σε διάφορους δείκτες και οι βαθμολογίες είναι περίπου ισοδύναμες με το Mistral-7B-v0.3 ή το Gemma 8B.


Οι ερευνητές διαπίστωσαν ότι κατά την εκπαίδευση με επιπλέον 100 B δεδομένων από το ίδιο σύνολο δεδομένων και την επέκταση του μήκους περιβάλλοντος σε 8k, οι βαθμολογίες του μοντέλου στον πυρήνα και στα εκτεταμένα σημεία αναφοράς βελτιώθηκαν περαιτέρω, αλλά τα αποτελέσματα MMLU δεν άλλαξαν.


Αυτό το αποτέλεσμα υπερβαίνει εντελώς τη βαθμολογία του Mistral 7B-v0.3.

Επιπλέον, η HuggingFace κυκλοφόρησε επίσης μια έκδοση τελειοποίησης οδηγιών του μοντέλου 7B, η οποία πέτυχε μια μεγάλης κλίμακας βελτίωση της απόδοσης στη μαθηματική εργασία συλλογισμού GSM8K, με τη βαθμολογία να εκτινάσσεται από το αρχικό 2,1 στο 52,5.


https://huggingface.co/apple/DCLM-7B-8k

Εκτός από την έκδοση 7Β, η έκδοση 1.4Β είναι επίσης online ταυτόχρονα. Ως εκ θαύματος, ο όγκος των δεδομένων εκπαίδευσης έχει αυξηθεί κατά 0,1 τόνους σε σύγκριση με την έκδοση 7B.


https://huggingface.co/TRI-ML/DCLM-1B

Σε σύγκριση με το SmolLM που κυκλοφόρησε πρόσφατα η HuggingFace, η απόδοση του DCLM-1B είναι σημαντικά καλύτερη, ειδικά η βαθμολογία MMLU 5 βολών, η οποία είναι 11,9% υψηλότερη από την SmolLM.

Όχι μόνο αυτό, η βαθμολογία MMLU του DCLM-1B 41,9 είναι επίσης υψηλότερη από το 37,87 του Qwen-1,5B και το 35,90 του Phi-1,5B.


Το μοντέλο 7B έμεινε πίσω, αλλά το μοντέλο 1.4B το ξεπέρασε, όπως ήταν αναμενόμενο, τα μικρά μοντέλα είναι η ειδικότητα της Apple.

Αξίζει να σημειωθεί ότι το μοντέλο 7B είναι διαθέσιμο μόνο με την άδεια χρήσης δειγματοληπτικού κώδικα (ASCL) της Apple, αλλά η έκδοση 1.4B κυκλοφορεί με Apache 2.0, επιτρέποντας εμπορική χρήση, διανομή και τροποποίηση.

Τώρα που μιλάμε για τα μοντέλα της σειράς DCLM που κυκλοφόρησαν αυτή τη φορά, πρέπει να αναφέρουμε τη σημαντική βάση τους - το σημείο αναφοράς DataComp.


Διεύθυνση χαρτιού: https://arxiv.org/pdf/2406.11794

Το έγγραφο DataComp δημοσιεύθηκε για πρώτη φορά στις 17 Ιουνίου. Οι συν-συγγραφείς Jeffrey Li, Alex Fang και ο συν-τελικός συγγραφέας Vaishaal Shankar είναι επίσης προγραμματιστές του Apple DCLM.

Το άρθρο όχι μόνο επεξεργάζεται τη διαδικασία κατασκευής του συνόλου δεδομένων, αλλά αναφέρει επίσης κάποιο περιεχόμενο σχετικά με το μοντέλο DCLM.

Ο Vaishaal Shankar είπε ότι μια ενημερωμένη έκδοση αυτού του εγγράφου θα κυκλοφορήσει σύντομα για να παρέχει περισσότερες τεχνικές λεπτομέρειες σχετικά με την προεκπαίδευση του μοντέλου.

Σε σύγκριση με την τροποποίηση του μοντέλου για το ίδιο σύνολο δεδομένων, η ιδέα της DataComp είναι το αντίθετο - το μοντέλο που χρησιμοποιείται για την αξιολόγηση είναι σταθερό και η αποστολή είναι να φιλτράρει και να επεξεργαστεί τα καλύτερα δεδομένα από μια συνολική δεξαμενή δεδομένων 240 Τ.

Μπορεί να ειπωθεί ότι αυτή η προσέγγιση είναι πολύ συνεπής με τις ιδέες έρευνας και ανάπτυξης των τεχνολογικών κολοσσών - για την απόδοση του LLM, τα δεδομένα προεκπαίδευσης γίνονται πιο σημαντικός παράγοντας από την αρχιτεκτονική και τα βάρη μοντέλων.

Άλλωστε, μια σειρά μοντέλων «ανοιχτού κώδικα» όπως τα Llama, Gemma και Phi απελευθερώνουν μόνο βάρη και δεν δημοσιεύουν δεδομένα.

Απαιτούνται τόσο το Scaling Law όσο και το SLM

Για τους γίγαντες της τεχνολογίας AI, μερικές φορές όσο μεγαλύτερο είναι το μοντέλο, τόσο το καλύτερο.


Στην πραγματικότητα, δεν υπήρχε πάντα έλλειψη μικρών μοντέλων στην κοινότητα AI, όπως οι πολλαπλές επαναλήψεις των μοντέλων της σειράς Phi της Microsoft και το Gemma 2 7B που μόλις ενημερώθηκε από την Google στα τέλη Ιουνίου.

Αυτή την εβδομάδα, το OpenAI κυκλοφόρησε ξαφνικά το GPT-4o mini, το Mistral AI συνεργάστηκε με τη Nvidia για να κυκλοφορήσει το Mistral NeMo, το SmoLLM της HuggingFace και άλλα μικρά μοντέλα, προσθέτοντας ξανά φωτιά στο πεδίο των μικρών μοντέλων.

Όπως είπε ένας ερευνητής του OpenAI, «Ενώ προτιμάμε να εκπαιδεύουμε μεγάλα μοντέλα περισσότερο από οποιονδήποτε άλλο, το OpenAI ξέρει επίσης πώς να εκπαιδεύει μικρά μοντέλα».


Τα μικρά μοντέλα έχουν το πλεονέκτημα ότι είναι χαμηλού κόστους, γρήγορα και πιο επαγγελματικά. Συνήθως εκπαιδεύονται χρησιμοποιώντας μόνο ένα μικρό όγκο δεδομένων και έχουν σχεδιαστεί για συγκεκριμένες εργασίες.

Το να κάνετε τα μεγάλα μοντέλα μικρότερα και στη συνέχεια να επεκτείνετε την κλίμακα τους μπορεί να είναι μία από τις τάσεις στη μελλοντική ανάπτυξη.


Πριν από δύο ημέρες, όταν κυκλοφόρησε το GPT-4o mini, ο Andrej Karpathy δημοσίευσε επίσης ένα μεγάλο tweet εκφράζοντας παρόμοιες απόψεις.


Πιστεύει ότι ο ανταγωνισμός στο μέγεθος του μοντέλου θα «αυξηθεί αντίστροφα», όχι όλο και μεγαλύτερος, αλλά ανταγωνιζόμενος για το ποιος είναι μικρότερος και ελαφρύτερος.

Ο λόγος για τον οποίο το τρέχον LLM έχει γίνει σταδιακά «μεγαθήριο» είναι επειδή η διαδικασία εκπαίδευσης εξακολουθεί να είναι πολύ σπάταλη Βασικά ζητάμε από το μοντέλο να θυμάται το περιεχόμενο ολόκληρου του Διαδικτύου (και στην πραγματικότητα, η ικανότητα μνήμης του LLM είναι αρκετά καλή. , και η ποιότητα είναι καλύτερη από ότι οι άνθρωποι είναι πολύ καλύτεροι).

Αλλά για τα μικρά μοντέλα, οι στόχοι εκπαίδευσης έχουν αλλάξει. Το βασικό ερώτημα είναι πώς τα συστήματα AI μπορούν να μάθουν περισσότερα από λιγότερα δεδομένα.

Χρειαζόμαστε το μοντέλο να γίνει πρώτα μεγαλύτερο και μετά μικρότερο, γιατί χρειαζόμαστε το «μεγαθήριο» για να ανακατασκευάσει και να διαμορφώσει τα δεδομένα σε μια ιδανική συνθετική μορφή, να αποκτήσει σταδιακά το «τέλειο σετ εκπαίδευσης» και μετά να το τροφοδοτήσει στο μικρό μοντέλο.

Με αυτήν την άποψη συμφώνησε και ο Μασκ. Η σκάλα βελτίωσης του μοντέλου που περιγράφεται από την Karpathy είναι ακριβώς η πορεία που έχει ακολουθήσει η Tesla στην πραγματικότητα.


Τον Απρίλιο του 2023, ο Sam Altman ανακοίνωσε το τέλος της εποχής των μεγάλων μοντέλων AI. Σε πρόσφατη συνέντευξή του, επιβεβαίωσε επίσης ότι η ποιότητα των δεδομένων είναι βασικός παράγοντας επιτυχίας για περαιτέρω εκπαίδευση σε τεχνητή νοημοσύνη.


Οι ερευνητές της Microsoft έκαναν αυτή την υπόθεση όταν ανέπτυξαν το μοντέλο Phi. Οι ερευνητές τεχνητής νοημοσύνης στο Hugging Face επιβεβαίωσαν επίσης πρόσφατα αυτήν την υπόθεση και κυκλοφόρησαν ένα σύνολο δεδομένων εκπαίδευσης υψηλής ποιότητας.

Λαμβάνοντας ως παράδειγμα το GPT-4, το κόστος ανάπτυξης και χρήσης περισσότερων από ένα τρισεκατομμύριο παραμέτρων υπερβαίνει τα 100 εκατομμύρια δολάρια ΗΠΑ.

Ένα μικρό μοντέλο, όπως ένα που εκπαιδεύεται ειδικά σε ένα νόμιμο σύνολο δεδομένων, μπορεί να χρησιμοποιεί λιγότερες από 10 δισεκατομμύρια παραμέτρους και να κοστίζει λιγότερο από 10 εκατομμύρια δολάρια Χρησιμοποιεί λιγότερη υπολογιστική ισχύ για να απαντήσει σε κάθε ερώτημα, επομένως το κόστος είναι χαμηλότερο.

Η Nadella είπε ότι η σειρά μικρών μοντέλων Phi έχει μόνο το 1/100 του μεγέθους του δωρεάν μοντέλου πίσω από το OpenAI και η απόδοσή της σε πολλές εργασίες είναι σχεδόν εξίσου καλή.


Επιπλέον, η Google και οι νεοσύστατες εταιρείες τεχνητής νοημοσύνης Mistral, Anthropic και Cohere κυκλοφόρησαν επίσης μικρότερα μοντέλα φέτος.

Τον Ιούνιο, η Apple ανακοίνωσε τον δικό της οδικό χάρτη ανάπτυξης τεχνητής νοημοσύνης, σχεδιάζοντας να χρησιμοποιήσει μικρά μοντέλα, ώστε το λογισμικό να μπορεί να λειτουργεί εξ ολοκλήρου στο τηλέφωνο, καθιστώντας το ταχύτερο και ασφαλέστερο.

Για πολλές εργασίες, όπως η σύνοψη εγγράφων ή η δημιουργία εικόνων, τα μεγάλα μοντέλα μπορεί να είναι υπερβολικά.

Ο Illia Polosukhin, ο συγγραφέας πίσω από το πρωτοποριακό έργο του Transformer, είπε ότι ο υπολογισμός του 2+2 δεν πρέπει να απαιτεί τετράδα δισεκατομμυρίων πράξεων.

Ωστόσο, οι κολοσσοί της τεχνολογίας δεν έχουν εγκαταλείψει τα μεγάλα μοντέλα. Στο φετινό συνέδριο WWDC, η Apple ανακοίνωσε την ενσωμάτωση του ChatGPT στον βοηθό Siri για την εκτέλεση σύνθετων εργασιών όπως η σύνταξη email.

Εξάλλου, οδηγώντας στο απόλυτο AGI/ASI, η επέκταση της κλίμακας παραμέτρων είναι ευθέως ανάλογη με την ανάπτυξη της νοημοσύνης.


Βιβλιογραφικές αναφορές:

https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/

https://www.wsj.com/tech/ai/for-ai-giants-smaller-is-sometimes-better-ef07eb98?mod=tech_lead_story

https://the-decoder.com/ai-models-might-need-to-scale-down-to-scale-up-again/