Η κατεύθυνση των μοντέλων μεγάλης κλίμακας έχει αλλάξει και το OpenAI Apple έκανε ένα U-turn

Η κατεύθυνση των μοντέλων μεγάλης κλίμακας έχει αλλάξει και η OpenAI Apple έκανε μια αναστροφή

2024-07-22

έξυπνα πράγματα
ΣυγγραφέαςZeR0
Συντάκτης Mo Ying

Το Generative AI φαίνεται να έχει ένα αόρατο μοτίβο: κάθε τόσο, θα υπάρχει ένα σοκαριστικό γεγονός μεγάλης κλίμακας "αυτοκινητιστικό δυστύχημα".

Μόνο φέτος, κυκλοφόρησε το μοντέλο Google Gemini 1.5 Pro, κυκλοφόρησε το μοντέλο παραγωγής βίντεο OpenAI, Sora και το OpenAI GPT-4o κυκλοφόρησε στο Google I/O Developer Conference, επιτρέποντας στους θεατές σε όλο τον κόσμο να μυρίσουν τον ισχυρό ανταγωνισμό για ηγεμονία ανάμεσα σε μεγάλα μοντέλα Η μυρωδιά της πυρίτιδας.

Εάν όλες οι προηγούμενες συμπτώσεις υποδηλώνουν ότι το OpenAI υποκλοπή σκόπιμα της Google, τότε μέσα σε τέσσερις ημέρες την περασμένη εβδομάδα, οι Hugging Face, OpenAI, Mistral και Apple διαδοχικά κυκλοφόρησαν τα πιο ισχυρά ελαφριά μοντέλα τους, που είναι σίγουρα η τελευταία τάση στον κλάδο της τεχνητής νοημοσύνης.

Τώρα, τα μεγάλα μοντέλα τεχνητής νοημοσύνης δεν αφορούν πλέον μόνο αγώνες«Μεγαλύτερο και δυνατότερο», και τυλίχθηκε βίαια"Κάνε μικρά πράγματα και κάνε ωραία πράγματα"。

Το να ξεπεράσουμε το GPT-4o δεν είναι πλέον το μοναδικό KPI. -αποτελεσματικός--Το μοντέλο είναι μικρότερο με την ίδια απόδοση και η απόδοση είναι υψηλότερη με τις ίδιες παραμέτρους και εξοικονομεί χρήματα.。

▲Τα πρόσφατα κυκλοφορημένα ελαφριά μοντέλα GPT-4o mini και Mistral NeMo την περασμένη εβδομάδα είναι πολύ κορυφαία όσον αφορά την απόδοση κόστους (Πηγή: Artificial Analysis)

Στην πραγματικότητα, αυτή η τεχνολογική τάση των «μεγάλων μοντέλων που επανατυλίγονται στη μικρογραφία» άρχισε να δημιουργείται το δεύτερο εξάμηνο του περασμένου έτους.

Οι αλλαγές παιχνιδιών είναι δύο εταιρείες. Η μία είναι η γαλλική τεχνητή νοημοσύνη Mistral Τον Σεπτέμβριο του περασμένου έτους, χρησιμοποίησε ένα μεγάλο μοντέλο με 7 δισεκατομμύρια παραμέτρους για να νικήσει το Llama 2 με 13 δισεκατομμύρια παραμέτρους Face the Wall Intelligence Τον Φεβρουάριο φέτος κυκλοφόρησε ένα πιο συγκεντρωμένο μοντέλο MiniCPM, επιτυγχάνοντας απόδοση που ξεπερνά το Llama 2 13B με μόνο 2,4 δισεκατομμύρια παραμέτρους.

Και οι δύο startup είναι γνωστές στην κοινότητα των προγραμματιστών και πολλά μοντέλα έχουν βρεθεί στην κορυφή της hot λίστας ανοιχτού κώδικα. Συγκεκριμένα, το Wall-Facing Intelligence, το οποίο εκκολάπτεται από το Εργαστήριο Επεξεργασίας Φυσικής Γλώσσας του Πανεπιστημίου Tsinghua, προκάλεσε σάλο φέτος όταν το πολυτροπικό μοντέλο του «βομβαρδίστηκε» από μια ομάδα κορυφαίων πανεπιστημίων στις Ηνωμένες Πολιτείες Η πρωτότυπη εργασία έχει αναγνωριστεί σε ακαδημαϊκούς κύκλους στο εσωτερικό και στο εξωτερικό, με αποτέλεσμα τα εγχώρια μοντέλα τεχνητής νοημοσύνης ανοιχτού κώδικα να είναι περήφανα για τον εαυτό τους.

Η Apple έχει επίσης αρχίσει να ερευνά μοντέλα από την πλευρά του τερματικού που μπορούν να προσαρμοστούν καλύτερα στα κινητά τηλέφωνα από πέρυσι. Το OpenAI, το οποίο έχει ακολουθήσει την πορεία της εκτεταμένης και βίαιης επέκτασης, είναι μια σχετικά εκπληκτική νεοεισερχόμενη εταιρεία. Η κυκλοφορία του ελαφρού μοντέλου GPT-4o mini την περασμένη εβδομάδα σημαίνει ότι ο μεγάλος αδερφός του μοντέλου πήρε την πρωτοβουλία να αποχωρήσει από τον «βωμό» και άρχισε να ακολουθεί την τάση της βιομηχανίας, προσπαθώντας να χρησιμοποιήσει φθηνότερα και ευκολότερα στην απόκτηση μοντέλα για να αξιοποιήσει μια ευρύτερη αγορά.

Το 2024 θα είναι μια κρίσιμη χρονιά για τη «μικρογραφία» των μεγάλων μοντέλων!

▲Τα ελλιπή στατιστικά στοιχεία ελαφρών μοντέλων γενικής γλώσσας που κυκλοφόρησαν πρόσφατα το 2024 περιλαμβάνονται μόνο στο μοντέλο γενικής γλώσσας με ποσότητα παραμέτρου ≤8B που μπορεί να αναπτυχθεί στην πλευρά της συσκευής και δεν περιλαμβάνονται μοντέλα πολλαπλών τρόπων (Πηγή: Zhidongxi)

1. «Ο νόμος του Moore» στην εποχή των μεγάλων μοντέλων: μόνο η αποτελεσματικότητα μπορεί να οδηγήσει στη βιωσιμότητα

Επί του παρόντος, η έρευνα και ανάπτυξη μεγάλων μοντέλων πέφτει σε αδράνεια:Δυνατό θαύμα。

Το 2020, μια εργασία του OpenAI επαλήθευσε ότι υπάρχει ισχυρή συσχέτιση μεταξύ της απόδοσης του μοντέλου και της κλίμακας. Εφόσον καταπίνετε περισσότερα δεδομένα υψηλής ποιότητας και εκπαιδεύετε ένα μεγαλύτερο μοντέλο, μπορείτε να αποκτήσετε υψηλότερη απόδοση.

Ακολουθώντας αυτόν τον απλό αλλά αποτελεσματικό δρόμο, τα τελευταία δύο χρόνια, υπήρξε ένας γρήγορος παγκόσμιος αγώνας για την επιδίωξη μεγαλύτερων μοντέλων. Αυτό εγκυμονεί τον κρυφό κίνδυνο της αλγοριθμικής ηγεμονίας Μόνο οι ομάδες με επαρκή κεφάλαια και υπολογιστική ισχύ έχουν το κεφάλαιο για να συμμετάσχουν στον διαγωνισμό για μεγάλο χρονικό διάστημα.

Πέρυσι, ο Διευθύνων Σύμβουλος του OpenAI Sam Altman αποκάλυψε ότι το κόστος της εκπαίδευσης GPT-4 είναι τουλάχιστον100 εκατομμύρια δολάρια ΗΠΑ . Ελλείψει ενός επιχειρηματικού μοντέλου υψηλού κέρδους, ακόμη και οι μεγάλες εταιρείες τεχνολογίας με βαθιές τσέπες θα δυσκολευτούν να αντέξουν οικονομικά μακροπρόθεσμες επενδύσεις ανεξάρτητα από το κόστος. Το οικολογικό περιβάλλον δεν μπορεί να ανεχτεί να επιτρέψει αυτό το απύθμενο παιχνίδι που καίει χρήματα.

Το χάσμα απόδοσης μεταξύ των κορυφαίων μεγάλων μοντέλων γλώσσας μειώνεται εμφανώς. Αν και το GPT-4o κατατάσσεται σταθερά στην πρώτη θέση, η διαφορά στις βαθμολογίες αναφοράς με τους Claude 3 Opus και Gemini 1.5 Pro παραμένει αμετάβλητη. Σε ορισμένες δυνατότητες, δεκάδες δισεκατομμύρια μεγάλα μοντέλα μπορούν να επιτύχουν ακόμη και καλύτερες επιδόσεις. Το μέγεθος του μοντέλου δεν είναι πλέον ο μόνος καθοριστικός παράγοντας που επηρεάζει την απόδοση.

Δεν είναι ότι τα κορυφαία μεγάλα μοντέλα δεν είναι ελκυστικά, είναι ότι τα ελαφριά μοντέλα είναι πιο οικονομικά.

Η παρακάτω εικόνα είναι ένα διάγραμμα τάσεων κόστους τεχνητής νοημοσύνης που κοινοποιήθηκε από τη μηχανική τεχνητής νοημοσύνης Karina Ngugen στις πλατφόρμες κοινωνικής δικτύωσης στα τέλη Μαρτίου του τρέχοντος έτους και απεικονίζει με σαφήνεια τη σχέση μεταξύ της απόδοσης των μεγάλων γλωσσικών μοντέλων στο σημείο αναφοράς MMLU και του κόστους του από το 2022: Πάνω. χρόνο , το μοντέλο γλώσσας λαμβάνει υψηλότερες βαθμολογίες ακρίβειας MMLU και το σχετικό κόστος μειώνεται σημαντικά. Η ακρίβεια του νέου μοντέλου φτάνει περίπου το 80%, ενώ η απόδοση κόστους είναι τάξεις μεγέθους χαμηλότερη από ό,τι πριν από λίγα χρόνια.

Ο κόσμος αλλάζει πολύ γρήγορα και τους τελευταίους μήνες υπήρξε ένα κύμα νέων, οικονομικά αποδοτικών μοντέλων ελαφρού βάρους.

▲Μοντέλα μικρότερου μεγέθους μπορούν να επιτύχουν εξαιρετική απόδοση με χαμηλότερο κόστος (Πηγή: Embedded AI)

"Ο ανταγωνισμός για μεγάλα μεγέθη γλωσσικών μοντέλων εντείνεται - αντίστροφα ο γκουρού της τεχνολογίας AI Andrej Karpathy στοιχηματίζει: "Θα δούμε μερικά πολύ, πολύ μικρά μοντέλα να "σκέφτονται" πολύ καλά και αξιόπιστα."

Δυνατότητα μοντέλου ÷ παράμετροι του μοντέλου που εμπλέκονται στον υπολογισμό = πυκνότητα γνώσης , αυτή η διάσταση μέτρησης μπορεί να χρησιμοποιηθεί για να αναπαραστήσει ότι τα μοντέλα με την ίδια κλίμακα παραμέτρων μπορούν να έχουν ισχυρή νοημοσύνη. Το μεγάλο μοντέλο GPT-3 που κυκλοφόρησε τον Ιούνιο του 2020 έχει 175 δισεκατομμύρια παραμέτρους.Τον Φεβρουάριο του τρέχοντος έτους, το μέγεθος της παραμέτρου του έξυπνου μοντέλου MiniCPM-2.4B που βλέπει στον τοίχο που πέτυχε την ίδια απόδοση μειώθηκε σε 2,4 δισεκατομμύρια, που ισοδυναμεί με αύξηση της πυκνότητας γνώσης κατά περίπου86 φορές。

Με βάση αυτές τις τάσεις, ο Liu Zhiyuan, μόνιμος αναπληρωτής καθηγητής του Τμήματος Επιστήμης Υπολογιστών στο Πανεπιστήμιο Tsinghua και επικεφαλής επιστήμονας της νοημοσύνης που βλέπει στον τοίχο, διατύπωσε πρόσφατα μια ενδιαφέρουσα άποψη:Η εποχή των μεγάλων μοντέλων έχει τον δικό της «νόμο του Μουρ»。

συγκεκριμένα,Με τη συντονισμένη ανάπτυξη δεδομένων, υπολογιστικής ισχύος και αλγορίθμων, η πυκνότητα γνώσης των μεγάλων μοντέλων συνεχίζει να αυξάνεται, διπλασιάζοντας κατά μέσο όρο κάθε οκτώ μήνες.。

▲ Από τις αλλαγές στη λίστα OpenCompass, μπορούμε να δούμε ότι οι μικρές παράμετροι και τα μοντέλα υψηλής απόδοσης έχουν γίνει τάση

Αυξάνοντας την πυκνότητα του κυκλώματος στο τσιπ, οι υπολογιστικές συσκευές με την ίδια υπολογιστική ισχύ θα εξελιχθούν από υπερυπολογιστές που μπορούν να χωρέσουν σε πολλά δωμάτια σε κινητά τηλέφωνα που μπορούν να μεταφερθούν σε τσέπες. Ο Liu Zhiyuan ονόμασε τον κατευθυντήριο νόμο που πρότεινε ως «Νόμος που βλέπει στον τοίχο».

Εάν αυτή η τάση συνεχιστεί,Για να εκπαιδεύσει ένα μοντέλο με 100 δισεκατομμύρια παραμέτρους, θα μπορεί να επιτύχει τις δυνατότητες ενός μοντέλου με 50 δισεκατομμύρια παραμέτρους σε 8 μήνες, μπορεί να επιτευχθεί μόνο με 25 δισεκατομμύρια παραμέτρους.。

2. Οι δυνάμεις χωρίζονται σε πολλαπλές κατευθύνσεις: ο πόλεμος τιμών κλειστού κώδικα βρίσκεται σε πλήρη εξέλιξη και ο ανοιχτός κώδικας Κίνα, Ηνωμένες Πολιτείες και Ευρώπη ανταγωνίζονται μεταξύ τους.

Οι παίκτες που συμμετέχουν αυτήν τη στιγμή στον μεγάλο διαγωνισμό ελαφρών μοντέλων χωρίζονται σε πολλές ομάδες.

Η OpenAI, η Google και η Anthropic έχουν όλοι ακολουθήσει τη διαδρομή κλειστού κώδικα. Τα κορυφαία μοντέλα τους όπως τα GPT-4o, Claude 3.5 Sonnet και Gemini 1.5 Pro ελέγχουν τα ισχυρότερα επίπεδα απόδοσης και η κλίμακα παραμέτρων αυτών των μοντέλων φτάνει τα εκατοντάδες δισεκατομμύρια ή και τα τρισεκατομμύρια.

Το ελαφρύ μοντέλο είναι μια απογυμνωμένη έκδοση του κορυφαίου μοντέλου του. Μετά την κυκλοφορία του OpenAI την περασμένη εβδομάδα, το GPT-4o mini έχει γίνει η πιο οικονομική επιλογή στην αγορά κάτω από 10B λόγω της απόδοσής του που ξεπερνά το Gemini Flash και ο Claude Haiku αντικατέστησε το GPT-3.5 για δωρεάν χρήση από τους χρήστες Το ToB μείωσε απότομα την τιμή του API One hand, καθιστώντας το όριο για την υιοθέτηση της τεχνολογίας μεγάλων μοντέλων.

Ο Andriy Burkov, συγγραφέας του "Machine Learning Engineering", συμπεραίνει ότι οι προδιαγραφές παραμέτρων του GPT-4o mini είναι περίπου 7B με βάση την τιμή. Ο Διευθύνων Σύμβουλος του Wall-facing Intelligence, Li Dahai, εικάζει ότι το GPT-4o mini είναι ένα μοντέλο "ευρείας MoE" με μεγάλο αριθμό ειδικών, αντί για ένα μοντέλο από πλευράς συσκευής κόστος υλοποίησης μεγάλων μοντέλων.

Το στρατόπεδο ελαφρών μοντέλων ανοιχτού κώδικα είναι ακόμη μεγαλύτερο, με αντιπροσωπευτικούς παίκτες από την Κίνα, τις Ηνωμένες Πολιτείες και την Ευρώπη.

Οι εγχώριες Alibaba, Wall-Facing Intelligence, SenseTime και Shanghai Artificial Intelligence Laboratory έχουν όλα ανοιχτού κώδικα μερικά ελαφριά μοντέλα.Μεταξύ αυτών, τα μοντέλα της σειράς Qwen της Alibaba χρησιμοποιούνται συχνά σε δοκιμές αναφοράς ελαφρών μοντέλων και τα μοντέλα νοημοσύνης σε τοίχο της σειράς MiniCPM είναι επίσης παραδείγματα χρήσης μικρών παραμέτρων για την υπερπήδηση μεγάλων μοντέλων σε δευτερόλεπτα και επαινούνται ιδιαίτερα στην κοινότητα ανοιχτού κώδικα.

Η Face Wall Intelligence είναι μια μελλοντική επιχειρηματική ομάδα του AI Agent στις αρχές του περασμένου έτους και κυκλοφόρησε περισσότερους από 100 δισεκατομμύρια πράκτορες τεχνητής νοημοσύνης τον Αύγουστο, εφαρμόστε την τεχνολογία μεγάλων μοντέλων και πρακτόρων για τη χρηματοδότηση, την εκπαίδευση, τις κυβερνητικές υποθέσεις, τα έξυπνα τερματικά και άλλα σενάρια, διαμορφώστε την κατεύθυνση της συσκευής. συνεργασία στο cloud στο τέλος του έτους και, στη συνέχεια, θα κυκλοφορήσει εντατικά μια ποικιλία μοντέλων υψηλής απόδοσης και χαμηλής κατανάλωσης ενέργειας από την πλευρά της συσκευής φέτος.

Τους τελευταίους έξι μήνες, η Wallface Intelligence κυκλοφόρησε τα βασικά μοντέλα MiniCPM 2.4B και MiniCPM 1.2B, το μοντέλο μεγάλου κειμένου MiniCPM-2B-128k, το πολυτροπικό μοντέλο MiniCPM-V 2.0 και το επίπεδο απόδοσης GPT-4V MiniCPM- Llama3-V 2.5 Hybrid expert model MiniCPM-MoE-8x2B, κ.λπ. Μέχρι στιγμής, ο συνολικός όγκος λήψεων της σειράς MiniCPM έχει φτάσει σχεδόν τις 950.000, με 12.000 αστέρια.

Αυτή η εκκίνηση εφάρμοσε επίσης ένα πιο ενεργειακά αποδοτικό μοντέλο MiniCPM-S 1.2B μέσω μιας αποδοτικής αραιής αρχιτεκτονικής: η πυκνότητα γνώσης έφτασε 2,57 φορές αυτή του πυκνού μοντέλου MiniCPM 1.2B της ίδιας κλίμακας και 12,1 φορές αυτή του Mistral-7B, περαιτέρω συμπερασματικά ο «νόμος που βλέπει στον τοίχο».

▲Το έξυπνο μοντέλο της σειράς MiniCPM που βλέπει στον τοίχο επαναλαμβάνεται γρήγορα και βελτιώνει την πυκνότητα γνώσης

Στο στρατόπεδο ελαφρών μοντέλων ανοιχτού κώδικα στις Ηνωμένες Πολιτείες, μεγάλες εταιρείες τεχνολογίας έχουν υψηλό βαθμό συμμετοχής, συμπεριλαμβανομένων των Meta, Microsoft, Google, Apple, Stability AI κ.λπ., και η ιστορία του "το κύμα πίσω χτυπά το κύμα μπροστά κάτω στην παραλία» σκηνοθετείται συχνά.

Η Hugging Face κυκλοφόρησε επίσης μοντέλα SmolLM με τρεις προδιαγραφές παραμέτρων την περασμένη εβδομάδα: 135M, 360M και 1,7B Σε σύγκριση με μοντέλα του ίδιου μεγέθους, η απόδοση 1,7B έχει ξεπεράσει το Microsoft Phi-1,5 σε πολλαπλές δοκιμές. , Google MobileLLM-1.5B και Alibaba Qwen2-1.5B.

Η Apple, η οποία φημίζεται για το ότι είναι «κλειστή», είναι μια πολύ γνωστή σχολή ανοιχτού κώδικα στον τομέα της τεχνητής νοημοσύνης: κυκλοφόρησε το μοντέλο Ferret τον περασμένο Οκτώβριο τον Απρίλιο του τρέχοντος έτους, κυκλοφόρησε τέσσερις προπονήσεις OpenELM μοντέλα με παραμέτρους που κυμαίνονται από 2,7 δισεκατομμύρια έως 30 δισεκατομμύρια και Μεταξύ των πιο πρόσφατων μοντέλων DCLM, η απόδοση της έκδοσης 6,9B υπερβαίνει το Mistral 7B και η βαθμολογία MMLU της έκδοσης 1,4B υπερβαίνει το SmolLM-1,7B.

▲ Η Apple χρησιμοποιεί το DCLM-Baseline για να εκπαιδεύσει το μοντέλο (πορτοκαλί), το οποίο παρουσιάζει καλή απόδοση σε σύγκριση με μοντέλα κλειστού κώδικα (σταυροί) και άλλα σύνολα δεδομένων ανοιχτού κώδικα και μοντέλα (κύκλοι)

Ο αντιπροσωπευτικός παίκτης στην Ευρώπη δεν είναι άλλος από τον Γάλλο μεγάλο μοντέλο μονόκερο Mistral AI.Μόλις κυκλοφόρησε το μικρό μοντέλο Mistral Nemo 12B, το οποίο υποστηρίζει επεξεργασία περιβάλλοντος 128k. Η απόδοση του ξεπερνά το Google Gemma 2 9B και το Llama 2 8B. .

Αυτές οι εξελίξεις δείχνουν τις δυνατότητες εφαρμογής της μικρογραφίας μεγάλων μοντέλων.

Ο Clem Delangue, συνιδρυτής και Διευθύνων Σύμβουλος της Hugging Face, προέβλεψε:Μικρότερα, φθηνότερα, πιο γρήγορα και πιο εξατομικευμένα μοντέλα θα καλύψουν το 99% των περιπτώσεων χρήσης . Δεν χρειάζεστε ένα αυτοκίνητο Formula 1 1 εκατομμυρίου δολαρίων για να οδηγείτε στη δουλειά σας κάθε μέρα, ούτε χρειάζεστε ένα chatbot πελάτη τράπεζας για να σας πει το νόημα της ζωής! "

3. Πώς γίνατε ειδικός στην εξοικονόμηση χρημάτων στον κλάδο των μεγάλων μοντέλων;

Η επανατύλιξη και η μικρογραφία μεγάλων μοντέλων είναι μια αναπόφευκτη τάση για την τεχνητή νοημοσύνη προς όφελος όλων.

Δεν απαιτούν όλες οι εφαρμογές το πιο ισχυρό μεγάλο μοντέλο. Ο επιχειρηματικός ανταγωνισμός λαμβάνει υπόψη τη σχέση κόστους-αποτελεσματικότητας και δίνει έμφαση στην υψηλή ποιότητα και τη χαμηλή τιμή.

Τα μοντέλα πολύ μεγάλης κλίμακας θα επιφέρουν υψηλό κόστος μάθησης στους προγραμματιστές και θα χρειαστούν πολύ κόπο από την εκπαίδευση μέχρι την ανάπτυξη. Ένα πιο βελτιωμένο μοντέλο μπορεί να μειώσει την αναλογία εισροών-εκροών και να χρησιμοποιήσει λιγότερα κεφάλαια, δεδομένα, πόρους υλικού και κύκλους εκπαίδευσης για τη δημιουργία ανταγωνιστικών μοντέλων, μειώνοντας έτσι το κόστος υποδομής, συμβάλλοντας στη βελτίωση της προσβασιμότητας και στην επιτάχυνση της ανάπτυξης μοντέλων και της εφαρμογής.

▲Σύμφωνα με το χαρτί Apple DataComp-LM, όσο λιγότερες παράμετροι μοντέλου, τόσο λιγότερη υπολογιστική ισχύς και χρόνος απαιτείται για την εκπαίδευση.

Για συγκεκριμένες εφαρμογές, τα ελαφριά μοντέλα απαιτούν λιγότερα δεδομένα, ώστε να μπορούν να ρυθμιστούν πιο εύκολα για συγκεκριμένες εργασίες, ώστε να επιτύχουν την απόδοση και την αποδοτικότητα που ανταποκρίνονται στις ανάγκες σας. Λόγω μιας βελτιωμένης αρχιτεκτονικής, αυτός ο τύπος μοντέλου απαιτεί λιγότερη χωρητικότητα αποθήκευσης και υπολογιστική ισχύ Μετά τη βελτιστοποίηση της σχεδίασης για το τελικό υλικό, μπορεί να εκτελεστεί τοπικά σε φορητούς υπολογιστές, smartphone ή άλλες μικρές συσκευές, με χαμηλή καθυστέρηση, εύκολη πρόσβαση και προστασία. Τα πλεονεκτήματα του απορρήτου και της ασφάλειας διασφαλίζουν ότι τα προσωπικά δεδομένα δεν θα μεταδοθούν εξωτερικά.

Αν και το ελαφρύ μοντέλο υψηλής απόδοσης είναι μικρό, πρέπει να είναι "Χρησιμοποιήστε περιορισμένη υπολογιστική ισχύ και κατανάλωση ενέργειας για να συμπυκνώσετε τη γνώση σε ένα μοντέλο με μικρότερες παραμέτρους«Το τεχνικό όριο δεν είναι χαμηλό.

Η προπονητική διαδικασία είναιΠρώτα γίνε μεγαλύτερος, μετά γίνε μικρότερος , αποστάζοντας την ουσία της γνώσης από πολύπλοκα μεγάλα μοντέλα. Για παράδειγμα, το μικρό πολυτροπικό μοντέλο Gemma-2 του μικρού ποτηριού της Google έχει τελειοποιηθεί χρησιμοποιώντας τις γνώσεις του μοντέλου 27B.

Αλλά όσον αφορά τις συγκεκριμένες τεχνικές διαδρομές, διαφορετικοί παίκτες έχουν διαφορετικές προσεγγίσεις.

Για παράδειγμα σεδεδομένα εκπαίδευσης Από την άλλη πλευρά, ο Meta τροφοδότησε περήφανα δεδομένα εκπαίδευσης μάρκες Llama 3 15T. Οι Microsoft, Apple, κ.λπ. επικεντρώνονται στη βελτιστοποίηση των συνόλων δεδομένων εκπαίδευσης και στην καινοτομία των μεθόδων δεδομένων Το Microsoft Phi-3 χρησιμοποιεί μόνο μάρκες 3,3Τ και το Apple DCLM 7B χρησιμοποιεί μόνο μάρκες 2,6Τ. Σύμφωνα με το έγγραφο της Apple DataComp-LM,Η βελτίωση των συνόλων δεδομένων εκπαίδευσης μπορεί να επιτύχει μια ισορροπία μεταξύ υπολογισμού και απόδοσης, μειώνοντας το κόστος εκπαίδευσης . Το Mistral NeMo που κυκλοφόρησε πρόσφατα την περασμένη εβδομάδα, συμπιέζει κείμενο και κώδικα πιο αποτελεσματικά από τα προηγούμενα μοντέλα, χρησιμοποιώντας το προηγμένο tagger Tekken.

Το «μικρότερο» εξακολουθεί να απαιτείΑρχιτεκτονική καινοτομία . Για παράδειγμα, το μοντέλο OpenELM της Apple εκτελεί ιεραρχική λεπτομέρεια σχεδιασμού για τα σημεία συμφόρησης υλικού για να βελτιώσει την αποδοτικότητα λειτουργίας στην τελική πλευρά του έξυπνου MiniCPM-S 1.2B αποδοτικό μοντέλο με αραιότητα σχεδόν 88%, επιτρέποντας το πλήρες επίπεδο σύνδεσης. έως Η κατανάλωση μειώνεται στο 84% και η ταχύτητα αποκωδικοποίησης είναι 2,8 φορές μεγαλύτερη από το αντίστοιχο πυκνό μοντέλο χωρίς συμβιβασμούς στην απόδοση.

▲Τεχνική ταξινόμηση για την υλοποίηση μεγάλων γλωσσικών μοντέλων αποδοτικών πόρων (Πηγή: Έγγραφο "Beyond Efficiency: A Systematic Survey of Resource-Efficient Large Language Models")

Το μεγάλο μοντέλο είναι ένα συστηματικό έργο που πρέπει να διερευνηθεί».επιστήμη της τεχνητής νοημοσύνης«Κατεύθυνση, δηλαδήΜέσω της συνεχούς επανάληψης τεχνικών λύσεων όπως οι αλγόριθμοι, η αρχιτεκτονική, η διακυβέρνηση δεδομένων και η πολυτροπική σύντηξη, μπορούμε να εκπαιδεύσουμε μοντέλα πιο αξιόπιστα, προβλέψιμα και με υψηλότερη ποιότητα., για τη συνεχή βελτίωση της πυκνότητας γνώσης μεγάλων μοντέλων.

Για γρήγορη εκπαίδευση και βελτιστοποίηση μοντέλων, πρέπει να δημιουργηθεί μια αποτελεσματική γραμμή παραγωγής.Είναι απαραίτητο να δημιουργηθεί μια πλατφόρμα σουίτας εργαλείων πλήρους διαδικασίας και να διαμορφωθεί μια αποτελεσματική και επεκτάσιμη στρατηγική εκπαίδευσης μοντέλων. . Για παράδειγμα, ο μηχανισμός sandbox μοντέλου που βλέπει στον τοίχο επιτυγχάνει γρήγορο σχηματισμό δυνατοτήτων μοντέλων χρησιμοποιώντας μικρά μοντέλα για την πρόβλεψη της απόδοσης μεγάλων μοντέλων και μοιράζοντας σχήματα υπερπαραμέτρων μεταξύ μεγάλων και μικρών μοντέλων.

▲ Πραγματική σύγκριση της ταχύτητας αποκωδικοποίησης συμπερασμάτων MiniCPM 1.2B και MiniCPM-S 1.2B

Προκειμένου να επιταχυνθεί η χρήση μεγάλων μοντέλων σε έξυπνα τερματικά, η Facewall Intelligence δημιούργησε πρόσφατα το πρώτο out-of-the-box μεγάλο σετ εργαλείων μοντέλων της βιομηχανίας από την πλευρά του πελάτη "MobileCPM" και παρείχε μαθήματα σε στυλ νταντάς για να βοηθήσει τους προγραμματιστές να ενσωματώσουν μεγάλα μοντέλα σε εφαρμογές με ένα κλικ.

▲ Έξυπνο σετ εργαλείων μεγάλου μοντέλου στην πλευρά του τερματικού που βλέπει στον τοίχο "MobileCPM"

Φέτος συμπίπτει με την έκρηξη της τεχνητής νοημοσύνης από την πλευρά της συσκευής Από γίγαντες τσιπ όπως η Intel, η Nvidia, η AMD και η Qualcomm μέχρι τους μεγάλους κατασκευαστές υπολογιστών τεχνητής νοημοσύνης και smartphone, όλοι προωθούν μια ποικιλία εφαρμογών τεχνητής νοημοσύνης από την πλευρά της συσκευής. Οι κατασκευαστές τερματικών έχουν αρχίσει να ενώνουν τις δυνάμεις τους με τους γενικούς κατασκευαστές μοντέλων για να προωθήσουν την εφαρμογή ελαφρών μοντέλων σε ένα ευρύ φάσμα συσκευών τελικής πλευράς.

Καθώς η απόδοση των τσιπ τελικής πλευράς γίνεται ισχυρότερη και η πυκνότητα της γνώσης του μοντέλου αυξάνεται, τα μοντέλα που μπορούν να εκτελεστούν τοπικά σε συσκευές τελικής πλευράς γίνονται μεγαλύτερα και καλύτερα.Τώρα το GPT-4V μπορεί να τρέξει στην πλευρά του τερματικού, προβλέπει ο Liu ZhiyuanΤον επόμενο ένα χρόνο, τα μοντέλα επιπέδου GPT-3.5 μπορούν να τεθούν σε λειτουργία στην πλευρά της συσκευής και τα επόμενα δύο χρόνια, τα μοντέλα επιπέδου GPT-4o μπορούν να τεθούν σε λειτουργία στην τελική πλευρά.。

Συμπέρασμα: Ξεκινήστε έναν μεγάλο διαγωνισμό μοντέλων που δεν καίει τρελά λεφτά

Στον κόσμο της τεχνολογίας, η ιστορική τάση να γίνεται μικρότερη, φθηνότερη και ευκολότερη στη χρήση είναι πάντα επαναλαμβανόμενη. Στην εποχή των mainframe, οι υπολογιστές ήταν προϊόντα πολυτελείας υψηλής ποιότητας, προσβάσιμα μόνο στους πλούσιους και την ελίτ. Εισερχόμενοι στην εποχή των μικρών υπολογιστών, οι τεχνολογικές εξελίξεις έχουν κάνει τις υπολογιστικές συσκευές πιο φορητές και πιο εύχρηστες, ενώ οι υπολογιστές και τα κινητά τηλέφωνα έχουν εισέλθει στην καθημερινή εργασία και ζωή του ευρύτερου κοινού.

Όπως ακριβώς χρειαζόμαστε υπερυπολογιστές με τεράστια υπολογιστική ισχύ και κινητά τηλέφωνα που οι απλοί άνθρωποι μπορούν να βάλουν στις τσέπες τους, η εποχή της γενετικής τεχνητής νοημοσύνης απαιτεί εξαιρετικά έξυπνα μεγάλα μοντέλα που είναι πιο κοντά στους χρήστες, πιο οικονομικά και ικανά να ανταποκρίνονται σε συγκεκριμένες εφαρμογές μοντέλο ζήτησης.

Το OpenAI GPT-4o εξακολουθεί να βρίσκεται στην κορυφή των πιο ισχυρών μεγάλων μοντέλων τεχνητής νοημοσύνης, αλλά δεν είναι πλέον τόσο ανίκητο όσο πριν. Ταυτόχρονα, τα πιο συμπαγή και αποτελεσματικά μεγάλα μοντέλα αμφισβητούν την έννοια του "μεγαλύτερο, είναι καλύτερο". τεχνητής νοημοσύνης σε περιβάλλον επιχειρήσεων και καταναλωτών.

Η στροφή στη σμίκρυνση σηματοδοτεί μια σημαντική αλλαγή στον κλάδο της τεχνητής νοημοσύνης. Εν μέσω αυτής της τρέλας, η δύναμη ανοιχτού κώδικα της Κίνας, που αντιπροσωπεύεται από νοημοσύνη που βλέπει στον τοίχο, αναπτύσσεται δυναμικά Μέσω μιας σειράς τεχνολογικών καινοτομιών, επαληθεύει τον νόμο της πυκνότητας γνώσης των μεγάλων μοντέλων με πιο οικονομικά εφικτό τρόπο και τελικά προωθεί τη χρήση της. μεγάλα μοντέλα σε σενάρια πρακτικής εφαρμογής.

Νέα

Η κατεύθυνση των μοντέλων μεγάλης κλίμακας έχει αλλάξει και η OpenAI Apple έκανε μια αναστροφή

Εισαγωγή

τα στοιχεία επικοινωνίας μου