Νέα

Ο πόλεμος τιμών είναι άγριος και το μικρό μοντέλο AI εκτινάσσεται στα ύψη

2024-07-30

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Η έκρηξη των μικρών μοντέλων τεχνητής νοημοσύνης έχει γίνει μια νέα αρένα για τους γίγαντες της τεχνητής νοημοσύνης να ανταγωνίζονται.

Ο μεγάλος πόλεμος τιμών των μοντέλων συνεχίζεται για πάντα , και ένας νέος γύρος διαγωνισμών έχει ξεκινήσει.

Πρώτον, η HuggingFace κυκλοφόρησε τα SmolLM - 135M, 360M και 1.7B Χρησιμοποίησε μόνο 650B διακριτικά για προπόνηση, αλλά η απόδοσή του ξεπέρασε τα Qwen 1.5B και Phi 1.5B.

Την επόμενη μέρα, το Mistral AI και η NVIDIA κυκλοφόρησαν από κοινού το Mistral NeMo, το οποίο ονομάζεται «το καλύτερο μικρό μοντέλο του Mistral AI Είναι εύκολο στη χρήση και μπορεί να αντικαταστήσει άμεσα οποιοδήποτε σύστημα που χρησιμοποιεί το Mistral 7B».

Την ίδια μέρα, το OpenAI ξεκίνησε ένα "ξεφάντωμα αγορών" και κυκλοφόρησε μια μίνι έκδοση του GPT-4o - GPT-4o Mini. Ονόμασε αυτό το νέο μοντέλο "το πιο ισχυρό και οικονομικά αποδοτικό μοντέλο μικρής παραμέτρου" Το μοντέλο οθόνης αντικαθιστά τη θέση "μπροστινό στάδιο" της έκδοσης web του GPT-3.5.

Για να μην μακρηγορούμε, η Apple κυκλοφόρησε το μικρό μοντέλο DCLM την ίδια μέρα με το OpenAI και ήταν ανοιχτού κώδικα αμέσως μόλις κυκλοφόρησε. «Αυτό είναι το μοντέλο πραγματικά ανοιχτού κώδικα με τις καλύτερες επιδόσεις μέχρι σήμερα», δήλωσε ο Vaishaal Shankar, ερευνητής στην ομάδα ML της Apple.

Αυτά τα μοντέλα έχουν μικρές παραμέτρους και καταλαμβάνουν λιγότερη μνήμη Σε συγκεκριμένα σενάρια, τα αποτελέσματα μπορούν να είναι συγκρίσιμα με μεγάλα μοντέλα, καθιστώντας τα μια οικονομικά αποδοτική επιλογή.

«Τα μικρά μοντέλα πρέπει να είναι πιο εύκολο να συνειδητοποιήσουν την αξία τους, ο Xu Xiaotian, επικεφαλής αρχιτέκτονας δεδομένων και τεχνητής νοημοσύνης της IBM, δήλωσε σε μια συνέντευξη με έναν δημοσιογράφο από το 21st Century Business Herald: «Μια ομάδα μικρών επαγγελματιών μοντέλων συνεργάζεται με πράκτορες για να πετύχει». Η ενοποίηση των επιχειρηματικών ροών, της λειτουργικότητας και της οικονομίας θα είναι πιο εφικτό σεξουαλικά.

Στο πεδίο μάχης του μοντέλου τεχνητής νοημοσύνης, η ταχύτητα επανάληψης είναι εξαιρετικά γρήγορη, το «καλύτερο» του σήμερα μπορεί να νικηθεί αμέσως από τη νέα έκδοση του αύριο και τα «ιστορικά αρχεία» συνεχώς ανατρέπονται και ξαναγράφονται. "Τα μοντέλα ενημερώνονται πολύ γρήγορα και είναι δύσκολο να κριθεί. Ένας κατασκευαστής ισχυρίζεται ότι είναι το "μεγαλύτερο και καλύτερο", ενώ ένας άλλος κατασκευαστής ισχυρίζεται ότι είναι το "μικρότερο και καλύτερο". Ένας ανώτερος παρατηρητής στην τεχνητή νοημοσύνη. Η βιομηχανία είπε στο 21st Century Business Herald Σύμφωνα με τους δημοσιογράφους, τα μοντέλα τεχνητής νοημοσύνης είναι εκθαμβωτικά Εάν οι εταιρείες τεχνητής νοημοσύνης θέλουν να πετύχουν σε επιχειρηματικές ιστορίες, πρέπει να εργαστούν δεκαπλάσια ή εκατονταπλάσια.


Πηγή εικόνας: Creative Drawing Xu Shuxing


Το μικρό κομμάτι μοντέλου ανοίγει "ρολό"

Οι γίγαντες της τεχνητής νοημοσύνης κυκλοφορούν εντατικά μικρά μοντέλα για να ανταγωνιστούν όχι μόνο την απόδοση αλλά και την τιμή.

Σύμφωνα με τον επίσημο ιστότοπο Open AI, σε δοκιμές αναφοράς όπως MMLU, MGSM, HumanEval και MMMU, το GPT-4o mini έχει επιδείξει καλύτερο κείμενο και οπτικό συλλογισμό και μαθηματικό συλλογισμό από μικρά μοντέλα όπως το GPT-3.5 Turbo και το Gemini Flash, ο Claude Οι δυνατότητες του Haiku, της κωδικοποίησης και της πολλαπλής συλλογιστικής, ειδικά των μαθηματικών συλλογισμών και των δυνατοτήτων κωδικοποίησης, είναι πολύ καλύτερες από το GPT-3.5 Turbo και άλλα μικρά μοντέλα, και ελαφρώς πιο αδύναμες από το GPT-4o. Στην τελευταία κατάταξη των τυφλών δοκιμών LMSYS, το GPT-4o mini πέτυχε επίσης από κοινού την πρώτη θέση με το GPT-4o Ακόμη και ο Διευθύνων Σύμβουλος του OpenAI, Sam Altman, δεν μπορούσε να κρύψει τον ενθουσιασμό του και ανάρτησε στην πλατφόρμα κοινωνικής δικτύωσης, λέγοντας: «Ποτέ δεν ήμασταν πιο ενθουσιασμένοι. για οποιαδήποτε αξιολόγηση».

Εκτός από την εξαιρετική απόδοση, το OpenAI έρχεται με ένα ατού χαμηλού κόστους. Όταν κυκλοφόρησε στο διαδίκτυο στις 18 Ιουλίου, το OpenAI ανακοίνωσε ότι το GPT-4o mini θα κοστολογείται σε 15 σεντς ανά εκατομμύριο μάρκες εισόδου και 60 σεντ ανά εκατομμύριο μάρκες εξόδου, που είναι περισσότερο από 60% φθηνότερο από το GPT-3.5 Turbo. Στις 24 Ιουλίου, το OpenAI ανακοίνωσε ξανά ότι από τώρα έως τις 23 Σεπτεμβρίου, θα παρέχει δωρεάν υπηρεσίες μικροβελτιστοποίησης GPT-4o για χρήστες του επιπέδου 4 και του επιπέδου 5, με ημερήσιο όριο 2 εκατομμυρίων tokens, και το πλεόνασμα θα χρεώνεται με 3 $ ανά 1 εκατομμύριο μάρκες. Η OpenAI είπε: «Αναμένουμε ότι το GPT-4o mini θα επεκτείνει το πεδίο εφαρμογής της τεχνητής νοημοσύνης και θα κάνει την τεχνητή νοημοσύνη πιο προσιτή».

Η έρευνα της Ping An Securities πιστεύει ότι το GPT-4o mini είναι μια νέα γενιά «μικρού μοντέλου» τεχνητής νοημοσύνης εισαγωγικού επιπέδου με σημαντικά μειωμένη τιμή, το οποίο έχει τόσο απόδοση όσο και οικονομική απόδοση. Επί του παρόντος, τα μεγάλα μοντέλα σε όλο τον κόσμο εμφανίζουν σταδιακά μια τάση ανάπτυξης που μετατοπίζεται από έναν μονόπλευρο ανταγωνισμό απόδοσης σε έναν που δίνει έμφαση τόσο στην απόδοση όσο και στην πρακτικότητα. Όταν οι μεγάλες δυνατότητες μοντέλων φτάσουν σε ένα ορισμένο επίπεδο, αναπόφευκτα θα προχωρήσουν προς την εφαρμογή Βελτιώνοντας την απόδοση κόστους των προϊόντων τους και προωθώντας την προώθηση και την ανάπτυξη των κατάντη εφαρμογών, οι μεγάλοι κατασκευαστές μοντέλων αναμένεται να επιταχύνουν τη δημιουργία ενός κλειστού επιχειρηματικού βρόχου. μεγάλη αλυσίδα βιομηχανικών μοντέλων.

Το μοντέλο Apple DCLM που κυκλοφόρησε μετά το GPT-4o mini είναι επίσης εντυπωσιακό. Το DCLM χωρίζεται σε δύο μεγέθη: 1,4 δισεκατομμύρια παραμέτρους και 7 δισεκατομμύρια παραμέτρους, ξεπερνά το Mistral-7B και η απόδοσή του είναι κοντά στο Llama 3 και στο Gemma. Στο σημείο αναφοράς MMLU (5-shot), το DCLM-7B πέτυχε ακρίβεια 63,7%. Σύμφωνα με τους ερευνητές, αυτή η απόδοση βελτιώνεται κατά 6,6% σε σχέση με το προηγούμενο μοντέλο ανοιχτής γλώσσας δεδομένων τελευταίας τεχνολογίας MAP-Neo και απαιτεί 40% λιγότερο υπολογισμό. Το πιο σημαντικό, αυτό το αποτέλεσμα ξεπερνά το Mistral-7B-v0.3 με ακρίβεια 62,7% και είναι κοντά στο Gemma 8B με ακρίβεια 64,3%, Llama3 8B με ακρίβεια 66,2% και Phi-3 7B με ακρίβεια του 69,9%.

Αντί «το μεγαλύτερο είναι καλύτερο», η Apple προτιμά να ακολουθήσει τη διαδρομή του μικρού μοντέλου. Τον Απρίλιο του τρέχοντος έτους, η Apple ανακοίνωσε μια οικογένεια τεσσάρων προεκπαιδευμένων μεγάλων μοντέλων που ονομάζονταν OpenELM, τα οποία ήταν εξαιρετικά μικρά σε μέγεθος Εκείνη την εποχή, κινούνταν ήδη προς τον στόχο «να επιτρέψουν την τεχνητή νοημοσύνη να εκτελείται τοπικά σε συσκευές Apple».

Τον Ιούνιο, η Apple αποκάλυψε τον οδικό χάρτη ανάπτυξης της τεχνητής νοημοσύνης και σχεδίασε να ενσωματώσει μικρά μοντέλα σε κινητές συσκευές ομαλά, κάτι που όχι μόνο θα επιτύχει τον στόχο του "γρηγορότερου και ασφαλέστερου", αλλά και θα λύσει το απόλυτο πρόβλημα της ενσωμάτωσης κινητών συσκευών και μοντέλων με μια γρήγορη κίνηση .

Το Mistral NeMo, που κατασκευάστηκε σε συνεργασία με το Mistral AI και τη NVIDIA, υποβάλλεται σε ένα προηγμένο στάδιο λεπτομέρειας και ευθυγράμμισης για να διακριθεί στο να ακολουθεί ακριβείς οδηγίες, να συλλογίζεται, να χειρίζεται πολλαπλούς κύκλους συνομιλιών και να δημιουργεί κώδικα. Είναι κατανοητό ότι το Mistral NeMo στοχεύει κυρίως σε εταιρικά περιβάλλοντα και στοχεύει να επιτρέπει στις επιχειρήσεις να εφαρμόζουν λύσεις τεχνητής νοημοσύνης χωρίς να απαιτούν μεγάλες ποσότητες πόρων cloud.

Σε μια συνέντευξη με το Venturebeat, ο Bryan Catanzaro, αντιπρόεδρος εφαρμοσμένης έρευνας βαθιάς μάθησης στη NVIDIA, ανέπτυξε αναλυτικά τα πλεονεκτήματα των μικρών μοντέλων. «Τα μικρά μοντέλα είναι πιο εύκολο να αποκτηθούν και να λειτουργήσουν και μπορούν να έχουν διαφορετικά επιχειρηματικά μοντέλα, επειδή οι άνθρωποι μπορούν να τα τρέχουν στα δικά τους συστήματα στο σπίτι», είπε.

Τα μεγάλα μοντέλα έχουν εισέλθει στο δεύτερο εξάμηνο, από τους τεχνικούς όγκους έως τις εφαρμογές, η αγορά ενδιαφέρεται ολοένα και περισσότερο για μοντέλα υψηλής απόδοσης και χαμηλού κόστους που είναι ευκολότερο να αναπτυχθούν σε τοπικό επίπεδο εκτέλεση.

Οι αναλυτές του κλάδου πιστεύουν ότι υπάρχει μια σαφής νέα τάση στην ανάπτυξη τεχνητής νοημοσύνης, δηλαδή μοντέλα που μπορούν να λειτουργήσουν αποτελεσματικά σε τοπικό υλικό, γεγονός που διαλύει τις ανησυχίες πολλών επιχειρήσεων σχετικά με την υιοθέτηση λύσεων τεχνητής νοημοσύνης σε μεγάλη κλίμακα, όπως το απόρρητο δεδομένων, η καθυστέρηση και η υψηλή δικαστικά έξοδα. «Αυτό μπορεί να κάνει τον ανταγωνισμό πιο δίκαιο και οι μικρές επιχειρήσεις με περιορισμένους πόρους θα λάβουν επίσης την ευλογία των μοντέλων AI, γεφυρώνοντας έτσι το εγγενές χάσμα με τις μεγάλες επιχειρήσεις».


Μπείτε πίσω από το τιμόνι της μικρής πίστας μοντέλου

Γιατί οι γίγαντες της τεχνητής νοημοσύνης ανοίγουν μικρές διαδρομές μοντέλων; εν μέρει ή λόγω κόστους.

Τα μεγάλα μοντέλα είναι ακριβά στην ανάπτυξη και λειτουργία, και ακόμη και γίγαντες όπως το OpenAI αγωνίζονται να τα αντέξουν οικονομικά.

Πρόσφατα, ένας γνώστης των πληροφοριών ανέλυσε ότι «η OpenAI μπορεί να χάσει 5 δισεκατομμύρια δολάρια ΗΠΑ φέτος και αντιμετωπίζει τον κίνδυνο να ξεμείνει από κεφάλαια εντός 12 μηνών». Από τον Μάρτιο του τρέχοντος έτους, το OpenAl έχει ξοδέψει σχεδόν 4 δισεκατομμύρια δολάρια για την ενοικίαση διακομιστών της Microsoft για την εκτέλεση του ChatGPT και του υποκείμενου μοντέλου μεγάλης γλώσσας (LLM). Εκτός από την εκτέλεση του ChatGPT, το κόστος εκπαίδευσης του OpenAl, συμπεριλαμβανομένων των τελών δεδομένων, θα μπορούσε να εκτιναχθεί στα 3 δισεκατομμύρια δολάρια φέτος. Πέρυσι, το OpenAl επιτάχυνε την εκπαίδευση νέων AI γρηγορότερα από ό,τι είχε αρχικά προγραμματιστεί, σύμφωνα με ανθρώπους που γνωρίζουν το θέμα, αρχικά σχεδίαζε να δαπανήσει περίπου 800 εκατομμύρια δολάρια σε τέτοιες δαπάνες, αλλά τελικά ξόδεψε πολύ περισσότερα.

Συγκριτικά, τα μικρά μοντέλα έχουν χαμηλό κόστος, γρήγορη απόκριση και μπορούν να εκτελεστούν τοπικά, καθιστώντας τα πιο προσαρμόσιμα στις εξατομικευμένες και ακριβείς ανάγκες χρήσης. Οι γνώστες του κλάδου δήλωσαν: «Με το παγκόσμιο υλικό AI σε έλλειψη, τα μικρά μοντέλα σημαίνουν χαμηλότερο κόστος ανάπτυξης και εκπαίδευσης και τα αποτελέσματά τους είναι επαρκή για να χειριστούν ορισμένες συγκεκριμένες εργασίες».

Ένας σχετικός επιχειρηματίας υπεύθυνος μιας εγχώριας εταιρείας τεχνητής νοημοσύνης είπε σε δημοσιογράφο από το 21st Century Business Herald ότι μια μικρή κλίμακα παραμέτρων μπορεί να εξοικονομήσει σημαντικά έξοδα συμπερασμάτων Το κόστος υλικού που απαιτείται για την εκπαίδευση και την προσαρμογή του μοντέλου είναι πολύ χαμηλότερο από αυτό ενός μεγάλου μοντέλου. Οι ώριμοι προγραμματιστές μπορούν ακόμη και να εκπαιδεύσουν κάθετα μοντέλα με χαμηλό κόστος, το κόστος αυτών των λειτουργιών είναι πολύ χαμηλότερο από αυτό των μεγάλων μοντέλων.

Η πρόσφατη πρόβλεψη του Andrej Karpathy, ενός ιδρυτικού μέλους του OpenAI και πρώην ανώτερου διευθυντή τεχνητής νοημοσύνης στην Tesla, είναι αρκετά αντιπροσωπευτική.

Σύμφωνα με την εξήγηση του Andrej Karpathy, ο λόγος για τον οποίο το τρέχον μεγάλο μοντέλο είναι τόσο μεγάλο είναι ότι εξακολουθεί να είναι πολύ σπατάλη κατά τη διάρκεια της εκπαίδευσης Αν και το μεγάλο μοντέλο είναι πολύ καλό στη μνήμη, σημαίνει επίσης ότι το μεγάλο μοντέλο θυμάται πολλές άσχετες λεπτομέρειες. Αυτά τα περιεχόμενα Δεν πρέπει να καλείται επανειλημμένα σε ένα συγκεκριμένο πρόβλημα.

Για μικρά μοντέλα, οι στόχοι εκπαίδευσης γίνονται απλούστεροι, πιο άμεσοι και πιο αποτελεσματικοί, επιτρέποντας στην τεχνητή νοημοσύνη να μαθαίνει πιο χρήσιμες πληροφορίες πιο άμεσα.

Ωστόσο, τα μεγάλα μοντέλα και τα μικρά μοντέλα δεν είναι «διαλέξτε ένα» και οι διαδρομές ανάπτυξής τους εξακολουθούν να έχουν τη σημασία της μάθησης το ένα από το άλλο.

Ο Andrej Karpathy είπε: "Το μοντέλο πρέπει πρώτα να γίνει μεγαλύτερο πριν γίνει μικρότερο. Επειδή χρειαζόμαστε μεγάλα μοντέλα για να ανασυνθέσουμε και να διαμορφώσουμε τα δεδομένα σε ιδανική μορφή. Ένα μοντέλο βοηθά στη δημιουργία δεδομένων εκπαίδευσης για το επόμενο μοντέλο και σταδιακά αποκτά τέλεια εκπαίδευση Στη συνέχεια, ταΐστε το στο μικρό μοντέλο, το οποίο δεν χρειάζεται να θυμάται τα πάντα, αλλά πρέπει να το αναζητά περιστασιακά για να βεβαιωθεί ότι είναι ακριβές.

Ο Robin Li δήλωσε επίσης στο Baidu AI Developer Conference Create 2024 ότι οι εγγενείς εφαρμογές τεχνητής νοημοσύνης μεγάλης κλίμακας στο μέλλον θα είναι βασικά η αρχιτεκτονική Moe, η οποία είναι ένας συνδυασμός μεγάλων και μικρών μοντέλων. Ο Robin Li είπε επίσης ότι η απόσταξη ενός βασικού μοντέλου μέσω συμπίεσης μεγάλων μοντέλων και στη συνέχεια η εκπαίδευσή του με δεδομένα είναι πολύ καλύτερη από την εκπαίδευση ενός μικρού μοντέλου από την αρχή Χαμηλό.