Η Microsoft και η NVIDIA στοιχηματίζουν σε μικρά μοντέλα Δεν είναι πλέον δημοφιλή τα μεγάλα μοντέλα;

2024-08-26

Στην ανάπτυξη της τεχνητής νοημοσύνης, οι τεχνολογικοί γίγαντες ανταγωνίζονταν κάποτε για την ανάπτυξη γλωσσικών μοντέλων μεγάλης κλίμακας, αλλά τώρα έχει εμφανιστεί μια νέα τάση: τα μικρά γλωσσικά μοντέλα (SLM) αναδύονται σταδιακά, αμφισβητώντας την προηγούμενη έννοια του "μεγαλύτερο, τόσο καλύτερο".

Οπτική Κίνα

Στις 21 Αυγούστου, τοπική ώρα, η Microsoft και η NVIDIA κυκλοφόρησαν διαδοχικά τα τελευταία μοντέλα μικρών γλωσσών-Phi-3.5-mini-instruct και Mistral-NeMo- Minitron8B. Το κύριο σημείο πώλησης και των δύο μοντέλων είναι ότι παρέχουν μια καλή ισορροπία μεταξύ της χρήσης υπολογιστικών πόρων και της λειτουργικής απόδοσης. Κατά κάποιο τρόπο, η απόδοσή τους μπορεί να ανταγωνιστεί ακόμη και μεγαλύτερα μοντέλα.

Ο Clem Delangue, Διευθύνων Σύμβουλος της startup τεχνητής νοημοσύνης Hugging Face, επεσήμανε ότι έως και το 99% των σεναρίων χρήσης μπορούν να λυθούν από το SLM και προέβλεψε ότι το 2024 θα είναι η χρονιά του SLM. Σύμφωνα με ελλιπή στατιστικά στοιχεία, οι τεχνολογικοί γίγαντες, συμπεριλαμβανομένων των Meta, Microsoft και Google, έχουν κυκλοφορήσει 9 μικρά μοντέλα φέτος.

Το μεγάλο κόστος εκπαίδευσης μοντέλου αυξάνεται

Η άνοδος του SLM δεν είναι τυχαία, αλλά σχετίζεται στενά με τις προκλήσεις των μεγάλων μοντέλων (LLM) όσον αφορά τη βελτίωση της απόδοσης και την κατανάλωση πόρων.

Μια σύγκριση απόδοσης που κυκλοφόρησε τον Απρίλιο από τις startups AI Vellum και Hugging Face έδειξε ότι το χάσμα απόδοσης μεταξύ των LLMs κλείνει γρήγορα, ειδικά σε συγκεκριμένες εργασίες όπως ερωτήσεις πολλαπλής επιλογής, συλλογιστική και μαθηματικά προβλήματα, όπου οι διαφορές μεταξύ των κορυφαίων μοντέλων είναι εξαιρετικά μεγάλες Μικρό. Για παράδειγμα, σε ερωτήσεις πολλαπλής επιλογής, τα Claude 3 Opus, GPT-4 και Gemini Ultra πέτυχαν όλα μια ακρίβεια πάνω από 83%, ενώ στις εργασίες εξαγωγής συμπερασμάτων, τα Claude3 Opus, GPT-4 και Gemini 1.5Pro πέτυχαν όλα ακρίβεια πάνω από 92%.

Ο Gary Marcus, πρώην επικεφαλής της Uber AI, τόνισε: «Νομίζω ότι όλοι θα έλεγαν ότι το GPT-4 είναι ένα βήμα μπροστά από το GPT-3.5, αλλά δεν υπήρξε ποιοτικό άλμα σε περισσότερο από ένα χρόνο από τότε».

Σε σύγκριση με την περιορισμένη βελτίωση της απόδοσης, το κόστος εκπαίδευσης του LLM αυξάνεται συνεχώς. Η εκπαίδευση αυτών των μοντέλων απαιτεί τεράστιες ποσότητες δεδομένων και εκατοντάδες εκατομμύρια ή και τρισεκατομμύρια παραμέτρους, με αποτέλεσμα την εξαιρετικά υψηλή κατανάλωση πόρων. Η υπολογιστική ισχύς και η κατανάλωση ενέργειας που απαιτούνται για την εκπαίδευση και τη λειτουργία του LLM είναι εκπληκτική, καθιστώντας δύσκολη τη συμμετοχή μικρών οργανισμών ή ατόμων στην ανάπτυξη του βασικού LLM.

Ο Διεθνής Οργανισμός Ενέργειας εκτιμά ότι η κατανάλωση ηλεκτρικής ενέργειας που σχετίζεται με κέντρα δεδομένων, κρυπτονομίσματα και τεχνητή νοημοσύνη θα είναι περίπου ισοδύναμη με τη συνολική κατανάλωση ηλεκτρικής ενέργειας της Ιαπωνίας έως το 2026.

Ο Διευθύνων Σύμβουλος της OpenAI, Άλτμαν, είπε κάποτε σε μια εκδήλωση του MIT ότι η εκπαίδευση του GPT-4 θα κόστιζε τουλάχιστον 100 εκατομμύρια δολάρια, ενώ ο Διευθύνων Σύμβουλος της Anthropic, Ντάριο Αμοτέι, προέβλεψε ότι το κόστος εκπαίδευσης του μοντέλου θα μπορούσε να φτάσει τα 100 δισεκατομμύρια δολάρια στο μέλλον.

Επιπλέον, η πολυπλοκότητα των εργαλείων και των τεχνικών που απαιτούνται για τη χρήση του LLM προσθέτει επίσης στην καμπύλη εκμάθησης προγραμματιστών. Η όλη διαδικασία από την εκπαίδευση μέχρι την ανάπτυξη διαρκεί πολύ, επιβραδύνοντας την ανάπτυξη. Μια μελέτη από το Πανεπιστήμιο του Κέιμπριτζ δείχνει ότι μπορεί να χρειαστούν οι εταιρείες 90 ή περισσότερες ημέρες για να αναπτύξουν ένα μοντέλο μηχανικής μάθησης.

Ένα άλλο σημαντικό πρόβλημα με το LLM είναι ότι είναι επιρρεπές στην "ψευδαίσθηση" - δηλαδή, η έξοδος που δημιουργείται από το μοντέλο φαίνεται λογική, αλλά στην πραγματικότητα είναι εσφαλμένη. Αυτό συμβαίνει επειδή το LLM εκπαιδεύεται να προβλέπει την επόμενη πιο πιθανή λέξη με βάση τα μοτίβα στα δεδομένα, αντί να κατανοεί πραγματικά τις πληροφορίες. Ως αποτέλεσμα, το LLM μπορεί να δημιουργήσει με σιγουριά ψευδείς δηλώσεις, να κατασκευάσει γεγονότα ή να συνδυάσει άσχετες έννοιες με παράλογους τρόπους. Ο τρόπος ανίχνευσης και μείωσης αυτών των «ψευδαισθήσεων» είναι μια διαρκής πρόκληση για την ανάπτυξη αξιόπιστων και αξιόπιστων γλωσσικών μοντέλων.

Τα μικρά μοντέλα μειώνουν το κόστος

Οι ανησυχίες σχετικά με τις τεράστιες ενεργειακές ανάγκες του LLM, καθώς και οι ευκαιρίες της αγοράς για παροχή στις επιχειρήσεις με πιο διαφορετικές επιλογές τεχνητής νοημοσύνης, οδήγησαν τις εταιρείες τεχνολογίας να στρέψουν σταδιακά την προσοχή τους στο SLM.

Οι δημοσιογράφοι της «Daily Economic News» παρατήρησαν ότι τόσο οι νεοφυείς επιχειρήσεις τεχνητής νοημοσύνης όπως οι Arcee, Sakana AI και Hugging Face, όσο και τεχνολογικοί γίγαντες, προσελκύουν επενδυτές και πελάτες μέσω SLM και πιο οικονομικών μεθόδων.

Προηγουμένως, η Google, η Meta, η OpenAI και η Anthropic είχαν κυκλοφορήσει όλα μικρά μοντέλα που είναι πιο συμπαγή και ευέλικτα από το ναυαρχίδα LLM. Αυτό όχι μόνο μειώνει το κόστος ανάπτυξης και εγκατάστασης, αλλά παρέχει επίσης στους εμπορικούς πελάτες μια φθηνότερη λύση. Δεδομένων των αυξανόμενων ανησυχιών μεταξύ των επενδυτών σχετικά με το υψηλό κόστος και τις αβέβαιες αποδόσεις των επιχειρήσεων τεχνητής νοημοσύνης, περισσότερες εταιρείες τεχνολογίας ενδέχεται να επιλέξουν αυτόν τον δρόμο. Ακόμη και η Microsoft και η NVIDIA έχουν πλέον κυκλοφορήσει τα δικά τους μικρά μοντέλα (SLM).

Τα SLM είναι βελτιωμένες εκδόσεις των LLM με λιγότερες παραμέτρους και απλούστερους σχεδιασμούς και απαιτούν λιγότερα δεδομένα και χρόνο εκπαίδευσης - μόλις λεπτά ή ώρες. Αυτό κάνει το SLM πιο αποτελεσματικό και πιο εύκολο στην ανάπτυξη σε μικρές συσκευές. Για παράδειγμα, μπορούν να ενσωματωθούν σε κινητά τηλέφωνα χωρίς να καταναλώνουν πόρους υπερυπολογιστών, μειώνοντας έτσι το κόστος και βελτιώνοντας σημαντικά την απόκριση.

Ένα άλλο σημαντικό πλεονέκτημα του SLM είναι η εξειδίκευσή του σε συγκεκριμένες εφαρμογές. Τα SLM επικεντρώνονται σε συγκεκριμένες εργασίες ή τομείς, γεγονός που τα καθιστά πιο αποτελεσματικά σε πρακτικές εφαρμογές. Για παράδειγμα, τα SLM συχνά ξεπερνούν τα μοντέλα γενικού σκοπού στην ανάλυση συναισθήματος, στην αναγνώριση οντοτήτων με όνομα ή στην απάντηση ερωτήσεων για συγκεκριμένο τομέα. Αυτή η προσαρμογή επιτρέπει στις επιχειρήσεις να δημιουργούν μοντέλα που ανταποκρίνονται αποτελεσματικά στις συγκεκριμένες ανάγκες τους.

Τα SLM είναι επίσης λιγότερο επιρρεπή σε «παραισθήσεις» σε έναν συγκεκριμένο τομέα, επειδή συνήθως εκπαιδεύονται σε πιο στενά, πιο στοχευμένα σύνολα δεδομένων, κάτι που βοηθά το μοντέλο να μάθει τα μοτίβα και τις πληροφορίες που σχετίζονται περισσότερο με την εργασία του. Η εστιασμένη φύση του SLM μειώνει την πιθανότητα δημιουργίας άσχετων, απροσδόκητων ή ασυνεπών αποτελεσμάτων.

Παρά το μικρότερο μέγεθος, η απόδοση της SLM δεν είναι κατώτερη από τα μεγαλύτερα μοντέλα από ορισμένες απόψεις. Η τελευταία Phi-3.5-mini-instruct της Microsoft έχει μόνο 3,8 δισεκατομμύρια παραμέτρους, αλλά η απόδοσή της είναι καλύτερη από μοντέλα με πολύ υψηλότερες παραμέτρους από τα Llama3.18B και Mistral7B. Ο Aaron Mueller, ειδικός στην έρευνα μοντέλων γλωσσών στο Northeastern University (ένα κορυφαίο ιδιωτικό ερευνητικό πανεπιστήμιο που βρίσκεται στη Βοστώνη, Μασαχουσέτη, ΗΠΑ), επεσήμανε ότι η επέκταση του αριθμού των παραμέτρων δεν είναι ο μόνος τρόπος βελτίωσης της απόδοσης του μοντέλου παράγουν επίσης παρόμοια αποτελέσματα.

Ο Διευθύνων Σύμβουλος της OpenAI, Άλτμαν, δήλωσε σε εκδήλωση τον Απρίλιο ότι πίστευε ότι βρισκόμαστε στο τέλος της εποχής των γιγάντων μοντέλων και «θα βελτιώσουμε την απόδοσή τους με άλλους τρόπους».

Ωστόσο, πρέπει να σημειωθεί ότι αν και η εξειδίκευση του SLM είναι ένα σημαντικό πλεονέκτημα, έχει και περιορισμούς. Αυτά τα μοντέλα ενδέχεται να έχουν κακή απόδοση εκτός του συγκεκριμένου τομέα εκπαίδευσης, να μην έχουν ευρεία βάση γνώσεων και να μην είναι σε θέση να δημιουργήσουν σχετικό περιεχόμενο σε ένα ευρύ φάσμα θεμάτων σε σύγκριση με το LLM. Αυτός ο περιορισμός απαιτεί ότι οι χρήστες μπορεί να χρειαστεί να αναπτύξουν πολλαπλά SLM για να καλύψουν διαφορετικές περιοχές ζήτησης, περιπλέκοντας έτσι την υποδομή AI.

Με την ταχεία ανάπτυξη του πεδίου AI, τα πρότυπα για τα μικρά μοντέλα ενδέχεται να συνεχίσουν να αλλάζουν. Ο Ντέιβιντ Χα, συνιδρυτής και Διευθύνων Σύμβουλος της startup μικρών μοντέλων Sakana με έδρα το Τόκιο, είπε ότι τα μοντέλα τεχνητής νοημοσύνης που φαινόταν τεράστια πριν από μερικά χρόνια τώρα φαίνονται «μέτρια». «Το μέγεθος είναι πάντα σχετικό», είπε ο Ντέιβιντ Χα.

καθημερινά οικονομικά νέα

Αναφορά/Σχόλια

νέα

Η Microsoft και η NVIDIA στοιχηματίζουν σε μικρά μοντέλα Δεν είναι πλέον δημοφιλή τα μεγάλα μοντέλα;

Εισαγωγή

Τα στοιχεία επικοινωνίας μου