Πίσω από το μικρότερο και ισχυρότερο GPT-4o mini, το μέλλον των μοντέλων AI δεν είναι πλέον μεγαλύτερο και better

Πίσω από το μικρότερο και πιο ισχυρό GPT-4o mini, το μέλλον των μοντέλων τεχνητής νοημοσύνης δεν είναι πλέον τόσο μεγαλύτερο, τόσο καλύτερο

2024-07-27

Την προηγούμενη εβδομάδα OpenAI Κυκλοφόρησε μια μεγάλη κίνηση αργά το βράδυ,GPT-4o Το μίνι έδιωξε το GPT-3.5 Turbo από τη σύνταξη και ξεπέρασε ακόμη και το GPT-4 στη μεγάλη αρένα μοντέλων LMSYS.

Αυτή την εβδομάδα κυκλοφόρησε το Meta Για μεγάλα μοντέλα, αν το μέγεθος 405B του πρώτου κλιμακίου εξακολουθεί να αναμένεται, τότε τα μεγέθη 8B και 70B των νέων εκδόσεων φέρνουν περισσότερες εκπλήξεις.

Και αυτό μπορεί να μην είναι το τέλος του διαγωνισμού μικρών μοντέλων, αλλά πιθανότατα μια νέα αφετηρία.

Δεν είναι ότι τα μεγάλα μοντέλα δεν είναι οικονομικά προσιτά, αλλά τα μικρά μοντέλα είναι πιο οικονομικά

Στον απέραντο κόσμο των κύκλων AI, τα μικρά μοντέλα είχαν πάντα τους δικούς τους θρύλους.

Κοιτάζοντας έξω, το περσινό Mistral 7B χαιρετίστηκε ως το "καλύτερο μοντέλο 7B" μόλις κυκλοφόρησε το μοντέλο παραμέτρων 13B Llama 2 σε πολλαπλά σημεία αξιολόγησης και το ξεπέρασε σε συλλογισμούς, μαθηματικά και δημιουργία κώδικα .

Φέτος, η Microsoft παρήγαγε επίσης την πιο ισχυρή μικρή παράμετρο μεγάλου μοντέλου phi-3-mini Αν και ο αριθμός των παραμέτρων είναι μόνο 3,8 Β, τα αποτελέσματα της αξιολόγησης απόδοσης υπερβαίνουν κατά πολύ το επίπεδο της ίδιας κλίμακας παραμέτρων και είναι συγκρίσιμα με μεγαλύτερα μοντέλα, όπως π.χ. GPT-3.5 και Σονέτο Claude-3.

Κοιτάζοντας μέσα, η Wall Intelligence κυκλοφόρησε το MiniCPM, ένα μοντέλο γλώσσας δίπλα-δίπλα με μόνο 2B παραμέτρους στις αρχές Φεβρουαρίου. Χρησιμοποιεί μικρότερο μέγεθος για να επιτύχει ισχυρότερη απόδοση. Little Steel".όπλο".

Πριν από λίγο καιρό, το MiniCPM-Llama3-V2.5, το οποίο έχει μόνο 8Β μέγεθος παραμέτρων, ξεπέρασε τα μεγαλύτερα μοντέλα όπως το GPT-4V και το Gemini Pro όσον αφορά τις ολοκληρωμένες επιδόσεις πολλαπλών μέσων και τις δυνατότητες OCR. Ως εκ τούτου, επικρίθηκε από το Stanford Πανεπιστημιακή ομάδα τεχνητής νοημοσύνης.

Μέχρι την περασμένη εβδομάδα, το OpenAI, το οποίο βομβάρδιζε αργά το βράδυ, λάνσαρε αυτό που περιέγραψε ως «το πιο ισχυρό και οικονομικό μοντέλο μικρής παραμέτρου» - το GPT-4o mini, το οποίο επανέφερε την προσοχή όλων στο μικρό μοντέλο.

Από τότε που το OpenAI παρέσυρε τον κόσμο στη φαντασία της γενετικής τεχνητής νοημοσύνης, από μακρά πλαίσια, σε κυλιόμενες παραμέτρους, σε πράκτορες και τώρα στους πολέμους τιμών, η ανάπτυξη στο εσωτερικό και στο εξωτερικό περιστρεφόταν πάντα γύρω από μια λογική - να παραμείνουμε στο πεδίο προχωρώντας προς την εμπορευματοποίηση Στο τραπέζι των καρτών.

Ως εκ τούτου, στο πεδίο της κοινής γνώμης, το πιο εντυπωσιακό είναι ότι το OpenAI, που έχει μειώσει τις τιμές, φαίνεται να εισέρχεται σε πόλεμο τιμών.

Πολλοί άνθρωποι μπορεί να μην έχουν ξεκάθαρη ιδέα για την τιμή του GPT-4o mini. GPT-4o μίνι ανά 1 εκατομμύριο εισόδουςένδειξη Η τιμή είναι 15 σεντ και η τιμή ανά 1 εκατομμύριο μάρκες εξόδου είναι 60 σεντ, που είναι περισσότερο από 60% φθηνότερο από το GPT-3.5 Turbo.

Με άλλα λόγια, το GPT-4o mini δημιουργεί ένα βιβλίο 2500 σελίδων για μόνο 60 σεντς.

Ο Διευθύνων Σύμβουλος του OpenAI, Sam Altman, θρήμησε επίσης στο X ότι σε σύγκριση με το GPT-4o mini, το πιο ισχυρό μοντέλο πριν από δύο χρόνια όχι μόνο είχε τεράστιο κενό απόδοσης, αλλά είχε και κόστος χρήσης που ήταν 100 φορές υψηλότερο από τώρα.

Ενώ ο πόλεμος τιμών για τα μεγάλα μοντέλα γίνεται ολοένα και πιο έντονος, ορισμένα αποδοτικά και οικονομικά μικρά μοντέλα ανοιχτού κώδικα είναι πιο πιθανό να προσελκύσουν την προσοχή της αγοράς, τελικά, δεν είναι ότι τα μεγάλα μοντέλα είναι πιο οικονομικά .

Από τη μία πλευρά, όταν οι GPU σε όλο τον κόσμο εξαντλούνται ή και εξαντλούνται, αρκούν μικρά μοντέλα ανοιχτού κώδικα με χαμηλότερο κόστος εκπαίδευσης και ανάπτυξης για να κερδίσουν σταδιακά το πάνω χέρι.

Για παράδειγμα, το MiniCPM που κυκλοφόρησε από τη Mianbi Intelligence μπορεί να επιτύχει πτώση του κόστους συμπερασμάτων με τις μικρότερες παραμέτρους του και μπορεί να επιτύχει μόνο ένα μηχάνημα για συνεχή εκπαίδευση παραμέτρων και μια κάρτα γραφικών για τη ρύθμιση των παραμέτρων είναι επίσης συνεχείς βελτιώσεις κόστους.

Εάν είστε ώριμος προγραμματιστής, μπορείτε ακόμη και να εκπαιδεύσετε ένα κάθετο μοντέλο στον νομικό τομέα δημιουργώντας μόνοι σας ένα μικρό μοντέλο και το κόστος συμπερασμάτων μπορεί να είναι μόνο το ένα χιλιοστό του κόστους μικρορύθμισης ενός μεγάλου μοντέλου.

Η εφαρμογή ορισμένων εφαρμογών "μικρών μοντέλων" από την πλευρά του τερματικού επέτρεψε σε πολλούς κατασκευαστές να δουν την αυγή της κερδοφορίας. Για παράδειγμα, το Facewall Intelligence βοήθησε το Shenzhen Intermediate People's Court να λανσάρει ένα δοκιμαστικό σύστημα υποβοηθούμενο από τεχνητή νοημοσύνη, αποδεικνύοντας την αξία της τεχνολογίας στην αγορά.

Φυσικά, είναι ακριβέστερο να πούμε ότι η αλλαγή που θα αρχίσουμε να βλέπουμε δεν είναι μια στροφή από τα μεγάλα σε μικρά μοντέλα, αλλά μια μετάβαση από μια κατηγορία μοντέλων σε ένα χαρτοφυλάκιο μοντέλων, με την επιλογή του σωστού μοντέλου ανάλογα σχετικά με τις συγκεκριμένες ανάγκες του οργανισμού, Πολυπλοκότητα εργασιών και διαθέσιμους πόρους.

Τα μικρά μοντέλα, από την άλλη πλευρά, είναι πιο εύκολο να αναπτυχθούν και να ενσωματωθούν σε κινητές συσκευές, ενσωματωμένα συστήματα ή περιβάλλοντα χαμηλής κατανάλωσης.

Η κλίμακα παραμέτρων ενός μικρού μοντέλου είναι σχετικά μικρή Σε σύγκριση με ένα μεγάλο μοντέλο, η ζήτηση του για υπολογιστικούς πόρους (όπως υπολογιστική ισχύς τεχνητής νοημοσύνης, μνήμη κ.λπ.) είναι χαμηλότερη και μπορεί να λειτουργήσει πιο ομαλά σε συσκευές τελικής πλευράς με περιορισμένο αριθμό. πόροι. Επιπλέον, ο ακραίος εξοπλισμός έχει συνήθως πιο ακραίες απαιτήσεις για κατανάλωση ενέργειας, παραγωγή θερμότητας και άλλα ζητήματα ειδικά σχεδιασμένα μικρά μοντέλα μπορούν να προσαρμοστούν καλύτερα στους περιορισμούς του τελικού εξοπλισμού.

Ο διευθύνων σύμβουλος της Honor Zhao Ming είπε ότι λόγω προβλημάτων υπολογιστικής ισχύος AI από την πλευρά του πελάτη, οι παράμετροι μπορεί να είναι μεταξύ 1B και 10B και το μοντέλο του μεγάλου δικτύουcloud computingΗ ικανότητα μπορεί να φτάσει τα 10-100 δισεκατομμύρια, ή ακόμα μεγαλύτερη. Αυτή η ικανότητα είναι το χάσμα μεταξύ των δύο.

Το τηλέφωνο βρίσκεται σε πολύ περιορισμένο χώρο, σωστά; Υποστηρίζει 7 δισεκατομμύρια σε περιορισμένη μπαταρία, περιορισμένη απαγωγή θερμότητας και περιορισμένο περιβάλλον αποθήκευσης Αν φαντάζεστε ότι υπάρχουν τόσοι πολλοί περιορισμοί, πρέπει να είναι ο πιο δύσκολος.

Αποκαλύψαμε επίσης τους ήρωες από τα παρασκήνια που είναι υπεύθυνοι για τη λειτουργία των έξυπνων τηλεφώνων της Apple Gemma-7B και είναι κατάλληλο για λειτουργία σε κινητά τερματικά.

Βλέπουμε λοιπόν ότι ο πρώην γκουρού του OpenAI Andrej Karpathy έκρινε πρόσφατα ότι ο ανταγωνισμός στο μέγεθος του μοντέλου θα είναι "αντίστροφη περιστροφή", όχι όλο και μεγαλύτερος, αλλά ποιος είναι μικρότερος και πιο ευέλικτος.

Γιατί τα μικρά μοντέλα μπορούν να νικήσουν τα μεγάλα με τα μικρά;

Η πρόβλεψη του Andrej Karpathy δεν είναι αβάσιμη.

Σε αυτήν την εποχή με επίκεντρο τα δεδομένα, τα μοντέλα γίνονται γρήγορα μεγαλύτερα και πιο περίπλοκα Τα περισσότερα από τα πολύ μεγάλα μοντέλα (όπως το GPT-4) που εκπαιδεύονται σε τεράστια δεδομένα χρησιμοποιούνται στην πραγματικότητα για να θυμούνται μεγάλο αριθμό άσχετων λεπτομερειών, δηλαδή, Απομνημόνευση πληροφοριών. με περιληπτικά.

Ωστόσο, το βελτιωμένο μοντέλο μπορεί ακόμη και να «κερδίσει το μεγάλο με το μικρό» σε συγκεκριμένες εργασίες και η χρηστικότητά του είναι συγκρίσιμη με πολλά «σούπερ μεγάλα μοντέλα».

Ο Διευθύνων Σύμβουλος της Hugging Face, Clem Delangue, πρότεινε επίσης ότι έως και το 99% των περιπτώσεων χρήσης μπορούν να επιλυθούν χρησιμοποιώντας μικρά μοντέλα και προέβλεψε ότι το 2024 θα είναι η χρονιά των μοντέλων μικρών γλωσσών.

Πριν ερευνήσουμε τους λόγους, πρέπει πρώτα να εκλαϊκεύσουμε κάποιες επιστημονικές γνώσεις.

Το 2020, το OpenAI πρότεινε έναν περίφημο νόμο σε μια εργασία: Νόμος κλιμάκωσης, που σημαίνει ότι όσο αυξάνεται το μέγεθος του μοντέλου, θα αυξάνεται και η απόδοσή του. Με την εισαγωγή μοντέλων όπως το GPT-4, προέκυψαν σταδιακά τα πλεονεκτήματα του νόμου κλιμάκωσης.

Ερευνητές και μηχανικοί στον τομέα της τεχνητής νοημοσύνης πιστεύουν ακράδαντα ότι αυξάνοντας τον αριθμό των παραμέτρων του μοντέλου, η ικανότητα εκμάθησης και η ικανότητα γενίκευσης του μοντέλου μπορούν να βελτιωθούν περαιτέρω. Με αυτόν τον τρόπο, είδαμε την κλίμακα του μοντέλου να μεταπηδά από δισεκατομμύρια παραμέτρους σε εκατοντάδες δισεκατομμύρια, ακόμη και να σκαρφαλώνει προς μοντέλα με τρισεκατομμύρια παραμέτρους.

Στον κόσμο της τεχνητής νοημοσύνης, το μέγεθος ενός μοντέλου δεν είναι το μόνο κριτήριο για τη μέτρηση της ευφυΐας του.

Αντίθετα, ένα καλά σχεδιασμένο μικρό μοντέλο, βελτιστοποιώντας τον αλγόριθμο, βελτιώνοντας την ποιότητα των δεδομένων και υιοθετώντας προηγμένη τεχνολογία συμπίεσης, μπορεί συχνά να δείξει απόδοση συγκρίσιμη ή ακόμα καλύτερη από εκείνη ενός μεγάλου μοντέλου σε συγκεκριμένες εργασίες.

Αυτή η στρατηγική χρήσης μικρών για την επίτευξη μεγαλύτερων αποτελεσμάτων γίνεται μια νέα τάση στον τομέα της τεχνητής νοημοσύνης.Μεταξύ αυτών, η βελτίωση της ποιότητας των δεδομένων είναι ένας από τους τρόπους για τα μικρά μοντέλα να κερδίσουν τα μεγάλα.

Ο Satish Jayanthi, CTO και συνιδρυτής της Coalesce, περιέγραψε κάποτε τον ρόλο των δεδομένων στα μοντέλα:

Αν υπήρχε τον 17ο αιώνα LLM , και ρωτήσαμε το ChatGPT εάν η Γη ήταν στρογγυλή ή επίπεδη και απάντησε ότι η Γη ήταν επίπεδη, αυτό θα συνέβαινε επειδή τα δεδομένα που παρείχαμε την έπεισαν ότι αυτό συνέβαινε. Τα δεδομένα που παρέχουμε στο LLM και ο τρόπος με τον οποίο το εκπαιδεύουμε θα επηρεάσουν άμεσα την απόδοσή του.

Για την παραγωγή αποτελεσμάτων υψηλής ποιότητας, μεγάλα γλωσσικά μοντέλα πρέπει να εκπαιδεύονται σε υψηλής ποιότητας, στοχευμένα δεδομένα για συγκεκριμένα θέματα και τομείς. Ακριβώς όπως οι μαθητές χρειάζονται ποιοτικά εγχειρίδια για να μάθουν από αυτά, τα LLM χρειάζονται επίσης ποιοτικές πηγές δεδομένων.

Εγκαταλείποντας την παραδοσιακή βίαιη αισθητική της σκληρής δουλειάς για την επίτευξη θαυμάτων, ο Liu Zhiyuan, μόνιμος αναπληρωτής καθηγητής στο Τμήμα Επιστήμης Υπολογιστών στο Πανεπιστήμιο Tsinghua και ο επικεφαλής επιστήμονας της νοημοσύνης που βλέπει στον τοίχο, πρότεινε πρόσφατα τον νόμο που βλέπει στον τοίχο στην εποχή των μεγάλων μοντέλα, δηλαδή, η πυκνότητα γνώσης του μοντέλου συνεχίζει να αυξάνεται, διπλασιάζοντας κατά μέσο όρο κάθε οκτώ μήνες.

Μεταξύ αυτών, πυκνότητα γνώσης = ικανότητα μοντέλου/παράμετροι μοντέλου που εμπλέκονται στον υπολογισμό.

Ο Liu Zhiyuan εξήγησε γλαφυρά ότι εάν σας δοθούν 100 ερωτήσεις τεστ IQ, η βαθμολογία σας δεν θα εξαρτηθεί μόνο από το πόσες ερωτήσεις θα απαντήσετε σωστά, αλλά και από τον αριθμό των νευρώνων που χρησιμοποιείτε για να ολοκληρώσετε αυτές τις ερωτήσεις. Όσο περισσότερες εργασίες κάνετε με λιγότερους νευρώνες, τόσο υψηλότερο είναι το IQ σας.

Αυτή είναι ακριβώς η βασική ιδέα που μεταφέρει η πυκνότητα γνώσης:

Έχει δύο στοιχεία. Ένα στοιχείο είναι η ικανότητα αυτού του μοντέλου. Το δεύτερο στοιχείο είναι ο αριθμός των νευρώνων που απαιτούνται για αυτήν την ικανότητα ή η αντίστοιχη υπολογιστική κατανάλωση.

Σε σύγκριση με την παράμετρο 175 δισεκατομμυρίων GPT-3 που κυκλοφόρησε το OpenAI το 2020, το 2024 κυκλοφόρησε το MiniCPM-2.4B με την ίδια απόδοση αλλά μόνο 2,4 δισεκατομμύρια παραμέτρους με το GPT-3, γεγονός που αύξησε την πυκνότητα γνώσης κατά περίπου 86 φορές.

Μια μελέτη από το Πανεπιστήμιο του Τορόντο δείχνει επίσης ότι δεν είναι απαραίτητα όλα τα δεδομένα, εντοπίζοντας υποσύνολα υψηλής ποιότητας από μεγάλα σύνολα δεδομένων που είναι ευκολότερα στην επεξεργασία και διατηρούν όλες τις πληροφορίες και την ποικιλομορφία στο αρχικό σύνολο δεδομένων.

Ακόμη και αν αφαιρεθεί έως και το 95% των δεδομένων εκπαίδευσης, η προγνωστική απόδοση του μοντέλου σε μια συγκεκριμένη διανομή ενδέχεται να μην επηρεαστεί σημαντικά.

Το πιο πρόσφατο παράδειγμα είναι το μεγάλο μοντέλο Meta Llama 3.1.

Όταν η Meta εκπαίδευσε το Llama 3, τροφοδότησε δεδομένα εκπαίδευσης 15T tokens, αλλά ο Thomas Scialom, ένας ερευνητής Meta AI υπεύθυνος για το έργο μετά την εκπαίδευση των Llama2 και Llama3, είπε: Το κείμενο στο Διαδίκτυο είναι γεμάτο από άχρηστες πληροφορίες και εκπαίδευση που βασίζεται σε αυτές οι πληροφορίες είναι σπατάλη υπολογιστικών πόρων.

Το Llama 3 δεν είχε καμία ανθρώπινη γραπτή απάντηση στη μετεκπαίδευσή του... απλώς αξιοποίησε τα καθαρά συνθετικά δεδομένα του Llama 2.

Επιπλέον, η απόσταξη γνώσης είναι επίσης μια από τις σημαντικές μεθόδους «κατάκτησης του μεγάλου με το μικρό».

Η απόσταξη γνώσης αναφέρεται στη χρήση ενός μεγάλου και πολύπλοκου "μοντέλου δασκάλου" για να καθοδηγήσει την εκπαίδευση ενός μικρού και απλού "μοντέλου μαθητή", το οποίο μπορεί να μεταφέρει την ισχυρή απόδοση και την ανώτερη ικανότητα γενίκευσης του μεγάλου μοντέλου σε πιο ελαφριά, υπολογιστικά Μικρότερα μοντέλα που κοστίζουν πιο λιγο.

Μετά την κυκλοφορία του Llama 3.1, ο Διευθύνων Σύμβουλος της Meta Zuckerberg τόνισε επίσης τη σημασία της τελειοποίησης και της απόσταξης μικρών μοντέλων στο μακροσκελές άρθρο του "Open Source AI Is the Path Forward".

Πρέπει να εκπαιδεύσουμε, να τελειοποιήσουμε και να αποστάξουμε τα δικά μας μοντέλα. Κάθε οργανισμός έχει διαφορετικές ανάγκες που εξυπηρετούνται καλύτερα με τη χρήση μοντέλων που είναι εκπαιδευμένα ή τελειοποιημένα σε διαφορετικές κλίμακες και με συγκεκριμένα δεδομένα.

Τώρα μπορείτε να πάρετε μοντέλα Llama τελευταίας τεχνολογίας, να συνεχίσετε να τα εκπαιδεύετε με τα δικά σας δεδομένα και, στη συνέχεια, να τα αποστάζετε στο μέγεθος μοντέλου που ταιριάζει καλύτερα στις ανάγκες σας - χωρίς εμείς ή οποιοσδήποτε άλλος να βλέπει τα δεδομένα σας.

Επίσης, γενικά πιστεύεται στη βιομηχανία ότι οι εκδόσεις 8B και 70B του Meta Llama 3.1 αποστάζονται από εξαιρετικά μεγάλα κύπελλα, επομένως, η συνολική απόδοση έχει βελτιωθεί σημαντικά και η απόδοση του μοντέλου είναι επίσης υψηλότερη.

Εναλλακτικά, η βελτιστοποίηση της αρχιτεκτονικής μοντέλων είναι επίσης σημαντική.

Μειώνει σημαντικά τον αριθμό των παραμέτρων του μοντέλου μέσω συνέλιξης σε βάθος διαχωρισμού. Σε σύγκριση με το ResNet, το MobileNetV1 μειώνει τον αριθμό των παραμέτρων κατά περίπου 8-9 φορές.

Το MobileNet είναι υπολογιστικά πιο αποδοτικό λόγω του μειωμένου αριθμού παραμέτρων. Αυτό είναι ιδιαίτερα σημαντικό για περιβάλλοντα με περιορισμένους πόρους, όπως οι κινητές συσκευές, καθώς μπορεί να μειώσει σημαντικά τις απαιτήσεις υπολογισμού και αποθήκευσης χωρίς να θυσιάζει υπερβολική απόδοση.

Παρά την πρόοδο που σημειώθηκε σε τεχνικό επίπεδο, ο ίδιος ο κλάδος της τεχνητής νοημοσύνης εξακολουθεί να αντιμετωπίζει την πρόκληση των μακροπρόθεσμων επενδύσεων και του υψηλού κόστους και ο κύκλος επιστροφής είναι σχετικά μεγάλος.

Σύμφωνα με ελλιπή στατιστικά στοιχεία της «Daily Economic News», μέχρι τα τέλη Απριλίου του τρέχοντος έτους, συνολικά περίπου 305 μεγάλα μοντέλα είχαν λανσαριστεί στην Κίνα, αλλά μέχρι τις 16 Μαΐου, υπήρχαν ακόμη περίπου 165 μεγάλα μοντέλα που δεν είχαν ακόμη ολοκληρωθεί η εγγραφή.

Ο ιδρυτής της Baidu, Robin Li, επέκρινε δημόσια ότι η ύπαρξη πολλών σημερινών βασικών μοντέλων είναι σπατάλη πόρων και πρότεινε ότι οι πόροι θα πρέπει να χρησιμοποιηθούν περισσότερο για τη διερεύνηση της δυνατότητας συνδυασμού μοντέλων με βιομηχανίες και για την ανάπτυξη της επόμενης πιθανής σούπερ εφαρμογής.

Αυτό είναι επίσης ένα βασικό ζήτημα στην τρέχουσα βιομηχανία τεχνητής νοημοσύνης, η δυσανάλογη αντίφαση μεταξύ της αύξησης του αριθμού των μοντέλων και της εφαρμογής πρακτικών εφαρμογών.

Αντιμέτωπος με αυτήν την πρόκληση, η εστίαση της βιομηχανίας στράφηκε σταδιακά στην επιτάχυνση της εφαρμογής της τεχνολογίας AI, και τα μικρά μοντέλα με χαμηλό κόστος εγκατάστασης και υψηλότερη απόδοση έχουν γίνει πιο κατάλληλο σημείο πρωτοπορίας.

Κάποια μικρά μοντέλα που επικεντρώνονται σε συγκεκριμένα πεδία έχουν επίσης αρχίσει να εμφανίζονται, όπως μεγάλα μοντέλα μαγειρικής και μεγάλα μοντέλα για ζωντανή ροή. Αν και αυτά τα ονόματα μπορεί να φαίνονται λίγο μπλόφα, είναι ακριβώς στο σωστό δρόμο.

Εν ολίγοις, η τεχνητή νοημοσύνη στο μέλλον δεν θα είναι πλέον μια ενιαία, τεράστια ύπαρξη, αλλά θα είναι πιο ποικιλόμορφη και εξατομικευμένη. Η άνοδος των μικρών μοντέλων είναι μια αντανάκλαση αυτής της τάσης. Η εξαιρετική τους απόδοση σε συγκεκριμένες εργασίες αποδεικνύει ότι το «μικρό αλλά όμορφο» μπορεί επίσης να κερδίσει τον σεβασμό και την αναγνώριση.

Ακόμη ένα πράγμα

Εάν θέλετε να εκτελέσετε το μοντέλο εκ των προτέρων στο iPhone σας, μπορείτε επίσης να δοκιμάσετε μια εφαρμογή iOS που ονομάζεται "Hugging Chat" που κυκλοφόρησε από την Hugging Face.

Κάνοντας λήψη της εφαρμογής με λογαριασμό Magic and Outer Zone App Store, οι χρήστες μπορούν να έχουν πρόσβαση και να χρησιμοποιούν μια ποικιλία μοντέλων ανοιχτού κώδικα, συμπεριλαμβανομένων, ενδεικτικά, των Phi 3, Mixtral, Command R+ και άλλων μοντέλων.

Θερμή υπενθύμιση, για καλύτερη εμπειρία και απόδοση, συνιστάται η χρήση της τελευταίας γενιάς Pro έκδοση του iPhone.

Νέα

Πίσω από το μικρότερο και πιο ισχυρό GPT-4o mini, το μέλλον των μοντέλων τεχνητής νοημοσύνης δεν είναι πλέον τόσο μεγαλύτερο, τόσο καλύτερο

Εισαγωγή

τα στοιχεία επικοινωνίας μου