Το GPT-4o mini φτάνει στην κορυφή της μεγάλης αρένας μοντέλων, Ultraman: δωρεάν τελειοποίηση εντός δύο μηνών

2024-07-24

Το Crecy προέρχεται από τον ναό Aofei
Qubits | Δημόσιος λογαριασμός QbitAI

Μόλις τώρα, η μίνι έκδοση GPT-4o εγκαινίασε τη "στιγμή της κορυφαίας σημασίας" της——

Ανέβηκε στην αρένα του μεγάλου μοντέλου lmsys, ισοβαθμεί στην πρώτη θέση με την έκδοση πλήρους υγείας και αφήνοντας πίσω τον Claude 3.5.

Διαφορετικά από τη γενική αξιολόγηση του συνόλου δεδομένων, η μεγάλη αρένα μοντέλων είναι το αποτέλεσμα των χρηστών που θέτουν τις δικές τους ερωτήσεις και ψηφίζουν με τα πόδια τους.

Μόλις βγήκε αυτό το αποτέλεσμα, ακόμη και ο CEO Altman ενθουσιάστηκε:

Αντιμέτωποι με τα αποτελέσματα της αξιολόγησης, αρχικά προσπαθήσαμε να είμαστε επιφυλακτικοί, αλλά όταν είδαμε ότι το GPT-4o mini είχε την ίδια απόδοση με την έκδοση πλήρους υγείας, αλλά η τιμή ήταν μόνο 1/20, ήμασταν πολύ ενθουσιασμένοι.

Οι χρήστες του Διαδικτύου είπαν ότι ήταν εντάξει αφού το είδαν, αλλά ανησυχούσαν περισσότερο για το πότε το "Her" που παρουσιάστηκε στη συνέντευξη Τύπου του GPT-4o θα ήταν online.

Ταυτόχρονα, το OpenAI έστειλε επίσης άλλα καλά νέα, τα οποία θα προσφέρουν οφέλη στους προγραμματιστές——

GPT-4o μίνιΗ μικρορύθμιση θα ανοίξει σταδιακά, προς το παρόν ανοιχτό σε χρήστες βαθμίδων 4 και 5, και θα επεκτείνει σταδιακά το εύρος.

καιΑπό τώρα έως τις 23 Σεπτεμβρίου, μπορείτε να χρησιμοποιείτε 2 εκατομμύρια κουπόνια εκπαίδευσης δωρεάν κάθε μέρα。

Το μίνι είναι στο ίδιο επίπεδο με την πλήρη έκδοση υγείας

Μετά από εκατομμύρια γύρους ανταγωνισμού 1v1 με περισσότερα από 80 μοντέλα, η βαθμολογία του GPT-4o mini στη λίστα lmsys είναι μόλις 7 πόντους πίσω από την έκδοση πλήρους υγείας.

Σύμφωνα με τη διάταξη της λίστας lmsys, αυτή η διαφορά των 7 βαθμών δεν επηρεάζει την κατάταξη και τα δύο μοντέλα υπολογίζονται ως ισόπαλα για την πρώτη θέση.

Ακολουθούν οι οικογένειες Claude 3.5 και Gemini, καθώς και δύο άλλες εκδόσεις του GPT-4.

Αν κοιτάξουμε τα ανεπεξέργαστα δεδομένα του GPT-4o mini, θα διαπιστώσουμε ότι ο μέσος ρυθμός νίκης του 0,6 είναι δεύτερος μόνο μετά την έκδοση πλήρους υγείας.

Βλέποντας τα αποτελέσματα του ανταγωνισμού μεταξύ των δύο και μόνο, ταιριάζουν εξίσου.

Ο λόγος για τον οποίο η απόδοση του lmsys έχει τραβήξει την προσοχή είναι ότι διαθέτει ένα μοναδικό σύνολο μεθόδων ανταγωνισμού——

Αντί να χρησιμοποιήσετε ένα σύνολο δεδομένων,Αφήστε τους χρήστες να κάνουν τις δικές τους ερωτήσεις και να σχεδιάσουν τυχαία δύο μοντέλα σε μια μάχη 1 προς 1.και μετά επιλέξτε ποιο μοντέλο έχει καλύτερη απόδοση.

Πριν δώσει μια επιλογή, το μοντέλο είναι ανώνυμο και ο χρήστης δεν γνωρίζει ποια δύο μοντέλα ανταγωνίζονται Εάν το μοντέλο διαρρεύσει κάτι, η ψήφος θα είναι άκυρη.

Οι βαθμολογίες που λαμβάνονται με αυτόν τον τρόπο είναι πιο ρεαλιστικές, γεγονός που όχι μόνο αποφεύγει τη δυνατότητα απόκτησης τεχνητά υψηλών βαθμολογιών "διορθώνοντας ερωτήσεις", αλλά είναι και πιο κοντά στην εμπειρία του χρήστη.

Αυτό το μεγάλο μοντέλο αρένα, πρόσφαταΠαρακολούθησε το κορυφαίο συνέδριο μηχανικής εκμάθησης ICML2024。

Επιπλέον, η αξιολόγηση του lmsys επίσηςΠολύ δημοφιλές με το OpenAI, η πρώιμη έκδοση του GPT-4o mini πριν από την επίσημη κυκλοφορία του ήταν καταχωρημένη με το ψευδώνυμο gpt-mini.

Τότε ήταν ήδη στην 4η θέση, στο ίδιο επίπεδο με το GPT4-Turbo.

Νωρίτερα, πριν το GPT-4o κυκλοφορήσει στο διαδίκτυο, δοκιμάστηκε και με το ψευδώνυμο gpt2-chatbot στο lmsys.

Ωστόσο, κάποιοι αμφισβήτησαν ότι αν και το GPT-4o mini έχει πολύ καλή απόδοση, είναι υπερβολή να πούμε ότι ξεπερνά το σονέτο του Claude 3,5.

Μερικοί μάλιστα είπαν ωμά ότι η ακεραιότητα της μεθόδου lmsys έχει αρχίσει να καταρρέει και πρέπει να αλλάξει, διαφορετικά δεν θα είναι πλέον χρήσιμο σημείο αναφοράς δοκιμής.

Τυλίγεται και το «μικρό μοντέλο».

Το λανσάρισμα της μίνι έκδοσης εστιάζει στη σχέση κόστους-αποτελεσματικότητας.

Ανά εκατομμύριο μάρκες εισόδου/εξόδου, οι τιμές είναι 15 σεντς και 60 σεντς αντίστοιχα (περίπου 1,09/4,36 RMB), που δεν είναι ούτε το μισό του 3,5 Turbo.

Σε σύγκριση με την έκδοση text-davinci-003 του GPT-3 πριν από δύο χρόνια (το καλύτερο μοντέλο εκείνη την εποχή), η τιμή έχει πέσει κατά 99%.

Εκτός από το άνοιγμα μικρών μοντέλων στους χρήστες, το OpenAI έχει επίσης βρει νέους τρόπους παιχνιδιού——

Σε μια μεταθανάτια εργασία της ομάδας "Super Alignment", ένα μικρό μοντέλο με το ένα χιλιοστό ή το ένα εκατοστό των παραμέτρων του μεγάλου μοντέλου χρησιμοποιήθηκε για τη βελτιστοποίηση του μεγάλου μοντέλου.

Στο πείραμα, τα μεγάλα και μικρά μοντέλα «παίζουν» μεταξύ τους Το μεγάλο μοντέλο πρέπει να βελτιστοποιεί και να προσαρμόζει συνεχώς την απόδοσή του για να κάνει το μικρό μοντέλο να πιστεύει ότι λέει την αλήθεια.

Στη διαδικασία αυτού του «παιχνιδιού», οι δυνατότητες του μεγάλου μοντέλου έχουν βελτιωθεί, και η κατανόηση έχει βελτιωθεί σημαντικά χωρίς σημαντική απώλεια ακρίβειας.

Εκτός από το OpenAI, άλλες εταιρείες έχουν επίσης λανσάρει μικρά μοντέλα.

Για παράδειγμα, πριν από το GPT-4o mini, η Google και η Anthropic παρουσίασαν το Gemini Flash και το Claude 3-Haiku αντίστοιχα.

Μπορεί ακόμη να ειπωθεί ότι το GPT-4o mini είναι η αντεπίθεση του OpenAI ενάντια στα δύο μοντέλα, ξεπερνώντας αυτά τα δύο μοντέλα σε απόδοση και τιμή.

Την ίδια εβδομάδα που κυκλοφόρησε το GPT-4o mini, το Hugging Face και το "European OpenAI" Mistral παρουσίασαν και τα δύο μικρά μοντέλα.

Ακόμη και η Apple κυκλοφόρησε το δικό της μοντέλο 7B και ανοιχτού κώδικα όλες τις διαδικασίες και τους πόρους εκπαίδευσης ταυτόχρονα.

Με λίγα λόγια, εφόσον η απόδοση είναι επαρκής για να καλύψει τις ανάγκες χρήσης, το μικρό μοντέλο είναι αναμφίβολα μια πιο οικονομική επιλογή.

Ταυτόχρονα, η μικρότερη κλίμακα σημαίνει επίσης ότι είναι δυνατή η εκτέλεση στην πλευρά του τερματικού, δείχνοντας πλεονεκτήματα στην προστασία της ιδιωτικής ζωής και σε άλλες πτυχές.

Με αυτόν τον τρόπο δεν είναι δύσκολο να καταλάβει κανείς γιατί τα «μικρά» μοντέλα γίνονται όλο και πιο κατσαρά.

Σύνδεσμοι αναφοράς:
[1]https://x.com/sama/status/1815877987696533897/
[2]https://x.com/OpenAIDevs/status/1815836887631946015

Νέα