Γίνεται άγρια, το GPT-4o ηττήθηκε από το νέο μοντέλο της Google, τον επίσημο λογαριασμό ChatGPT: όλοι παίρνουν μια βαθιά ανάσα

Είναι άγριο, το GPT-4o ηττήθηκε από το νέο μοντέλο της Google, τον επίσημο λογαριασμό ChatGPT: όλοι παίρνουν μια βαθιά ανάσα

2024-08-02

Έλα, το GPT-4o ξεπέρασε το νέο μοντέλο της Google!

Σε διάστημα μιας εβδομάδας, περισσότεροι από 12.000 άνθρωποι ψήφισαν ανώνυμα.Gemini 1.5 Pro (0801) Η εκπροσώπηση της Google κέρδισε την πρώτη θέση στην αρένα lmsys για πρώτη φορά. (Η κινεζική εργασία κατατάσσεται επίσης στην πρώτη θέση)

Και αυτή τη φορά είναι διπλή κορώνα Εκτός από τη συνολική κατάταξη (η μόνη βαθμολογία είναι 1300), μέσαΟπτικός πίνακας κατάταξηςΕίναι επίσης νούμερο ένα.

Ο Simon Tokumine, βασικό πρόσωπο της ομάδας Gemini, δημοσίευσε ένα μήνυμα για να γιορτάσει:

(Αυτό το νέο μοντέλο) είναι ο πιο ισχυρός και πιο έξυπνος Δίδυμος που έχουμε φτιάξει ποτέ.

Ένας χρήστης του Reddit αποκάλεσε επίσης το μοντέλο "πολύ καλό" και εξέφρασε την ελπίδα ότι η λειτουργικότητά του δεν θα μειωθεί.

Περισσότεροι χρήστες του Διαδικτύου εξέφρασαν ενθουσιασμό που το OpenAI επιτέλους αμφισβητήθηκε και θα κυκλοφορήσει μια νέα έκδοση για να ανταπεξέλθει!

Ο επίσημος λογαριασμός ChatGPT βγήκε επίσης να υπονοεί κάτι.

Μέσα στον ενθουσιασμό, ο επικεφαλής του προϊόντος στο Google AI Studio ανακοίνωσε ότι το μοντέλο μπήκε στοΔωρεάν δοκιμαστική φάση：

Διατίθεται δωρεάν στο AI studio

Netizen: Η Google είναι επιτέλους εδώ!

Αυστηρά μιλώντας, το Gemini 1.5 Pro (0801) δεν είναι στην πραγματικότητα ένα νέο μοντέλο.

Πρέπειπειραματική έκδοσηΜε βάση το Gemini 1.5 Pro που κυκλοφόρησε από την Google τον Φεβρουάριο, η σειρά 1.5 επέκτεινε αργότερα το παράθυρο περιβάλλοντος σε 2 εκατομμύρια.

Καθώς το μοντέλο ενημερώνεται, το όνομα γίνεται όλο και μεγαλύτερο, γεγονός που προκαλεί επίσης παράπονα στους ανθρώπους.

Όχι, ένας υπάλληλος του OpenAI τον συνεχάρη χωρίς να ξεχνάει να είναι περίεργος:

Φυσικά, αν και το όνομα είναι δύσκολο να θυμηθούμε, το Gemini 1.5 Pro (0801) είχε καλή απόδοση στην επίσημη αξιολόγηση αυτή τη φορά.

Ο συνολικός χάρτης θερμότητας ρυθμού νίκης δείχνει ότι είναι 54% καλύτερος από το GPT-4o και 59% καλύτερος από τον Claude 3.5 Sonnet.

υπάρχειπολυγλωσσική ικανότηταΣε δοκιμές αναφοράς, καταλαμβάνει την πρώτη θέση στα Κινεζικά, Ιαπωνικά, Γερμανικά και Ρωσικά.

Ωστόσο, στο Coding και στο Hard Prompt Arena, εξακολουθεί να μην μπορεί να νικήσει αντιπάλους όπως οι Claude 3.5 Sonnet, GPT-4o και Llama 405B.

Αυτό έχει επίσης επικριθεί από χρήστες του Διαδικτύου, το οποίο μεταφράστηκε σε:

Η κωδικοποίηση είναι αυτό που έχει σημασία, αλλά δεν έχει καλή απόδοση εκεί.

Ωστόσο, μερικοί άνθρωποι έχουν κυκλοφορήσει με το Amway Gemini 1.5 Pro (0801)Δυνατότητες εξαγωγής εικόνας και PDF。

Ο Έλβις, συνιδρυτής της DAIR.AI, πραγματοποίησε προσωπικά μια πλήρη σειρά δοκιμών στον αγωγό πετρελαίου και κατέληξε:

Οι οπτικές δυνατότητες είναι πολύ κοντά στο GPT-4o。

Επίσης, κάποιος χρησιμοποίησε το Gemini 1.5 Pro (0801) για να λύσει το πρόβλημα που ο Claude 3.5 Sonet δεν απάντησε καλά πριν.

Τα αποτελέσματα έδειξαν ότι όχι μόνο είχε καλύτερη απόδοση, αλλά νίκησε και τον μικρό του φίλο Gemini 1.5 Flash.

Αλλά μερικοίΚλασικό τεστ Γενικών ΓνώσεωνΑκόμα δεν μπορεί να το καταλάβει, όπως «Γράψε δέκα προτάσεις που τελειώνουν με μήλα».

Ακόμη ένα πράγμα

Εν τω μεταξύ, η σειρά Gemma 2 της Google καλωσορίζει μια νέαΜοντέλο παραμέτρων 2 δισεκατομμυρίων。

Gemma 2 (2B)Έτοιμο από το κουτί, μπορεί να εκτελεστεί στη δωρεάν GPU T4 του Google Colab.

Στο βαθμολογικό πίνακα της αρένας, αυτόΥπερβαίνει όλα τα μοντέλα GPT-3.5, ξεπερνώντας ακόμη και το Mixtral-8x7b.

Αντιμέτωποι με το πιο πρόσφατο σύνολο νέων κατατάξεων της Google, το ArenaΕγκυρότητα της λίσταςΞαναρωτήθηκε από όλους.

Ο συνιδρυτής της Nous Research, Teknium (γνωστός παίκτης στον τομέα του τελειοποιημένου post-training) εξέδωσε μια υπενθύμιση:

Αν και το Gemma 2 (2B) έχει υψηλότερη βαθμολογία από το GPT-3.5 Turbo στο Arena, είναι πολύ χαμηλότερο από το τελευταίο στο MMLU.
Αυτή η απόκλιση θα ήταν ανησυχητική εάν κάποιος χρησιμοποιούσε την κατάταξη της αρένας ως τον μοναδικό δείκτη απόδοσης του μοντέλου.

Ο Bindu Reddy, Διευθύνων Σύμβουλος της Abacus.AI, άσκησε μάλιστα απευθείας έκκληση:

Σταματήστε αμέσως να χρησιμοποιείτε αυτόν τον βαθμολογικό πίνακα με ανθρώπινη βαθμολογία!
Το Claude 3.5 Sonnet είναι πολύ καλύτερο από το GPT-4o-mini.
Παρόμοιες βαθμολογίες Gemini/Gemma δεν πρέπει να είναι τόσο υψηλές σε αυτήν τη λίστα κατάταξης.

Λοιπόν, πιστεύετε ότι αυτή η μέθοδος ανώνυμης ψηφοφορίας από ανθρώπους εξακολουθεί να είναι αξιόπιστη;

Νέα

Είναι άγριο, το GPT-4o ηττήθηκε από το νέο μοντέλο της Google, τον επίσημο λογαριασμό ChatGPT: όλοι παίρνουν μια βαθιά ανάσα

Εισαγωγή

τα στοιχεία επικοινωνίας μου