Η Google τελικά κερδίζει το OpenAI: Η πειραματική έκδοση Gemini 1.5 Pro ξεπερνά το GPT-4o

2024-08-02

Αναφορά Μηχανικής Καρδιάς

Επιμέλεια: Chen Chen, Xiaozhou

Με ένα τόσο ισχυρό μοντέλο, η Google προσφέρει σε όλους μια δωρεάν δοκιμή.

Τις τελευταίες δύο ημέρες, η Google κυκλοφόρησε την πιο πρόσφατη έρευνα. Μετά την κυκλοφορία του πιο ισχυρού μικρού μοντέλου Gemma 2 2B στο άκρο χθες, μόλις κυκλοφόρησε η πειραματική έκδοση Gemini 1.5 Pro (0801).

Οι χρήστες μπορούν να δοκιμάσουν και να παρέχουν σχόλια μέσω του Google AI Studio και του Gemini API.

Επειδή είναι δωρεάν, ας σας βοηθήσουμε να δοκιμάσετε το πρόσφατα δημοφιλές ζήτημα αναλογίας μεγέθους. Όταν ρωτήσαμε το Gemini 1.5 Pro (0801) ποιος αριθμός ήταν μεγαλύτερος, 9,9 ή 9,11, το μοντέλο απάντησε σωστά την πρώτη φορά και έδωσε έναν λόγο.

Όταν συνεχίσαμε να ρωτάμε «πόσα r υπάρχουν στη λέξη Strawberry», το Gemini 1.5 Pro (0801) ανατράπηκε. Εφαρμόζοντας ένα "ξόρκι" στις προτροπές βήμα προς βήμα, η ανάλυση του μοντέλου πήγε στραβά στο τέταρτο βήμα.

Διεύθυνση δοκιμής Google AI Studio: https://aistudio.google.com/app/prompts/new_chat

Ωστόσο, αν κρίνουμε από την επίσημη αξιολόγηση, το Gemini 1.5 Pro (0801) εξακολουθεί να είναι πολύ ικανό σε διάφορους δείκτες. Το νέο μοντέλο γρήγορα ανέβηκε στην κορυφή του διάσημου leaderboard LMSYS Chatbot Arena και μπορεί να υπερηφανεύεται για την εντυπωσιακή βαθμολογία ELO 1300.

Αυτό το επίτευγμα βάζει το Gemini 1.5 Pro (0801) μπροστά από το GPT-4o του OpenAI(ELO: 1286) και του Anthropic's Claude-3.5 Sonnet (ELO: 1271) και άλλων ισχυρών ανταγωνιστών, αυτό μπορεί να προαναγγέλλει μια αλλαγή στο τοπίο της τεχνητής νοημοσύνης.

Ο Simon Tokumine, βασικό μέλος της ομάδας Gemini, αποκαλεί το Gemini 1.5 Pro (0801) το πιο ισχυρό και πιο έξυπνο Gemini (μοντέλο) που έχει δημιουργήσει ποτέ η Google.

Εκτός από την πρώτη θέση στο Chatbot Arena, το Gemini 1.5 Pro (0801) είχε επίσης πολύ καλή απόδοση σε τομείς όπως πολύγλωσσες εργασίες, μαθηματικά, Hard Prompt και κωδικοποίηση.

Συγκεκριμένα, το Gemini 1.5 Pro (0801) εμφανίστηκε πρώτα στα Κινέζικα, Ιαπωνικά, Γερμανικά και Ρωσικά.

Αλλά στον τομέα της κωδικοποίησης και του Hard Prompt, οι Claude 3.5 Sonnet, GPT-4o, Llama 405B εξακολουθούν να πρωτοστατούν.

Στον χάρτη θερμότητας με ρυθμό νίκης: Το Gemini 1.5 Pro (0801) έχει ποσοστό νίκης 54% έναντι του GPT-4o και ποσοστό νίκης 59% έναντι του Claude-3.5-Sonnet.

Το Gemini 1.5 Pro (0801) κατατάσσεται επίσης πρώτο στην κατάταξη του Vision!

Οι χρήστες του Διαδικτύου είπαν ότι αυτή τη φορά η Google ξεπέρασε τις προσδοκίες όλων.

Αν και το Gemini 1.5 Pro (0801) επιτυγχάνει υψηλά αποτελέσματα, βρίσκεται ακόμα σε πειραματικό στάδιο. Αυτό σημαίνει ότι το μοντέλο μπορεί να υποστεί περαιτέρω τροποποιήσεις πριν χρησιμοποιηθεί ευρέως.

Σχόλια του Διαδικτύου

Ορισμένοι χρήστες του Διαδικτύου δοκίμασαν τις δυνατότητες εξαγωγής περιεχομένου του Gemini 1.5 Pro (0801), τις δυνατότητες δημιουργίας κώδικα, τις δυνατότητες συλλογιστικής κ.λπ. Ας ρίξουμε μια ματιά στα αποτελέσματα των δοκιμών του.

Πηγή: https://x.com/omarsar0/status/1819162249593840110

Πρώτα απ 'όλα, το Gemini 1.5 Pro (0801) έχει μια ισχυρή λειτουργία εξαγωγής πληροφοριών εικόνας, για παράδειγμα, εισαγάγετε μια εικόνα τιμολογίου και γράψτε τα στοιχεία του τιμολογίου σε μορφή JSON.

Ας ρίξουμε μια ματιά στη λειτουργία εξαγωγής περιεχομένου εγγράφων PDF του Gemini 1.5 Pro (0801).

Αφήστε το Gemini 1.5 Pro (0801) να δημιουργήσει ένα παιχνίδι Python που βοηθά στην εκμάθηση γνώσεων για μεγάλα γλωσσικά μοντέλα (LLM), το οποίο δημιουργεί απευθείας έναν ολόκληρο κώδικα:

Αξίζει να αναφέρουμε ότι το Gemini 1.5 Pro (0801) παρέχει επίσης λεπτομερείς εξηγήσεις κώδικα, συμπεριλαμβανομένου του ρόλου των συναρτήσεων στον κώδικα, πώς να παίξετε το παιχνίδι Python κ.λπ.

Αυτό το πρόγραμμα μπορεί να εκτελεστεί απευθείας στο Google AI Studio και μπορεί να δοκιμαστεί, όπως να κάνετε ερωτήσεις πολλαπλής επιλογής σχετικά με τον ορισμό του Tokenization:

Εάν πιστεύετε ότι οι ερωτήσεις πολλαπλής επιλογής είναι πολύ απλές και βαρετές, μπορείτε να αφήσετε περαιτέρω το Gemini 1.5 Pro (0801) να δημιουργήσει ένα πιο περίπλοκο παιχνίδι:

Αποκτήστε ένα παιχνίδι συμπλήρωσης του κενού με πρόταση LLM:

Προκειμένου να δοκιμαστεί η συλλογιστική ικανότητα του Gemini 1.5 Pro (0801), οι χρήστες του Διαδικτύου έκαναν μια ερώτηση "φυσώντας κερί", αλλά το μοντέλο απάντησε λάθος:

Παρά ορισμένα ελαττώματα, το Gemini 1.5 Pro (0801) εμφανίζει οπτικές δυνατότητες κοντά στο GPT-4o, καθώς και δυνατότητες δημιουργίας κώδικα και κατανόησης και συλλογισμού PDF κοντά στο Claude 3.5 Sonnet, κάτι που αξίζει να περιμένουμε.

https://www.youtube.com/watch?v=lUA9elNdpoY

Νέα

Η Google τελικά κερδίζει το OpenAI: Η πειραματική έκδοση Gemini 1.5 Pro ξεπερνά το GPT-4o

Εισαγωγή

τα στοιχεία επικοινωνίας μου