Ο Musk ξυπνά ξανά προβλήματα! Νέο μεγάλο μοντέλο προκαλεί το GPT-4o, οι χρήστες του Διαδικτύου τρελαίνονται

2024-08-14

Zhidongxi News στις 14 Αυγούστου, σήμερα το απόγευμα ώρα Πεκίνου, η εκκίνηση μοντέλων μεγάλης κλίμακας του MuskxAIΠαρουσίαση μοντέλου δεύτερης γενιάςGrok-2 beta, συμπεριλαμβανομένων των μίνι εκδόσεων Grok-2 και Grok-2.

ΜόσχοςΔημοσιεύτηκε με πάθος στη δική του κοινωνική πλατφόρμαsus-στήλη-r。

Ανέβασε το tweet του Lmsys λέγοντας: "Grok είναι ταχύτητα πυραύλων". Το sus-column-r έλαβε περισσότερες από 12.000 ψήφους στη λίστα κατάταξης και την απόδοσή τουΚαλύτερο από Claude 3.5 Sonnet και GPT-4-Turbo, μεGPT-4oισοβαθμεί στην τρίτη θέση。

Σε πολλές αξιολογήσεις όπως GPQA, MMLU, MMLU-Pro, MATH, MathVista κ.λπ.,Γκροκ-2Οι βαθμολογίες ξεπερνούν αυτές των mainstream μοντέλων όπως τα GPT-4 Turbo, Claude 3 Opus και Gemini Pro 1.5, αλλά εξακολουθούν να είναι κατώτερα από το GPT-4o.

Επί του παρόντος, οι χρήστες X Premium και Premium+ μπορούν πλέον να δοκιμάσουν τα Grok-2 και Grok-2 mini, και η Zhixixi ήταν η πρώτη που πραγματοποίησε πραγματικές δοκιμές και εμπειρία.

Μετά από κάποια εμπειρία, η πιο προφανής αίσθηση που μου έδωσε το Grok-2 είναι ότι η λογική του είναι πολύ ξεκάθαρη. Για παράδειγμα, στο παρακάτω παράδειγμα, αν και το Grok-2 και το GPT-4o έδωσαν σωστές απαντήσεις, τα βήματα και οι υπολογισμοί κάθε βήματος του πρώτου είναι πολύ σαφείς και πιο κατανοητοί. Επιπλέον, οι δυνατότητες γραφικών Vincentian του Grok-2 έχουν εκτοξευθεί στα ύψη με την υποστήριξη του FLUX.1 και έχει διατηρήσει το σταθερό «τολμηρό» στυλ του.

Η xAI σχεδιάζει επίσης να κυκλοφορήσει δύο εκδόσεις του Grok-2 business API αργότερα αυτόν τον μήνα.

Διεύθυνση εμπειρίας:https://lmarena.ai/?model=sus-column-r

1. Η απόδοση φτάνει σε πολλές εκδόσεις του GPT-4 και οι οπτικές και λογικές δυνατότητες γίνονται ισχυρότερες.

Στο LMSYS Chatbot Arena, μια πρώιμη έκδοση του Grok-2, sus-column-r, συμμετείχε στην αξιολόγηση.Η συνολική απόδοση της βαθμολογίας Elo ξεπερνά τον Claude και πολλές εκδόσεις GPT-4。

Όπως φαίνεται στο παρακάτω σχήμα, η βαθμολογία του Grok-2 ξεπέρασε την έκδοση της 18ης Ιουλίου του GPT-4o-mini και την έκδοση της 9ης Απριλίου του GPT-4-Turbo, αλλά η βαθμολογία ήταν ακόμα χαμηλότερη από την έκδοση της 8ης Αυγούστου ChatGPT-4o -Η πιο πρόσφατη έκδοση του GPT-4o στις 15 Μαΐου.

Εσωτερικά, η ομάδα xAI ακολουθεί παρόμοια διαδικασία για την αξιολόγηση μοντέλων, με την αξιολόγηση να επικεντρώνεται στις δύο βασικές δυνατότητες του μοντέλου: Πρώτον,Ακολουθήστε τις οδηγίες με ακρίβεια, το δεύτερο είναι η παροχή πληροφοριώνΑκρίβεια και αυθεντικότητα。

Αξίζει να αναφέρουμε ότι το Grok-2 είναιΠεριεχόμενο αναζήτησης ανάλυσης συμπερασμάτωνκαιΧρησιμοποιήστε εργαλείαΈχει σημειώσει σημαντική πρόοδο, όπως η ικανότητά του να εντοπίζει με ακρίβεια πληροφορίες που λείπουν, να εκτελεί λογικούς συλλογισμούς μέσω ακολουθιών γεγονότων και να εξαλείφει αποτελεσματικά άσχετες αναρτήσεις.

Για δοκιμές αναφοράς, η ομάδα χρησιμοποίησε μια σειρά δοκιμών που καλύπτουνΣυλλογισμός, κατανόηση ανάγνωσης, μαθηματικά, επιστήμη και κωδικοποίησηΜια ολοκληρωμένη αξιολόγηση του μοντέλου Grok-2 διεξήχθη σε ακαδημαϊκούς δείκτες αναφοράς σε άλλους τομείς.

Τα αποτελέσματα δείχνουν ότι το Grok-2 και η απλοποιημένη έκδοση του Grok-2 mini είναι σημαντικά βελτιωμένα σε σύγκριση με το μοντέλο προηγούμενης γενιάς Grok-1.5.

σε μεταπτυχιακό επίπεδοΕπιστημονικές γνώσεις (όπως GPQA), ερωτήσεις και απαντήσεις κοινής λογικής (όπως MMLU, MMLU-Pro)καθώς καιΕρωτήσεις διαγωνισμού μαθηματικών (όπως μαθηματικά)Σε άλλους τομείς, η απόδοσή τους μπορεί να ανταγωνιστεί άλλα κορυφαία μοντέλα.

Όπως φαίνεται στο παρακάτω σχήμα, το Grok-2 σημείωσε καλή βαθμολογία σε όλες αυτές τις δοκιμές.Ξεπέρασε τα GPT-4 Turbo, Claude 3 Opus και Gemini Pro 1.5, αλλά και πάλι δεν μπόρεσε να νικήσει το GPT-4o。

Αξίζει να αναφέρουμε ότι το Grok-2 είναιοπτικές εργασίεςΕξαιρετική απόδοση, ειδικά στοΟπτικός Μαθηματικός Συλλογισμός (MathVista)καιΑπάντηση σε ερωτήσεις βάσει εγγράφων (DocVQA)Η απόδοση είναι ιδιαίτερα εξαιρετική.

2. Το Grok-2 εκτοξεύτηκε στο

Το Grok-2 και το Grok-2 mini είναι πλέον διαθέσιμα σε συνδρομητές X και οι μη συνδρομητές μπορούν επίσης να δοκιμάσουν την πρώιμη έκδοση του μοντέλου Grok-2 sus-column-r δωρεάν στο Large Model Arena.

Υπάρχουν συνολικά 62 διαθέσιμα μοντέλα στη μεγάλη αρένα μοντέλων, συμπεριλαμβανομένου του GPT-4o, για να διευκολυνθεί η σύγκριση, ας δοκιμάσουμε πρώτα αυτό το πρώιμο μοντέλο.

Το πρώτο είναι το ζήτημα της αναλογίας μεγέθους που ανέτρεψε πολλά μοντέλα πριν από λίγο καιρό: ποιο είναι μεγαλύτερο, 13.11 ή 13.8. Τόσο το Grok-2 όσο και το GPT-4o απάντησαν με ακρίβεια, αλλά η διαδικασία σκέψης του Grok-2 ήταν πιο ξεκάθαρη και απαριθμούσε λεπτομερή βήματα σκέψης.

Σε μια άλλη κλασική ερώτηση "Πόσα r's υπάρχουν στο Strawberry;", ο Grok-2 απάντησε λανθασμένα στην αρχή, αλλά στη συνέχεια έδωσε τη σωστή απάντηση αφού άλλαξε το GPT-4o και στα κινέζικα και στα αγγλικά. Φαίνεται ότι θα υπάρχει ακόμα ένα στοιχείο τύχης στα μεγάλα μοντέλα.

Τα μοντέλα στη μεγάλη αρένα μοντέλων δεν είναι συνδεδεμένα στο Διαδίκτυο σε πραγματικό χρόνο Όταν ρώτησα "Ποια είναι τα κυριότερα σημεία του Pixel 9 που μόλις κυκλοφόρησε από την Google;", και τα δύο μοντέλα είπαν ότι δεν είχαν ακόμη αυτές τις πληροφορίες. Στη συνέχεια, ο Grok-2 έδωσε προβλέψεις με βάση τις τάσεις ανάπτυξης της τεχνολογίας και τα προηγούμενα χαρακτηριστικά της Pixel ήταν αρκετά αξιόπιστες Κάμερες, επεξεργαστές, τεχνητή νοημοσύνη κ.λπ.

Το GPT-4o δεν έδωσε πρόβλεψη, αλλά συνόψισε τα προηγούμενα highlights των τηλεφώνων Pixel.

Όσον αφορά τις δυνατότητες κωδικοποίησης, η απόδοση των δύο μοντέλων είναι συγκρίσιμη και δίνονται λεπτομερή βήματα λύσης και πλήρεις κωδικοί για τις απαιτήσεις.

Όσον αφορά τον λογικό συλλογισμό, το Grok-2 δείχνει για άλλη μια φορά τη σαφήνεια της λογικής και κάθε βήμα συλλογισμού χωρίζεται σε υπότιτλους. Αν και το GPT-4o απάντησε επίσης σωστά, τα βήματα σκέψης δεν ήταν αρκετά σαφή.

Η δυνατότητα γραφήματος Vincent είναι το κύριο επίκεντρο αυτής της ενημέρωσης του Grok-2 Το μοντέλο FLUX.1 στο οποίο είναι συνδεδεμένο ήταν πολύ δημοφιλές στην κοινότητα ανοιχτού κώδικα πρόσφατα λόγω της ισχυρής του απόδοσης. Ωστόσο, η δυνατότητα δημιουργίας εικόνας δεν μπορεί να βιωθεί στη μεγάλη αρένα μοντέλων και μπορεί να επιτευχθεί μόνο μέσω της συνδρομής X.

Οι χρήστες του Διαδικτύου έχουν ήδη διασκεδάσει με το Grok-2 Wenshengtu, όπως χρησιμοποιώντας τις δυνατότητες δημιουργίας κειμένου για να βοηθήσουν το Grok-2 να πραγματοποιήσει μια συνέντευξη τύπου εκτός σύνδεσης.

Ή χρησιμοποιήστε τη φαντασία σας και αφήστε τον Μασκ να οδηγήσει ένα αυτοκίνητο στον Άρη.

Με βάση το σχεδόν μηδενικό σύστημα λογοκρισίας του Grok, πολλοί χρήστες του Διαδικτύου έχουν κάνει αστεία, όπως ζητώντας από τον Τραμπ να πυροβολήσει και ζητώντας από τον Τζορτζ Μπους να ρουφήξει κοκαΐνη...

Ή αφήστε τον Τραμπ να ανέβει στον ουρανό με έναν πύραυλο SpaceX. Αντιμέτωπος με το ίδιο αίτημα, το GPT-4o αρνήθηκε πολύ αποφασιστικά.

Πόσο ακαταμάχητο είναι το σύστημα λογοκρισίας του Grok Μερικοί χρήστες του Διαδικτύου δοκίμασαν ένα μεγάλο μοντέλο για να "κατατάξουν τα 10 κορυφαία IQ ανά φυλή" και μόνο ο Grok-2 έδωσε την απάντηση χωρίς δισταγμό;ChatGPT, ο Κλοντ αρνήθηκε ευθέως και ο Δίδυμος ξεκίνησε μια επίπονη εκπαίδευση.

Συνολικά, το Grok-2 εξακολουθεί να εφαρμόζει το τολμηρό του στυλ. Ταυτόχρονα, η απόδοση του μοντέλου του είναι συγκρίσιμη με μοντέλα κεφαλής όπως το GPT-4o, η λογική του είναι πιο ξεκάθαρη και οι πολλαπλές δυνατότητές του είναι ακόμη καλύτερες από αυτές του FLUX.1. Με την ευλογία, ανέβηκε στα ύψη.

3. Ξεκινήστε μια πλατφόρμα API για επιχειρήσεις στο τέλος του μήνα για να ενσωματώσετε απρόσκοπτα εταιρικά συστήματα

Στο τέλος αυτού του μήνα, το xAI θα περάσει το νέοEnterprise API Platform, παρουσίασε επίσημα το Grok-2 και το Grok-2 mini στους προγραμματιστές.

Αυτό το API θα υιοθετήσει μια νέα προσαρμοσμένη τεχνική αρχιτεκτονική για υποστήριξηΑνάπτυξη συμπερασμάτων σε πολλές περιοχές,γιαπαγκόσμιους χρήστεςΠαρέχετε μια ομαλή εμπειρία με χαμηλή καθυστέρηση.

Ταυτόχρονα, το xAI έχει βελτιωμένα χαρακτηριστικά ασφαλείας, συμπεριλαμβανομένου του υποχρεωτικού ελέγχου ταυτότητας πολλαπλών παραγόντων (όπως Yubikey, Apple TouchID ή TOTP) και παρέχει λεπτομερείςΣτατιστικά επισκεψιμότητας και προηγμένες υπηρεσίες ανάλυσης χρέωσης, υποστηρίζει την εξαγωγή δεδομένων.

Επιπλέον, η xAI κυκλοφόρησε επίσης ένα API διαχείρισης για την υποστήριξη της απρόσκοπτης ενσωμάτωσης των λειτουργιών διαχείρισης ομάδας, χρηστών και χρέωσης σε υπάρχοντα εσωτερικά εργαλεία και υπηρεσίες.

Συμπέρασμα: Η σύνδεση μεταξύ του Grok-2 και της πλατφόρμας X είναι βαθύτερη και το OpenAI και άλλα βρίσκονται υπό μεγάλη πίεση.

Το Grok-2 και το Grok-2 mini είναι πλέον online στην πλατφόρμα X. Για παράδειγμα, η βελτιωμένη εμπειρία αναζήτησης, η εις βάθος ανάλυση των αναρτήσεων X και οι βελτιστοποιημένες λειτουργίες απάντησης είναι αρκετά συναρπαστικές. Σύντομα, το xAI θα κυκλοφορήσει επίσης μια έκδοση προεπισκόπησης των δυνατοτήτων κατανόησης πολλαπλών μέσων.

Από την εκτόξευση του Grok-1 τον Νοέμβριο του 2023, η xAI σημειώνει ταχεία πρόοδο στην τεχνολογία, τα προϊόντα και τη χρηματοδότηση, και η εκτόξευση του Grok-2 είναι το νέο ορόσημο. Μόλις ο Musk συνδέσει τις μεγάλες δυνατότητες μοντέλων του Grok με την ισχυρή οικολογία χρηστών περιεχομένου της πλατφόρμας X, θα δημιουργηθεί ένας κλειστός βρόχος, συμπεριλαμβανομένουOpenAIΗ πίεση στις νεοφυείς επιχειρήσεις μεγάλων μοντέλων, συμπεριλαμβανομένου του Alibaba Cloud, είναι ακόμη μεγαλύτερη.

Συγγραφέας |. Li Shuiqing Vanilla

Συντάκτης |

νέα