Τα στοιχεία επικοινωνίας μου
Ταχυδρομείο[email protected]
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Αναφορά Machine Heart
Τμήμα Σύνταξης Machine Heart
Το GPT-5 δεν έχει βγει ακόμα, ο Grok έχει ήδη προλάβει.
Την ίδια μέρα που η Google και το OpenAI ανταγωνίζονταν για ειδήσεις, το xAI του Μασκ δεν έμεινε αδρανές.
Το απόγευμα της Τετάρτης, ώρα Πεκίνου, η xAI κυκλοφόρησε επίσημα τη νέα γενιά μεγάλου μοντέλου Grok 2.
Ο τρίτος οργανισμός αναφοράς μεγάλου μοντέλου Chatbot Arena ενημέρωσε επίσης αμέσως τη λίστα βαθμολογίας της λίστας LMSYS. Το πρώιμο μοντέλο του Grok 2 (sus-column-r) μπορεί να καταταχθεί τέταρτο μετά το GPT-4o (έκδοση 0513), ξεπερνώντας τις επιδόσεις Claude 3.5 Sonnet και GPT-4-Turbo.
Υπερέχει στην κωδικοποίηση, σε σύνθετα προβλήματα και στα μαθηματικά.
Ο Μασκ δεν μπορούσε να μην καυχηθεί, «η ταχύτητα πρόωσης του Γκροκ είναι σαν πύραυλος».
Σημειώστε ότι αυτή είναι μόνο η βαθμολογία της πρώιμης έκδοσης του Chatbot Arena που είπε ότι θα δοκιμάσει την επίσημη έκδοση στο μέλλον.
Ο Μασκ είπε ότι το Grok-2 είναι ένα προηγμένο μοντέλο γλώσσας με προηγμένες δυνατότητες συλλογιστικής. Η νέα γενιά περιλαμβάνει δύο εκδόσεις: Grok-2 και Grok-2 mini. Και τα δύο μοντέλα κυκλοφορούν τώρα στους χρήστες του Grok στην πλατφόρμα X. Επί του παρόντος, οι χρήστες X Premium και Premium+ μπορούν ήδη να δοκιμάσουν τα μίνι μοντέλα Grok-2 και Grok-2.
Σε σύγκριση με το προηγούμενο Grok-1.5, η πρώιμη έκδοση προεπισκόπησης του Grok-2 έχει σημειώσει σημαντική πρόοδο, επιδεικνύοντας κορυφαίες ικανότητες στη συνομιλία, τη λογική, την κωδικοποίηση κ.λπ. Η xAI λέει ότι το Grok-2 και το Grok-2 mini είναι επί του παρόντος σε beta στο X και θα είναι διαθέσιμα μέσω ενός εταιρικού API αργότερα αυτόν τον μήνα.
Λιγότερο από μισή ώρα μετά την κυκλοφορία του νέου μοντέλου, ένας διαδικτυακός χρήστης έδειξε ήδη τα αποτελέσματα. Χρησιμοποίησε το Grok 2 mini για να δημιουργήσει μια εικόνα με το «Εγώ και ο Μασκ να τρώμε χοτ ντογκ».
Δοκιμάστε ένα άλλο για να δημιουργήσετε ένα πορτρέτο της Ουάσιγκτον.
Μερικοί άνθρωποι δοκίμασαν επίσης το Grok 2 mini για να δημιουργήσουν μια ιπτάμενη γάτα.
Κάποιος άλλος έφτιαξε ένα Tesla Model Y, μοιάζει;
Grok-2 απόδοση ΠΚ
Καθώς το xAI τοποθετεί μια πρώιμη έκδοση του Grok-2, "sus-column-r", στο Chatbot Arena, βλέπουμε πώς η απόδοσή του συγκρίνεται με άλλα δημοφιλή μοντέλα ανοιχτού και κλειστού κώδικα.
Όσον αφορά τη συνολική βαθμολογία Elo, το Grok-2 αποδίδει καλύτερα από τα μοντέλα της σειράς Claude και τις περισσότερες εκδόσεις του GPT-4. Φυσικά, το πρώτο στη λίστα είναι το GPT-4o (έκδοση 8 Αυγούστου), το οποίο μόλις κυκλοφόρησε αυτές τις μέρες το OpenAI.
Η παρακάτω εικόνα δείχνει τη σύγκριση του ποσοστού κέρδους μεταξύ του Grok-2 και άλλων δημοφιλών μοντέλων.
Η παρακάτω εικόνα δείχνει μια σύγκριση ποσοστού νίκης με βάση τα γεγονότα μεταξύ των δύο εκδόσεων του Grok 1.5 και του Grok 2.
Το xAI υιοθετεί αυτή τη διαδικασία για να αξιολογήσει το μοντέλο Grok 2, χρησιμοποιώντας AI Tutors για να αλληλεπιδράσει πραγματικά με το μοντέλο σε διάφορες εργασίες. Κατά τη διάρκεια κάθε αλληλεπίδρασης, το Grok 2 παρέχει δύο απαντήσεις στους AI Tutors, οι οποίοι στη συνέχεια επιλέγουν την καλύτερη απόκριση με βάση συγκεκριμένα κριτήρια που αναφέρονται στον οδηγό.
Το xAI εστιάζει στην αξιολόγηση της απόδοσης του μοντέλου σε δύο βασικούς τομείς: την παρακολούθηση των οδηγιών και την παροχή ακριβών, αληθών πληροφοριών. Τα αποτελέσματα δείχνουν σημαντικές βελτιώσεις στην ικανότητα του Grok 2 να αιτιολογεί από το ανακτηθέν περιεχόμενο και να χρησιμοποιεί εργαλεία όπως ο σωστός εντοπισμός πληροφοριών που λείπουν, η συλλογιστική μέσω αλληλουχιών γεγονότων, η απόρριψη άσχετων αναρτήσεων κ.λπ.
Βαθμολογίες αναφοράς
Το xAI αξιολόγησε το μοντέλο Grok-2 σε μια σειρά ακαδημαϊκών σημείων αναφοράς, συμπεριλαμβανομένων των συλλογισμών, της κατανόησης ανάγνωσης, των μαθηματικών, της επιστήμης και της κωδικοποίησης.
Τόσο το Grok-2 όσο και το Grok-2 mini είναι σημαντικές βελτιώσεις σε σχέση με το προηγούμενο μοντέλο Grok-1.5. Η απόδοση είναι συγκρίσιμη με άλλα μοντέλα αιχμής σε τομείς όπως επιστημονικές γνώσεις μεταπτυχιακού επιπέδου (GPQA), γενικές γνώσεις (MMLU, MMLU-Pro) και προβλήματα ανταγωνισμού μαθηματικών (MATH).
Επιπλέον, το Grok-2 αποδίδει επίσης καλά σε εργασίες που βασίζονται στην όραση, με αξιοσημείωτη απόδοση στον οπτικό μαθηματικό συλλογισμό (MathVista) και στην απάντηση ερωτήσεων βάσει εγγράφων (DocVQA).
Grok 2 διεπαφή και λειτουργίες "big makeover"
Τους τελευταίους μήνες, η xAI βελτιώνει συνεχώς την εμπειρία Grok στην πλατφόρμα x. Τώρα, με την κυκλοφορία της επόμενης γενιάς Grok 2, η xAI έχει επανασχεδιάσει τη διεπαφή, όπως φαίνεται παρακάτω.
Φυσικά, το xAI παρέχει κάποιες νέες δυνατότητες, όπως μια απλή υλοποίηση του «Game of Life» του Conway.
Ένα άλλο παράδειγμα είναι η πολυτροπική ικανότητα κατανόησης (κοιτάζοντας φωτογραφίες και ομιλία).
Μεταξύ αυτών, ο Grok-2 είναι ο πιο προηγμένος βοηθός τεχνητής νοημοσύνης του xAI, με δυνατότητες κατανόησης κειμένου και οπτικής εικόνας και ενσωματωμένες πληροφορίες σε πραγματικό χρόνο από την πλατφόρμα X, στις οποίες μπορείτε να έχετε πρόσβαση μέσω της καρτέλας Grok στην εφαρμογή X.
Το Grok-2 mini είναι ένα μικρό αλλά ισχυρό μοντέλο που επιτυγχάνει μια καλή ισορροπία μεταξύ ταχύτητας και ποιότητας απάντησης.
Το Grok-2 είναι πιο διαισθητικό, πιο ελεγχόμενο και πιο ευέλικτο από τον προκάτοχό του, καθιστώντας το κατάλληλο για μια ποικιλία εργασιών, είτε αναζητάτε απαντήσεις, είτε γράφετε από κοινού είτε επιλύετε εργασίες κωδικοποίησης.
Επιπλέον, η xAI συνεργάζεται με την startup Black Forest Labs για να πειραματιστεί με το μοντέλο FLUX.1 για να επεκτείνει τις δυνατότητες του Grok στο X.
Αργότερα αυτό το μήνα, η xAI θα κυκλοφορήσει επίσης το Grok-2 και το Grok-2 mini στους προγραμματιστές μέσω μιας νέας πλατφόρμας API για επιχειρήσεις. Το επερχόμενο API είναι χτισμένο σε μια νέα προσαρμοσμένη στοίβα τεχνολογίας, επιτρέποντας την ανάπτυξη συμπερασμάτων σε πολλές περιοχές για παγκόσμια πρόσβαση χαμηλής καθυστέρησης.
Φυσικά, το xAI προσφέρει επίσης ορισμένες βελτιωμένες δυνατότητες ασφαλείας, όπως υποχρεωτικό έλεγχο ταυτότητας πολλαπλών παραγόντων (π.χ. χρησιμοποιώντας Yubikey, Apple TouchID ή TOTP).
Μπορεί να φανεί ότι από την εκτόξευση του Grok-1 τον Νοέμβριο του 2023, η xAI προώθησε αυτή τη σειρά μοντέλων με ανησυχητικό ρυθμό. Σύντομα, θα κυκλοφορήσουν μια έκδοση προεπισκόπησης με πολυτροπική κατανόηση. Η εστίαση μετά το xAI θα είναι η βελτίωση των βασικών συλλογιστικών ικανοτήτων του μοντέλου μέσω νέων συμπλεγμάτων υπολογιστών.
Διεύθυνση ιστολογίου: https://x.ai/blog/grok-2