Musk membuat masalah lagi! Model besar baru menantang GPT-4o, netizen jadi gila

2024-08-14

Zhidongxi News pada 14 Agustus, sore ini waktu Beijing, model startup skala besar MuskxAIPeluncuran model generasi keduaGrok-2 beta, termasuk versi mini Grok-2 dan Grok-2.

MuskDiposting dengan penuh semangat di platform sosialnya sendirikolom-sus-r。

Dia me-retweet tweet Lmsys yang mengatakan: "Grok adalah kecepatan roket." sus-column-r menerima lebih dari 12.000 suara pada daftar peringkat, dan kinerjanyaLebih baik dari Claude 3.5 Soneta dan GPT-4-Turbo, denganGPT-4oterikat untuk tempat ketiga。

Dalam banyak evaluasi seperti GPQA, MMLU, MMLU-Pro, MATH, MathVista, dll.,Grok-2Skor tersebut melebihi model mainstream seperti GPT-4 Turbo, Claude 3 Opus, dan Gemini Pro 1.5, namun masih kalah dengan GPT-4o.

Saat ini, pengguna X Premium dan Premium+ kini dapat merasakan Grok-2 dan Grok-2 mini, dan Zhixixi adalah yang pertama melakukan pengujian dan pengalaman sebenarnya.

Setelah beberapa pengalaman, perasaan paling jelas yang diberikan Grok-2 kepada saya adalah logikanya sangat jelas. Misalnya, pada contoh berikut, meskipun Grok-2 dan GPT-4o sama-sama memberikan jawaban yang benar, langkah dan perhitungan setiap langkah sebelumnya sangat jelas dan mudah dipahami. Selain itu, kemampuan grafis Vincentian Grok-2 telah meroket dengan dukungan FLUX.1, dan tetap mempertahankan gaya "berani" yang konsisten.

xAI juga berencana meluncurkan dua versi API perusahaan Grok-2 akhir bulan ini.

Alamat pengalaman:https://lmarena.ai/?model=sus-column-r

1. Performanya menyamai beberapa versi GPT-4, dan kemampuan visual dan logika menjadi lebih kuat.

Di LMSYS Chatbot Arena, versi awal Grok-2, sus-column-r, berpartisipasi dalam evaluasi.Performa skor Elo secara keseluruhan melampaui Claude dan beberapa versi GPT-4。

Seperti yang ditunjukkan pada gambar di bawah, skor Grok-2 melampaui GPT-4o-mini versi 18 Juli dan GPT-4-Turbo versi 9 April, namun skor tersebut masih lebih rendah dibandingkan versi 8 Agustus. ChatGPT-4o -GPT-4o versi terbaru 15 Mei.

Secara internal, tim xAI mengikuti proses serupa untuk mengevaluasi model, dengan evaluasi berfokus pada dua kemampuan inti model: Pertama,Ikuti instruksi dengan tepat, yang kedua adalah memberikan informasiAkurasi dan keaslian。

Perlu disebutkan bahwa Grok-2 adalahKonten pencarian analisis inferensiDanGunakan alatIni telah mencapai kemajuan yang signifikan, seperti kemampuannya untuk mengidentifikasi informasi yang hilang secara akurat, melakukan penalaran logis melalui rangkaian peristiwa, dan secara efektif menghilangkan postingan yang tidak relevan.

Untuk pengujian benchmark, tim menggunakan serangkaian tes yang meliputiPenalaran, pemahaman bacaan, matematika, sains dan codingEvaluasi komprehensif terhadap model Grok-2 dilakukan terhadap benchmark akademik di bidang lain.

Hasilnya menunjukkan bahwa Grok-2 dan versi sederhananya Grok-2 mini mengalami peningkatan yang signifikan dibandingkan model Grok-1.5 generasi sebelumnya.

di tingkat pascasarjanaPengetahuan ilmiah (seperti GPQA), tanya jawab akal sehat (seperti MMLU, MMLU-Pro)maupunSoal kompetisi matematika (seperti MATEMATIKA)Di bidang lain, performanya mampu bersaing dengan model papan atas lainnya.

Seperti yang ditunjukkan pada gambar di bawah, Grok-2 mendapat nilai bagus di semua tes ini.Melampaui GPT-4 Turbo, Claude 3 Opus, dan Gemini Pro 1.5, namun masih belum bisa mengalahkan GPT-4o。

Perlu disebutkan bahwa Grok-2 adalahtugas visualPerforma luar biasa, terutama padaPenalaran Matematika Visual (MathVista)DanMenjawab pertanyaan berbasis dokumen (DocVQA)Kinerjanya sangat luar biasa.

2. Grok-2 telah diluncurkan pada

Grok-2 dan Grok-2 mini kini tersedia untuk X pelanggan, dan non-pelanggan juga dapat merasakan versi awal model Grok-2 sus-column-r secara gratis di Large Model Arena.

Ada total 62 model yang tersedia di arena model besar, termasuk GPT-4o. Untuk memudahkan perbandingan, mari kita uji model awal ini terlebih dahulu.

Yang pertama adalah masalah rasio ukuran yang membalikkan banyak model beberapa waktu lalu: mana yang lebih besar, 13,11 atau 13,8. Baik Grok-2 maupun GPT-4o menjawab dengan akurat, namun proses berpikir Grok-2 lebih jelas dan mencantumkan langkah-langkah berpikir yang detail.

Pada pertanyaan klasik lainnya "Berapa banyak r yang ada di Strawberry?", Grok-2 menjawab salah pada awalnya, tetapi kemudian memberikan jawaban yang benar setelah beralih ke bahasa Inggris. GPT-4o menjawab dengan benar dalam bahasa Mandarin dan Inggris. Nampaknya masih ada unsur keberuntungan pada model berukuran besar.

Model-model di arena model besar tidak terhubung ke Internet secara real-time. Ketika saya bertanya "Apa saja yang menarik dari Pixel 9 yang baru saja dirilis oleh Google?", kedua model tersebut mengatakan bahwa mereka belum memiliki informasi tersebut. Grok-2 kemudian memberikan prediksi berdasarkan tren perkembangan teknologi dan karakteristik Pixel di masa lalu. Satu tebakan cukup andal. Kamera, prosesor, AI, dll semuanya menjadi fokus pembaruan Google.

GPT-4o tidak memberikan prediksi, namun merangkum keunggulan ponsel Pixel di masa lalu.

Dalam hal kemampuan pengkodean, kinerja kedua model sebanding, dan langkah-langkah solusi terperinci serta kode lengkap diberikan untuk persyaratannya.

Dari segi penalaran logis, Grok-2 sekali lagi menunjukkan kejelasan logika, dan setiap langkah penalaran dibagi menjadi subtitle. Meski GPT-4o juga menjawab benar, namun langkah berpikirnya kurang jelas.

Kemampuan grafik Vincent adalah fokus utama pembaruan Grok-2 ini. Model FLUX.1 yang terhubung dengannya sangat populer di komunitas open source baru-baru ini karena kinerjanya yang kuat. Namun, kemampuan menghasilkan gambar tidak dapat dirasakan di arena model besar dan hanya dapat dicapai melalui langganan X.

Netizen telah bersenang-senang dengan Grok-2 Wenshengtu, seperti menggunakan kemampuan pembuatan teks untuk membantu Grok-2 mengadakan konferensi pers offline.

Atau gunakan imajinasi Anda dan biarkan Musk mengendarai mobil di Mars.

Berdasarkan sistem sensor Grok yang hampir nol, banyak netizen yang melontarkan lelucon, seperti meminta Trump menembak, dan meminta George W. Bush menghirup kokain...

Atau biarkan Trump terbang dengan roket SpaceX. Dihadapkan pada permintaan yang sama, GPT-4o menolak dengan tegas.

Seberapa tidak tahu malunya sistem sensor Grok? Beberapa netizen menguji model besar untuk "memberi peringkat 10 IQ teratas berdasarkan ras", dan hanya Grok-2 yang memberikan jawabannya tanpa ragu-ragu.ObrolanGPT, Claude langsung menolak, dan Gemini meluncurkan pendidikan yang melelahkan.

Secara keseluruhan, Grok-2 tetap menerapkan gayanya yang berani. Pada saat yang sama, performa modelnya sebanding dengan model kepala seperti GPT-4o, logikanya lebih jelas, dan kemampuan multimodalnya bahkan lebih baik daripada FLUX.1. Dengan berkah, ia melonjak ke atas.

3. Meluncurkan platform API perusahaan pada akhir bulan untuk mengintegrasikan sistem perusahaan dengan lancar

Pada akhir bulan ini, xAI akan meloloskan yang baruPlatform API Perusahaan, secara resmi meluncurkan Grok-2 dan Grok-2 mini kepada pengembang.

API ini akan mengadopsi arsitektur teknis baru yang disesuaikan untuk mendukungPenerapan inferensi multi-wilayah,untukpengguna globalBerikan pengalaman yang lancar dengan latensi rendah.

Pada saat yang sama, xAI telah meningkatkan fitur keamanan, termasuk otentikasi multi-faktor wajib (seperti Yubikey, Apple TouchID atau TOTP) dan memberikan rincianStatistik lalu lintas dan layanan analisis penagihan tingkat lanjut, mendukung ekspor data.

Selain itu, xAI juga telah meluncurkan API manajemen untuk mendukung integrasi fungsi manajemen tim, pengguna, dan penagihan ke dalam alat dan layanan internal yang ada.

Kesimpulan: Keterkaitan antara Grok-2 dan platform X lebih dalam, dan OpenAI serta platform lainnya berada di bawah tekanan besar.

Grok-2 dan Grok-2 mini kini online di platform X. Misalnya, pengalaman pencarian yang ditingkatkan, analisis mendalam terhadap postingan X, dan fungsi balasan yang dioptimalkan cukup menarik. Dalam waktu dekat, xAI juga akan merilis versi pratinjau kemampuan pemahaman multimodalnya.

Sejak peluncuran Grok-1 pada November 2023, xAI telah mengalami kemajuan pesat dalam teknologi, produk, dan pembiayaan, dan peluncuran Grok-2 merupakan tonggak sejarah barunya. Setelah Musk menghubungkan kemampuan model besar Grok dengan ekologi pengguna konten yang kuat dari platform X, lingkaran tertutup akan terbentuk, termasukBuka AITekanan terhadap perusahaan rintisan model besar, termasuk Alibaba Cloud, bahkan lebih besar lagi.

Penulis |. Li Shuiqing Vanila

Penyunting |.Yunpeng

berita