Informasi kontak saya
Surat[email protected]
2024-08-14
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Laporan Jantung Mesin
Departemen Editorial Jantung Mesin
GPT-5 belum keluar, Grok sudah menyusul.
Pada hari yang sama ketika Google dan OpenAI bersaing untuk mendapatkan berita, xAI Musk juga tidak menganggur.
Pada Rabu sore waktu Beijing, xAI resmi merilis model besar Grok 2 generasi baru.
Organisasi benchmark model besar pihak ketiga Chatbot Arena juga segera memperbarui daftar skor dari daftar LMSYS. Model awal Grok 2 (sus-column-r) dapat menempati peringkat keempat setelah GPT-4o (versi 0513), mengungguli Claude 3.5 Sonnet dan GPT-4-Turbo.
Ia unggul dalam pengkodean, masalah kompleks, dan matematika.
Musk tidak bisa menahan diri untuk tidak menyombongkan diri, "Kecepatan propulsi Grok seperti roket."
Perhatikan bahwa ini hanya skor versi awal. Chatbot Arena mengatakan akan menguji versi resmi di masa mendatang.
Musk mengatakan Grok-2 adalah model bahasa canggih dengan kemampuan penalaran yang canggih. Generasi baru mencakup dua versi: Grok-2 dan Grok-2 mini. Kedua model tersebut kini dirilis untuk pengguna Grok di platform X. Saat ini, pengguna X Premium dan Premium+ sudah dapat merasakan model mini Grok-2 dan Grok-2.
Dibandingkan dengan Grok-1.5 sebelumnya, versi pratinjau awal Grok-2 telah mencapai kemajuan yang signifikan, menunjukkan kemampuan terdepan dalam obrolan, penalaran, pengkodean, dll. xAI mengatakan Grok-2 dan Grok-2 mini saat ini masih dalam versi beta di X dan akan tersedia melalui API perusahaan akhir bulan ini.
Kurang dari setengah jam setelah model barunya dirilis, seorang netizen sudah memamerkan hasilnya. Dia menggunakan Grok 2 mini untuk menghasilkan gambar "Saya dan Musk sedang makan hot dog".
Coba yang lain untuk menghasilkan potret Washington.
Beberapa orang juga mencoba Grok 2 mini untuk menghasilkan kucing terbang.
Orang lain membuat Tesla Model Y, apakah terlihat serupa?
Kinerja Grok-2 PK
Saat xAI menempatkan versi awal Grok-2, "sus-column-r", ke Chatbot Arena, kami melihat bagaimana kinerjanya dibandingkan dengan model sumber terbuka dan tertutup populer lainnya.
Dalam hal skor Elo keseluruhan, Grok-2 berkinerja lebih baik daripada model seri Claude dan sebagian besar versi GPT-4. Tentu saja, yang pertama dalam daftar adalah GPT-4o (versi 8 Agustus), yang baru saja dirilis OpenAI beberapa hari ini.
Gambar di bawah menunjukkan perbandingan Win Rate antara Grok-2 dengan model populer lainnya.
Gambar di bawah ini menunjukkan perbandingan win rate berdasarkan fakta antara kedua versi Grok 1.5 dan Grok 2.
xAI mengadopsi proses ini untuk mengevaluasi model Grok 2, menggunakan Tutor AI untuk benar-benar berinteraksi dengan model dalam berbagai tugas. Dalam setiap interaksi, Grok 2 memberikan dua respons kepada Tutor AI, yang kemudian memilih respons terbaik berdasarkan kriteria spesifik yang tercantum dalam panduan.
xAI berfokus pada evaluasi kinerja model dalam dua bidang utama: mengikuti instruksi dan memberikan informasi yang akurat dan jujur. Hasilnya menunjukkan peningkatan yang signifikan dalam kemampuan Grok 2 untuk menalar konten yang diambil dan menggunakan alat seperti mengidentifikasi informasi yang hilang dengan benar, menalar melalui rangkaian peristiwa, membuang postingan yang tidak relevan, dll.
Skor patokan
xAI mengevaluasi model Grok-2 di berbagai tolok ukur akademik, termasuk penalaran, pemahaman bacaan, matematika, sains, dan pengkodean.
Baik Grok-2 dan Grok-2 mini merupakan peningkatan signifikan dibandingkan model Grok-1.5 sebelumnya. Kinerjanya sebanding dengan model mutakhir lainnya di berbagai bidang seperti pengetahuan ilmiah tingkat pascasarjana (GPQA), pengetahuan umum (MMLU, MMLU-Pro), dan masalah kompetisi matematika (MATH).
Selain itu, Grok-2 juga bekerja dengan baik pada tugas-tugas berbasis visi, dengan kinerja luar biasa dalam penalaran matematis visual (MathVista) dan menjawab pertanyaan berbasis dokumen (DocVQA).
Antarmuka dan fungsi Grok 2 "perombakan besar"
Selama beberapa bulan terakhir, xAI terus meningkatkan pengalaman Grok di platform x. Kini, dengan diluncurkannya Grok 2 generasi berikutnya, xAI telah mendesain ulang antarmukanya, seperti yang ditunjukkan di bawah ini.
Tentu saja xAI menyediakan beberapa fitur baru, seperti implementasi sederhana dari "Game of Life" Conway.
Contoh lainnya adalah kemampuan pemahaman multimodal (melihat gambar dan berbicara).
Diantaranya, Grok-2 adalah asisten AI tercanggih xAI, dengan kemampuan pemahaman teks dan visual serta informasi real-time terintegrasi dari platform X, yang dapat diakses melalui tab Grok di aplikasi X.
Grok-2 mini adalah model kecil namun bertenaga yang memberikan keseimbangan yang baik antara kecepatan dan kualitas jawaban.
Grok-2 lebih intuitif, lebih mudah dikontrol, dan lebih fleksibel dibandingkan pendahulunya, sehingga cocok untuk berbagai tugas, baik Anda mencari jawaban, menulis kolaboratif, atau menyelesaikan tugas pengkodean.
Selain itu, xAI bekerja sama dengan startup Black Forest Labs untuk bereksperimen dengan model FLUX.1 mereka guna memperluas kemampuan Grok pada X.
Akhir bulan ini, xAI juga akan merilis Grok-2 dan Grok-2 mini kepada pengembang melalui platform API perusahaan baru. API yang akan datang dibangun di atas tumpukan teknologi khusus baru, yang memungkinkan penerapan inferensi multi-wilayah untuk akses latensi rendah global.
Tentu saja, xAI juga menawarkan beberapa fitur keamanan yang ditingkatkan, seperti otentikasi multi-faktor wajib (misalnya menggunakan Yubikey, Apple TouchID, atau TOTP).
Terlihat bahwa sejak peluncuran Grok-1 pada November 2023, xAI telah mengembangkan rangkaian model ini pada tingkat yang mengkhawatirkan. Segera, mereka akan merilis versi pratinjau dengan pemahaman multimodal. Fokus setelah xAI adalah meningkatkan kemampuan penalaran inti model melalui cluster komputasi baru.
Alamat blog: https://x.ai/blog/grok-2