Musk tiba-tiba merilis model besar baru, mengorbankan sumber daya Tesla untuk menantang OpenAI, dan pengujian langsung ada di sini

Musk tiba-tiba merilis model besar baru, mengorbankan sumber daya Tesla untuk menantang OpenAI, dan pengujian langsung telah tiba

2024-08-14

Mengchen berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

Model besar xAI Musk telah keluar pada generasi kedua!

Grok-2Versi beta dirilis, Xiaobei Grok-2 mini sudah dapat dimainkan secara online di platform.

Musk juga mengungkapkan rahasia yang telah mengganggu lingkaran model besar selama lebih dari sebulan dalam bentuk Riddler:

Ternyata model anonim misterius di arena model besar Lmsyskolom-sus-r, wujud sebenarnya adalah Grok-2.

sus-column-r telah mengumpulkan lebih dari 10.000 suara manusia di papan peringkat dan telahTerikat di posisi ketiga dengan versi API GPT-4o。

Dalam pengujian internal xAI sendiri, Grok-2 bersaing dengan model mutakhir lainnya di berbagai bidang seperti pengetahuan umum (MMLU, MMLU-Pro), soal kompetisi matematika (MATH), dan pengetahuan ilmiah tingkat pascasarjana (GPQA).

Selain itu, Grok-2 paling baik dalam tugas berbasis visi dan mencapai SOTA dalam penalaran matematis visual (MathVista).

Namun, tata letak gambar ini sedikit rumit: GPT-4o dan Claude-3.5-Sonnet, yang memiliki skor tertinggi, ditempatkan lebih jauh dari Anda.

Melihat skornya saja masih abstrak, mari kita masuk ke pengujian langsung yang sebenarnya.

Tes langsung Grok-2

Jika Anda pengguna berbayar platform /Twitter, Anda bisa langsung masuk ke channel Grok untuk mencobanya. Jika Anda tidak mengeluarkan uang, Anda juga dapat pergi ke arena model besar Lmsys dan memilih sus-column-r untuk mencobanya.

DanPengguna yang membayar hanya dapat memainkan versi mini Xiaobei., pengguna gratis dapat memainkan piala besar, yang juga sangat murah hati.。

Karena Grok-2 memiliki akses ke data real-timeAnda bisa langsung memintanya untuk merangkum berita hari ini, jika Anda mengaktifkan mode menyenangkan, Anda juga dapat memberikan komentar.

Versi berbayar jugaMengakses model grafik AI open source terbaru Flux.1, akan menerjemahkan kata-kata cepat berbahasa Mandarin ke dalam bahasa Inggris untuk dipahami.

Klik pada contoh pertanyaan "Amway a Fantasy Game" di beranda, dan Anda dapat melihat bahwa contoh tersebut pertama kali merekomendasikan "Baldur's Gate 3" dan membahas beberapa aspek termasuk plot, penyesuaian karakter, mekanisme permainan, pembentukan dunia, elemen humor, dan komunitas pemain. Tinjauan ini dilakukan dari sudut pandang yang berbeda dan menangkap sorotan permainan dengan sangat baik.

Saat ini, Anda dapat langsung beralih ke bahasa Mandarin dan terus mengajukan pertanyaan.

Grok-2 juga mengetahui tentang "Black Myth: Wukong", sebuah game yang belum dirilis. Ia secara akurat menyatakan bahwa tanggal rilisnya adalah 20 Agustus, mesin Unreal 5 yang digunakan, dan merangkum perbincangan di kalangan netizen.

Ini juga mencakup postingan netizen di bagian akhir, yang dapat Anda klik untuk berpartisipasi dalam diskusi. Integrasi fungsional dengan seluruh platform sudah ada.

Namun karena modelnya hanya versi mini, selanjutnya kami akan pindah ke arena model besar untuk uji kekuatan, dan kami juga dapat memiliki PK dengan GPT-4o.

Pertanyaan tes IQ yang baru-baru ini populer"Mana yang lebih besar, 9.9 atau 9.11?"Dalam pengujian, Grok-2 (sus-column-r) mengungguli ChatGPT versi terbaru.

Tapi tes populer lainnya"Berapa banyak huruf r yang ada di stroberi"Soal masalah tersebut, keduanya masih gagal. (Coba beberapa kali dan kecil kemungkinan keduanya benar).

Pertanyaan jebakan yang lebih serius“Lilin manakah di bawah ini yang akan padam terlebih dahulu?”, Grok-2 sedikit lebih maju dari ChatGPT.

Uji cobanya adalah sisa bagian candle yang ditiup terlebih dahulu lebih panjang (jawaban benar 3). ChatGPT salah mengartikannya sebagai yang terpendek. Ide Grok-2 benar, tetapi nomor mana yang terpanjang tidak benar.

Keduanya tampaknya telah mengatasi masalah "kutukan pembalikan" kelemahan model besar yang klasik. Tidak hanya dapat langsung menjawab “Siapa ibu Tom Cruise?”, tetapi juga dapat menjawab pertanyaan sebaliknya “Putra Mary Lee Pfeiffer adalah Tom Cruise” yang datanya lebih jarang muncul.

(Tentu saja, tidak dapat dikesampingkan bahwa setelah ini menjadi masalah klasik, akan tersedia data yang lebih relevan.)

Model besar Musk ditingkatkan dengan mengorbankan Tesla

Pengujian telah berakhir, dan terlihat bahwa Grok-2 mengalami kemajuan yang pesat dibandingkan Grok-1.5 generasi sebelumnya.

Di balik layar, Musk menghabiskan banyak sumber daya dan tenaga.

Misalnya, peneliti baru yang bergabung dengan xAI mengatakan bisa digunakan100.000 cluster kartuMelakukan penelitian jauh lebih menyenangkan daripada memiliki sumber daya yang buruk di sekolah.

Namun ada sekelompok orang yang tidak puas: pemegang saham Tesla.

Menurut Jurnal Wall Street,Musk terus mentransfer sumber daya manusia, data, dan GPU dari Tesla ke xAI。

Sejauh ini, xAI telah mempekerjakan setidaknya 11 karyawan yang pernah bekerja di Tesla, enam di antaranya pernah bekerja langsung di tim Autopilot.

Musk juga meminta Nvidia memprioritaskan pasokan xAI untuk pesanan GPU yang awalnya disediakan untuk Tesla.

Musk juga telah berbicara secara terbuka tentang banyaknya data visual yang dikumpulkan Tesla, yang menurutnya dapat digunakan sebagai sumber daya untuk melatih model xAI.

Setidaknya tiga pemegang saham Tesla menggugat Musk atas masalah ini, mengklaim bahwa pengalihan sumber daya ke xAI merugikan kepentingan investor Tesla.

Kasus ini saat ini sedang menunggu keputusan di pengadilan Delaware.

berita

Musk tiba-tiba merilis model besar baru, mengorbankan sumber daya Tesla untuk menantang OpenAI, dan pengujian langsung telah tiba

Perkenalan

Informasi kontak saya