GPT-4o mini mencapai puncak arena model besar, Ultraman: penyempurnaan gratis dalam dua bulan

GPT-4o mini mencapai puncak arena model besar, Ultraman: penyempurnaan gratis dalam waktu dua bulan

2024-07-24

Crecy berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

Baru saja, versi mini GPT-4o menghadirkan “momen penting”—

Mendaki arena model besar lmsys, berada di posisi pertama dengan versi kesehatan penuh, dan meninggalkan Claude 3.5 di belakang.

Berbeda dengan evaluasi kumpulan data pada umumnya, arena model yang besar adalah hasil dari pengguna yang menetapkan pertanyaannya sendiri dan memilih dengan kakinya sendiri. Pintasan tidak dapat diambil dengan "menyikat pertanyaan", sehingga lebih nyata.

Begitu hasil ini keluar, bahkan CEO Altman pun menjadi bersemangat:

Dihadapkan pada hasil evaluasi, awalnya kami mencoba untuk cadangan, namun ketika kami melihat GPT-4o mini memiliki performa yang sama dengan versi full-health, namun harganya hanya 1/20, kami masih sangat bersemangat.

Netizen mengatakan tidak apa-apa setelah melihatnya, tetapi mereka lebih khawatir tentang kapan "Her" yang didemonstrasikan pada konferensi pers GPT-4o akan dilakukan secara online.

Di saat yang sama, OpenAI juga mengirimkan kabar baik lainnya, yang akan memberikan manfaat bagi pengembang——

GPT-4o miniFine tuning akan dibuka secara bertahap, saat ini terbuka untuk pengguna tingkat 4 dan tingkat 5, dan secara bertahap akan memperluas cakupannya.

DanMulai sekarang hingga 23 September, Anda dapat menggunakan 2 juta token pelatihan gratis setiap hari。

Mini ini setara dengan versi kesehatan lengkap

Setelah jutaan putaran kompetisi 1v1 dengan lebih dari 80 model, skor GPT-4o mini di daftar lmsys hanya tertinggal 7 poin dari versi kesehatan penuh.

Berdasarkan susunan daftar lmsys, selisih 7 poin ini tidak mempengaruhi peringkat, dan kedua model dihitung seri untuk posisi pertama.

Mengikuti di belakangnya adalah keluarga Claude 3.5 dan Gemini, serta dua versi GPT-4 lainnya.

Jika kita melihat data mentah GPT-4o mini, kita akan menemukan bahwa tingkat kemenangan rata-rata sebesar 0,6 adalah yang kedua setelah versi kesehatan lengkap.

Dilihat dari hasil persaingan keduanya saja, mereka sama-sama berimbang.

Alasan mengapa kinerja lmsys menarik perhatian adalah karena ia memiliki serangkaian metode kompetisi yang unik——

Daripada menggunakan kumpulan data,Biarkan pengguna mengajukan pertanyaan mereka sendiri dan menggambar dua model secara acak dalam pertarungan 1 lawan 1., lalu pilih model mana yang berperforma lebih baik.

Sebelum pilihan diberikan, model bersifat anonim, dan pengguna tidak mengetahui dua model mana yang bersaing. Jika model membocorkan sesuatu, pemungutan suara tidak sah.

Skor yang diperoleh dengan cara ini lebih realistis, yang tidak hanya menghindari kemungkinan memperoleh skor tinggi yang dibuat-buat dengan "menyikat pertanyaan", tetapi juga lebih dekat dengan pengalaman pengguna.

Arena model besar ini, baru-baru iniMenghadiri konferensi pembelajaran mesin teratas ICML2024。

Selain itu, evaluasi lmsys jugaSangat populer dengan OpenAI, versi awal GPT-4o mini sebelum diluncurkan secara resmi terdaftar dengan nama samaran gpt-mini.

Saat itu sudah menduduki peringkat 4, setingkat dengan GPT4-Turbo.

Sebelumnya, sebelum GPT-4o online, ia juga diuji dengan nama samaran gpt2-chatbot di lmsys.

Namun, beberapa orang mempertanyakan bahwa meskipun GPT-4o mini berkinerja sangat baik, berlebihan jika dikatakan bahwa ia melampaui soneta Claude 3.5.

Beberapa orang bahkan secara blak-blakan mengatakan bahwa integritas metode lmsys sudah mulai runtuh dan perlu diubah, jika tidak maka tidak lagi menjadi tolok ukur pengujian yang berguna.

"Model kecil" juga digulung

Peluncuran versi mini berfokus pada efektivitas biaya.

Per juta token input/output, harganya masing-masing 15 sen dan 60 sen (sekitar 1,09/4,36 RMB), yang bahkan tidak sampai setengah dari 3,5 Turbo.

Jika dibandingkan dengan GPT-3 versi text-davinci-003 dua tahun lalu (model terbaik saat itu), harganya telah turun hingga 99%.

Selain membuka model kecil untuk pengguna, OpenAI juga menghadirkan cara baru untuk bermain——

Dalam karya anumerta tim "Super Alignment", model kecil dengan seperseribu atau seperseratus parameter model besar digunakan untuk mengoptimalkan model besar.

Dalam percobaan tersebut, model besar dan kecil saling "bermain" Model besar perlu terus mengoptimalkan dan menyesuaikan keluarannya untuk membuat model kecil percaya bahwa apa yang dikatakannya adalah kebenaran.

Dalam proses "permainan" ini, kemampuan model besar telah ditingkatkan, dan pemahaman telah meningkat pesat tanpa kehilangan akurasi yang signifikan.

Selain OpenAI, perusahaan lain juga meluncurkan model kecil.

Misalnya, sebelum GPT-4o mini, Google dan Anthropic masing-masing meluncurkan Gemini Flash dan Claude 3-Haiku.

Bahkan bisa dikatakan GPT-4o mini merupakan serangan balik OpenAI terhadap kedua model tersebut, mengungguli kedua model tersebut dari segi performa dan harga.

Pada minggu yang sama ketika GPT-4o mini dirilis, Hugging Face dan “European OpenAI” Mistral meluncurkan model kecil.

Bahkan Apple telah meluncurkan model 7B-nya sendiri dan menjadikan semua proses pelatihan dan sumber daya menjadi sumber terbuka sekaligus.

Singkatnya, selama performanya memadai untuk memenuhi kebutuhan penggunaan, model kecil tentu menjadi pilihan yang lebih hemat.

Pada saat yang sama, skala yang lebih kecil juga berarti dapat dijalankan di sisi terminal, menunjukkan keunggulan dalam perlindungan privasi dan aspek lainnya.

Dengan cara ini, tidak sulit untuk memahami mengapa model "kecil" menjadi semakin melengkung.

Tautan referensi:
[1]https://x.com/sama/status/1815877987696533897/
[2]https://x.com/OpenAIDevs/status/1815836887631946015

berita

GPT-4o mini mencapai puncak arena model besar, Ultraman: penyempurnaan gratis dalam waktu dua bulan

Mini ini setara dengan versi kesehatan lengkap

"Model kecil" juga digulung

Perkenalan

informasi kontak saya