berita

longsoran peringkat mini gpt-4o, aturan arena model besar diperbarui, tip peningkatan poin ultraman tidak valid

2024-08-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

aturan arena model besar diperbarui,peringkat gpt-4o mini langsung ambruk dan keluar dari 10 besar

daftar baru ini menjawab aikarakteristik seperti panjang dan gaya telah diturunkan., memastikan bahwa skor tersebut mencerminkan kemampuan model yang sebenarnya dalam memecahkan masalah.

mencoba menggunakan format yang indah, menambah jumlah subtitle, dan teknik lain untuk menyenangkan pengguna dan meningkatkan peringkat semuanya tidak ada gunanya sekarang.

di bawah aturan baru, ultramangpt-4o kecil, milik muskseri grok-2penurunan peringkat yang signifikan, googlegemini-1.5-kilatmodel kecil juga mengalami kemunduran.

seri claudellama-3.1-405bskor model besar meningkat satu demi satu.

ketika hanya tugas-tugas sulit (hard prompt) yang dihitung, keuntungan model besar dalam daftar kontrol gaya menjadi lebih jelas.

sebelumnya, model mini gpt-4o pernah mencapai puncak, menyamai posisi pertama dengan versi kesehatan lengkap gpt-4o, yang jelas tidak sesuai dengan pengalaman fisik netizen.

lmsys large model arena, sebuah standar evaluasi yang pernah direkomendasikan oleh karpathy, juga telah jatuh ke titik di mana ia "hanya dapat mencerminkan preferensi pengguna daripada kemampuan model."

organisasi lmsys belajar dari pengalaman tersebut dan pertama kali mengungkapkan data dari 1.000 pertempuran yang diikuti oleh gpt-4o mini, sehingga menganalisis tingkat penolakan model, panjang konten yang dihasilkan, dan pemformatan sebagai beberapa faktor yang memengaruhi hasil pemungutan suara.

terlebih lagi, sebelum gpt-4o mini dirilis, ultraman mengisyaratkan bahwa itu dioptimalkan sesuai dengan preferensi manusia.

sekarang, lmsys telah melangkah lebih jauh dan meluncurkan algoritma baru untuk mengendalikan faktor-faktor ini, dan ini hanyalah langkah pertama dalam perencanaan.

bagaimana cara mengontrol pengaruh gaya?

asumsikan adamodel aini bagus dalam menghasilkan kode, fakta, jawaban yang tidak memihak, dll., tetapi keluarannya sangat ringkas.

model bini tidak terlalu bagus dari segi substansi (seperti kebenarannya), tetapi keluarannya panjang, detail, dan formatnya indah.

jadi mana yang lebih baik?

jawabannya tidak unik, lmsys mencoba mencari tahu secara matematis seberapa besar skor suatu model disumbangkan oleh konten atau gaya.

selain itu, penelitian terbaru menunjukkan hal itumanusia mungkin lebih menyukai jawaban ai yang formatnya indah dan lebih detail.

oleh dibradley-terry kembalitambahkan fitur gaya seperti panjang respons, jumlah subjudul penurunan harga, daftar, dan jumlah teks tebal sebagai argumen.

ini adalah teknik umum dalam statistik dan baru-baru ini digunakan untuk evaluasi model besar oleh alpacaeval lc dan lainnya.

memasukkan variabel pengganggu (misalnya lama respons) dalam regresi memungkinkan peningkatan skor dikaitkan dengan variabel pengganggu, bukan karena kekuatan model itu sendiri.

kode yang relevan telah dipublikasikan di google colab.

selain itu, tim juga melakukan eksperimen ablasi “hanya mengontrol panjangnya” dan “hanya mengontrol format”. skor seri gpt-4o mini dan google gemini lebih dipengaruhi oleh formatnya.

namun terdapat keterbatasan pada pendekatan ini, seperti kemungkinan adanya faktor perancu yang tidak teramati, seperti korelasi positif antara durasi dan kualitas respons, yang tidak diperhitungkan (misalnya, petunjuk rantai pemikiran).

banyak netizen yang mengatakan bahwa daftar tugas sulit yang disesuaikan lebih sesuai dengan kesan subjektif mereka.

beberapa orang juga berpikir bahwa permainan bolak-balik antara daftar dan perusahaan model besar yang bersaing untuk mendapatkan daftarlah yang dapat membuat seluruh bidang maju bersama.

apakah anda masih memilih model berdasarkan hasil arena model besar? atau jika anda memiliki metode evaluasi yang lebih baik, silakan bagikan di kolom komentar.