berita

Sengitnya, GPT-4o dikalahkan oleh model baru Google, ChatGPT: Semua orang menarik napas dalam-dalam

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Bangunlah dengan ganas,GPT-4oDisusul oleh model baru Google!

Selama seminggu, lebih dari 12.000 orang memberikan suara secara anonim.Gemini 1.5 Pro (0801)Mewakili Google meraih juara pertama di ajang lmsys untuk pertama kalinya.(Tugas Tiongkok juga menempati urutan pertama)

Dan kali ini adalah mahkota ganda, selain peringkat keseluruhan(Skor satu-satunya adalah 1300),adaPapan peringkat visualItu juga nomor satu.

Simon Tokumine, tokoh kunci dalam tim Gemini, memposting pesan untuk merayakannya:

(Model baru ini) adalah Gemini paling kuat dan terpintar yang pernah kami buat.

Seorang pengguna Reddit juga menyebut model tersebut "sangat bagus" dan menyatakan harapan bahwa fungsinya tidak akan dikurangi.

Semakin banyak netizen yang mengungkapkan kegembiraannya,Buka AIAkhirnya tertantang untuk melawan dengan merilis versi baru!

Akun resmi ChatGPT juga menyiratkan sesuatu.

Di tengah kegembiraan, kepala produk di Google AI Studio mengumumkan bahwa model tersebut telah memasuki pasarFase pengujian gratis

Tersedia secara gratis di studio AI

Netizen: Google akhirnya hadir!

Sebenarnya Gemini 1.5 Pro (0801) sebenarnya bukanlah model baru.

Sebaiknyaversi eksperimentalBerdasarkan Gemini 1.5 Pro yang dirilis oleh Google pada bulan Februari, seri 1.5 kemudian memperluas jendela konteks menjadi 2 juta.

Seiring dengan pembaruan model, namanya menjadi semakin panjang, yang juga menyebabkan banyak orang mengeluh.

Tidak, seorang karyawan OpenAI memberi selamat kepadanya tanpa lupa bersikap aneh:

Tentu saja meski namanya sulit diingat, Gemini 1.5 Pro (0801) tampil baik di arena evaluasi resmi kali ini.

Peta panas tingkat kemenangan keseluruhan menunjukkan bahwa ini 54% lebih baik dari GPT-4o dan 59% lebih baik dari Claude 3.5 Sonnet.

adakemampuan multibahasaDalam tes benchmark, ini menempati urutan pertama dalam bahasa Cina, Jepang, Jerman, dan Rusia.

Namun di Coding dan Hard Prompt Arena masih belum bisa mengalahkan lawan seperti Claude 3.5 Sonnet, GPT-4o, dan Llama 405B.

Hal ini pun mendapat kecaman dari netizen yang diterjemahkan menjadi:

Pengkodean adalah hal yang penting, tetapi kinerjanya tidak baik di sana.

Namun, beberapa orang telah keluar dengan Amway Gemini 1.5 Pro (0801)Kemampuan ekstraksi gambar dan PDF

Elvis, salah satu pendiri DAIR.AI, secara pribadi melakukan serangkaian pengujian lengkap pada pipa minyak dan menyimpulkan:

Kemampuan visualnya sangat dekat dengan GPT-4o

Selain itu, seseorang menggunakan Gemini 1.5 Pro (0801) untuk menyelesaikan masalah yang sebelumnya tidak dapat dijawab dengan baik oleh Claude 3.5 Sonet.

Hasilnya menunjukkan bahwa ia tidak hanya tampil lebih baik, tetapi juga mengalahkan teman kecilnya Gemini 1.5 Flash.

Tetapi beberapaTes Pengetahuan Umum KlasikMasih belum bisa memahaminya, seperti "Tulis sepuluh kalimat yang diakhiri dengan apel."

Satu hal lagi

Sementara itu, seri Gemma 2 Google menyambut kedatangan yang baru2 miliar model parameter

Gemma 2 (2B)Siap di luar kotak, dapat berjalan di GPU T4 gratis Google Colab.

Di papan peringkat arena, ituMelebihi semua model GPT-3.5, bahkan melampaui Mixtral-8x7b.

Dihadapkan pada rangkaian peringkat baru Google, ArenaKewenangan daftarDipertanyakan oleh semua orang lagi.

Teknium, salah satu pendiri Nous Research(Pemain terkenal di bidang pelatihan yang disesuaikan)Pengingat postingan:

Meskipun skor Gemma 2 (2B) lebih tinggi daripada GPT-3.5 Turbo di Arena, skornya jauh lebih rendah dibandingkan yang terakhir di MMLU.
Perbedaan ini akan menjadi perhatian jika seseorang menggunakan peringkat arena sebagai satu-satunya indikator kinerja model.

Bindu Reddy, CEO Abacus.AI, bahkan langsung mengimbau:

Harap segera berhenti menggunakan papan peringkat yang diberi peringkat manusia ini!
Claude 3.5 Soneta jauh lebih baik daripada GPT-4o-mini.
Skor Gemini/Gemma yang serupa seharusnya tidak terlalu tinggi dalam daftar peringkat ini.

Jadi, menurut Anda apakah metode pemungutan suara anonim yang dilakukan manusia ini masih bisa diandalkan?