berita

Google akhirnya menang atas OpenAI: Versi eksperimental Gemini 1.5 Pro melampaui GPT-4o

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Laporan Jantung Mesin

Editor: Chen Chen, Xiaozhou

Dengan model canggih seperti itu, Google memberikan uji coba gratis kepada semua orang.

Dalam dua hari terakhir, Google telah merilis penelitian terbarunya. Menyusul peluncuran model kecil Gemma 2 2B sisi akhir yang paling kuat kemarin, versi eksperimental Gemini 1.5 Pro (0801) baru saja diluncurkan.

Pengguna dapat menguji dan memberikan masukan melalui Google AI Studio dan Gemini API.

Karena gratis, mari bantu Anda menguji masalah rasio ukuran yang populer baru-baru ini. Saat kami menanyakan Gemini 1.5 Pro (0801) angka mana yang lebih besar, 9.9 atau 9.11, model pertama kali menjawab dengan benar dan memberikan alasannya.



Saat kami terus menanyakan "berapa huruf r pada kata Strawberry", Gemini 1.5 Pro (0801) terbalik. Menerapkan "mantra" pada petunjuknya langkah demi langkah, analisis model menjadi salah pada langkah keempat.



Alamat pengujian Google AI Studio: https://aistudio.google.com/app/prompts/new_chat

Namun jika dilihat dari evaluasi resminya, Gemini 1.5 Pro (0801) masih sangat mumpuni di berbagai indikator. Model baru ini dengan cepat menduduki puncak papan peringkat bergengsi LMSYS Chatbot Arena dan membanggakan skor ELO yang mengesankan yaitu 1300.

Pencapaian ini menempatkan Gemini 1.5 Pro (0801) di depan GPT-4o OpenAI(ELO: 1286) dan Claude-3.5 Sonnet dari Anthropic (ELO: 1271) serta pesaing kuat lainnya, hal ini mungkin menandakan perubahan dalam lanskap kecerdasan buatan.



Simon Tokumine, anggota kunci tim Gemini, menyebut Gemini 1.5 Pro (0801) sebagai (model) Gemini paling kuat dan terpintar yang pernah dibuat Google.

Selain menempati posisi teratas di Chatbot Arena, Gemini 1.5 Pro (0801) juga berkinerja sangat baik di berbagai bidang seperti tugas multibahasa, matematika, Hard Prompt, dan coding.

Secara khusus, Gemini 1.5 Pro (0801) tampil pertama kali dalam bahasa China, Jepang, Jerman, dan Rusia.





Namun di bidang coding dan Hard Prompt, Claude 3.5 Sonnet, GPT-4o, Llama 405B masih memimpin.





Pada peta panas tingkat kemenangan: Gemini 1.5 Pro (0801) memiliki tingkat kemenangan 54% melawan GPT-4o dan tingkat kemenangan 59% melawan Claude-3.5-Sonnet.



Gemini 1.5 Pro (0801) juga menempati peringkat pertama pada peringkat Vision!





Netizen mengatakan bahwa Google kali ini benar-benar melebihi ekspektasi semua orang. Tiba-tiba membuka pengujian model terkuat tanpa pengumuman resmi sebelumnya.



Meskipun Gemini 1.5 Pro (0801) mencapai hasil yang tinggi, namun masih dalam tahap percobaan. Artinya model tersebut mungkin mengalami modifikasi lebih lanjut sebelum digunakan secara luas.

Komentar warganet

Beberapa netizen menguji kemampuan ekstraksi konten Gemini 1.5 Pro (0801), kemampuan pembuatan kode, kemampuan penalaran, dll. Mari kita lihat hasil pengujiannya.



Sumber: https://x.com/omarsar0/status/1819162249593840110

Pertama-tama, Gemini 1.5 Pro (0801) memiliki fungsi ekstraksi informasi gambar yang kuat. Misalnya, masukkan gambar faktur dan tulis detail faktur dalam format JSON:



Mari kita lihat fungsi ekstraksi konten dokumen PDF Gemini 1.5 Pro (0801). Dengan mengambil makalah klasik "Attention Is All You Need" sebagai contoh, ekstrak direktori bab makalah tersebut:



Biarkan Gemini 1.5 Pro (0801) menghasilkan permainan Python yang membantu mempelajari pengetahuan model bahasa besar (LLM), yang secara langsung menghasilkan seluruh kode:





Perlu disebutkan bahwa Gemini 1.5 Pro (0801) juga memberikan penjelasan kode rinci, termasuk peran fungsi dalam kode, cara memainkan permainan Python, dll.



Program ini bisa langsung dijalankan di Google AI Studio dan bisa dicoba, seperti mengerjakan soal pilihan ganda tentang pengertian Tokenisasi:



Jika Anda merasa soal pilihan ganda terlalu sederhana dan membosankan, Anda dapat membiarkan Gemini 1.5 Pro (0801) menghasilkan permainan yang lebih kompleks:





Dapatkan permainan isian kalimat keahlian LLM:



Untuk menguji kemampuan penalaran Gemini 1.5 Pro (0801), netizen menanyakan pertanyaan "meniup lilin", namun model tersebut menjawab salah:



Terlepas dari beberapa kekurangan, Gemini 1.5 Pro (0801) memang menunjukkan kemampuan visual yang mendekati GPT-4o, serta kemampuan pembuatan kode dan pemahaman PDF serta kemampuan penalaran yang mendekati Claude 3.5 Sonnet, yang patut dinantikan.

https://www.youtube.com/watch?v=lUA9elNdpoY