berita

Google AI memenangkan medali perak IMO, hanya terpaut satu poin dari emas!Pertanyaan keempat hanya membutuhkan waktu 19 detik

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Baijiao West Wind berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

Baru saja, model besar itu menaklukkan sebuah kota lagi!

Google DeepMind mengumumkan bahwa AI matematika mereka "memenangkan" medali perak di IMO (International Mathematical Olympiad), dan hanya berjarak satu poin dari medali emas!

Ya, Anda tidak salah dengar! Ini adalah soal Olimpiade Matematika yang sulit bagi kebanyakan manusia. Perlu kalian ketahui, dari 609 peserta IMO tahun ini, hanya 58 yang berhasil mencapai level medali emas.



Kali ini, Google AI menyelesaikan 4 dari 6 soal pada kompetisi IMO 2024, danSetelah Anda mendapatkan skor sempurna, Anda akan mendapatkan total 28 poin . (Skor penuh adalah 42 poin, skor medali emas adalah 29 poin)



Diantaranya, untuk soal geometri keempat, AI hanya membutuhkan waktu 19 detik? !

Sedangkan untuk soal keenam yang dikatakan paling sulit tahun ini, hanya lima kontestan yang memenangkannya tahun ini, dan itu sepenuhnya benar.



Hasil kali ini juga disertifikasi secara profesional oleh Komite Penyelenggara IMO - dicetak oleh Profesor Timothy Gowers, peraih medali emas IMO dan pemenang Fields Medal, serta Dr. Joseph Myers, peraih medali emas IMO dua kali dan ketua Komite Seleksi Edisi IMO 2024.

Profesor Timothy Gowers langsung berseru:Jauh melampaui tingkat tercanggih yang saya tahu

Bagaimana Laikangkang melakukannya?

Google memenangkan medali perak IMO, anggota baru keluarga Alpha keluar

Kedua anggota keluarga Google Alpha yang meraih medali perak IMO kali ini masing-masing berspesialisasi dalam industri digital.

  • Bukti Alfa, anggota baru keluarga Alpha, sistem penalaran matematika formal berdasarkan pembelajaran penguatan.
  • AlfaGeometri 2, versi AlphaGeometry sebelumnya yang ditingkatkan, khusus digunakan untuk memecahkan masalah geometri.

Pertama, mari kita kenali anggota baru-AlphaProof.

Ini adalah sistem pelatihan mandiri yang dapat membuktikan pernyataan matematika menggunakan bahasa formal Lean. Ini menggabungkan model bahasa terlatih dengan algoritma pembelajaran penguatan AlphaZero.

Dengan menyempurnakan Gemini, tim dapat secara otomatis mengubah pernyataan bahasa alami menjadi pernyataan Lean dalam bahasa formal, sehingga menciptakan bank soal matematika yang besar.

Saat dihadapkan pada suatu masalah, AlphaProof menghasilkan kandidat solusi dan kemudian membuktikan atau menyangkal kandidat tersebut dengan mencari kemungkinan langkah pembuktian di Lean.

Setiap bukti yang ditemukan dan diverifikasi digunakan untuk memperkuat model bahasa AlphaProof, sehingga meningkatkan kemampuannya untuk memecahkan masalah berikutnya yang lebih menantang.

Dalam beberapa minggu pertama kompetisi, jutaan pertanyaan tingkat IMO dilatih dalam siklus berulang.

Putaran pelatihan juga diterapkan selama kompetisi, di mana pembuktian diri terus diperkuat hingga solusi lengkap ditemukan.



Mari kita lihat evolusinyaAlfaGeometri 2 . Ini adalah sistem hibrida neuro-simbolis yang model bahasanya didasarkan pada Gemini.

Pendahulunya 1.0 juga ditampilkan di Nature tahun ini:Mencapai tingkat geometri peraih medali emas IMO tanpa demonstrasi manusia



Dibandingkan dengan versi sebelumnya, versi ini menggunakan data sintetis yang jauh lebih besar untuk pelatihan dari awal. Dan mesin simbolik yang digunakannya dua kali lipat lebih cepat dari pendahulunya. Ketika masalah baru ditemui, mekanisme berbagi pengetahuan baru digunakan untuk memungkinkan kombinasi lanjutan dari pohon pencarian yang berbeda untuk memecahkan masalah yang lebih kompleks.

Sebelum kompetisi resmi, ia sudah mampu menyelesaikan 83% dari seluruh permasalahan geometri IMO selama 25 tahun terakhir, sedangkan tingkat solusi pendahulunya hanya 53%.

Pada kompetisi IMO tahun ini, hanya butuh waktu 19 detik untuk menyelesaikan soal keempat.



Kalau begitu mari kita lihat bagaimana kedua orang ini bekerja sama kali ini IMO.

Pertama, permasalahan diterjemahkan secara manual ke dalam bahasa matematika formal agar dapat dipahami oleh sistem.

Kita tahu bahwa selama kompetisi manusia, jawaban diajukan dua kali, masing-masing berdurasi 4,5 jam.

Kedua sistem Google pertama-tama menyelesaikan satu masalah dalam beberapa menit, dan masalah lainnya memerlukan waktu tiga hari.

Pada akhirnya, AlphaProof memecahkan dua soal aljabar dan satu soal teori bilangan dengan menentukan jawaban dan membuktikan kebenarannya.

Ini termasuk soal tersulit dalam kompetisi, yaitu soal keenam yang hanya diselesaikan oleh lima pemain di kompetisi IMO tahun ini.



AlphaGeometry 2 memecahkan masalah geometri, sedangkan dua masalah kombinasi masih belum terselesaikan.

Selain itu, tim Google juga bereksperimen dengan sistem penalaran bahasa alami berdasarkan Gemini. Dengan kata lain, permasalahan tidak perlu diterjemahkan ke dalam bahasa formal dan dapat digunakan bersama dengan sistem AI lainnya.

Tim mengatakan bahwa mereka juga akan mengeksplorasi lebih banyak metode AI untuk memajukan penalaran matematis.

Detail teknis lebih lanjut tentang AlphaProof juga rencananya akan segera dirilis.

Netizen: Saya tidak mengerti matematika tapi saya terkejut

Melihat kinerja kedua sistem ini, netizen menyatakan bahwa mereka "tidak mengerti matematika tapi terkejut".

Scott Wu, salah satu pendiri Cognition AI, tim programmer AI Devin, mengatakan:

Hasilnya sungguh menakjubkan. Sebagai seorang anak, Olimpiade adalah segalanya bagi saya. Tidak pernah terpikir mereka akan diselesaikan oleh kecerdasan buatan dalam 10 tahun.



Ilmuwan OpenAI Noam Brown juga membuka mikrofon untuk mengucapkan selamat:



Namun beberapa netizen mengatakan jika standar waktu kompetisi diikuti (kompetisi dibagi menjadi dua hari, empat setengah jam sehari, dan tiga masalah diselesaikan setiap hari), kedua sistem AI tersebut sebenarnya hanya dapat menyelesaikan satu masalah. enam masalah.



Pernyataan tersebut langsung dibantah oleh beberapa netizen:

Dalam skenario ini, kecepatan bukanlah perhatian utama. Jika jumlah operasi floating-point (flop) tetap konstan, peningkatan sumber daya komputasi akan mempersingkat waktu yang dibutuhkan untuk menyelesaikan masalah.



Terkait hal tersebut, beberapa netizen pun bertanya:

Kedua sistem AI gagal menjawab pertanyaan kombinasi. Apakah ini masalah pelatihan atau sumber daya atau waktu komputasi yang tidak mencukupi? Atau ada batasan lain?



Profesor Timothy Gowers men-tweet pemikirannya:

Jika kontestan manusia diizinkan menghabiskan lebih banyak waktu untuk setiap pertanyaan, skor mereka pasti akan lebih tinggi. Namun, untuk sistem AI, hal ini jauh melebihi kemampuan pembuktian teorema otomatis sebelumnya. Kedua, seiring dengan peningkatan efisiensi, waktu yang dibutuhkan diperkirakan akan semakin dipersingkat;



Namun dalam dua hari terakhir, model besar masih tertahan pada “Angka mana yang lebih besar, 9,11 atau 9,9?” Pertanyaan sekolah dasar, kok model besar di sisi ini bisa menyelesaikan soal level olimpiade matematika? !

Saya kehilangan akal, dan sekarang saya tiba-tiba mendapat ide dan sadar kembali?



Ilmuwan Nvidia Jim Fan menjelaskan: Yadistribusi data pelatihanMasalah.

Sistem Google dilatih tentang bukti formal dan mesin simbolik khusus domain. Sampai batas tertentu, mereka sangat terspesialisasi dalam menyelesaikan Olimpiade, meskipun mereka didasarkan pada model umum yang besar.



Set pelatihan seperti GPT-4o berisi sejumlah besar data kode GitHub, yang mungkin jauh melebihi data matematika. Dalam versi perangkat lunak, "v9.11>v9.9", hal ini dapat mengganggu distribusi. Jadi, kesalahan ini cukup beralasan.

Mengenai fenomena aneh tersebut, ia menggambarkannya sebagai

Kami menemukan wilayah yang sangat aneh, seperti planet ekstrasurya yang terlihat seperti Bumi tetapi penuh dengan lembah yang aneh.

Ada juga netizen yang antusias mengambil contoh dari OpenAI. Mungkin Anda bisa mencobanya juga...

Untuk ini, jawaban Ultraman adalah:



Tautan referensi:
[1]https://x.com/googledeepmind/status/1816498082860667086?s=46
[2]https://x.com/jeffdean/status/1816498336171753948?s=46
[3]https://x.com/quocleix/status/1816501362328494500?s=46
[4]https://x.com/drjimfan/status/1816521330298356181?s=46
[5]https://deepmind.google/discover/blog/ai-memecahkan-masalah-imo-di-tingkat-medali-perak/