o1 paparan orang dalam secara tiba-tiba? google mengungkapkan prinsipnya sebelumnya. tidak ada celah untuk model besar hanya dengan perangkat lunak.

2024-09-17

mingmin berasal dari kuil aofei
qubit |. akun publik qbitai

kurang dari seminggu setelah dirilis, model o1 terkuat openai hilang.

seseorang menemukan bahwa makalah yang diterbitkan oleh google deepmind pada bulan agustus mengungkapkan prinsip dan cara kerja o1.hampir bulat。

studi ini menunjukkan bahwa peningkatan perhitungan waktu pengujian lebih efisien dibandingkan perluasan parameter model.

berdasarkan strategi perluasan perhitungan waktu pengujian optimal komputasi yang diusulkan dalam makalah ini, model dasar yang lebih kecil dapat melampaui satu dalam beberapa tugas.14 kali lebih besarmodel.

netizen berkata:

ini hampir merupakan prinsip o1.
seperti yang kita ketahui bersama, ultraman suka menjadi yang terdepan dari google, jadi inikah alasan o1 merilis versi pratinjaunya terlebih dahulu?

beberapa orang menyesali hal ini:

memang, seperti yang dikatakan google sendiri, tidak ada seorang pun yang memiliki parit, dan tidak akan ada seorang pun yang memiliki parit.

baru saja, openai meningkatkan kecepatan o1-mini sebanyak 7 kali lipat dan dapat menggunakan 50 item per hari; o1-preview menyebutkan 50 item per minggu.

menghemat 4 kali jumlah perhitungan

judul makalah google deepmind ini adalah:saat mengoptimalkan pengujian llm, perhitungan lebih efisien daripada memperluas skala parameter model.。

tim peneliti memperluas pola pikir manusia. karena orang akan membutuhkan waktu lebih lama untuk berpikir dan mengambil keputusan ketika menghadapi masalah yang kompleks, apakah hal yang sama juga berlaku untuk llm?

dengan kata lain, ketika dihadapkan pada tugas yang kompleks, apakah llm dapat lebih efektif memanfaatkan perhitungan tambahan selama pengujian untuk meningkatkan akurasi.

beberapa penelitian sebelumnya telah menunjukkan bahwa arah ini memang layak dilakukan, namun pengaruhnya relatif terbatas.

jadi penelitian ini ingin mengetahui seberapa besar performa model dapat ditingkatkan jika menggunakan penghitungan inferensi tambahan yang relatif sedikit?

mereka merancang serangkaian eksperimen untuk menguji kumpulan data matematika menggunakan palm2-s*.

dua metode yang terutama dianalisis:

(1) revisi mandiri yang berulang: biarkan model mencoba menjawab pertanyaan beberapa kali, merevisinya setelah setiap upaya untuk mendapatkan jawaban yang lebih baik.
(2) pencarian: dalam pendekatan ini, model menghasilkan banyak kandidat jawaban,

dapat dilihat bahwa ketika menggunakan metode revisi mandiri, seiring dengan meningkatnya jumlah perhitungan selama pengujian, kesenjangan antara strategi standar terbaik dari n (best-of-n) dan strategi ekspansi optimal secara komputasi secara bertahap melebar.

menggunakan metode pencarian untuk menghitung strategi ekspansi yang optimal menunjukkan keuntungan yang jelas pada tahap awal. dan dalam keadaan tertentu, hal ini dapat mencapai efek yang sama seperti strategi n terbaik,jumlah perhitungannya hanya 1/4nya saja。

dalam evaluasi pencocokan flop yang sebanding dengan penghitungan pra-pelatihan, model pra-pelatihan yang 14x lebih besar (tanpa inferensi tambahan) dibandingkan dengan palm 2-s* (menggunakan strategi komputasi optimal).

ditemukan bahwa ketika menggunakan metode revisi mandiri, ketika token inferensi jauh lebih kecil daripada token pra-pelatihan, efek penggunaan strategi perhitungan waktu tes lebih baik daripada efek pra-pelatihan. namun seiring dengan peningkatan rasio, atau pada soal yang lebih sulit, pra-pelatihan masih berfungsi lebih baik.

artinya, dalam kedua kasus tersebut, kunci untuk menghitung apakah metode penyuluhan valid menurut pengujian yang berbeda adalahkesulitan petunjuk。

studi ini lebih lanjut membandingkan metode pencarian prm yang berbeda, dan hasilnya menunjukkan bahwa pencarian maju (paling kanan) memerlukan lebih banyak perhitungan.

ketika jumlah perhitungannya kecil, menggunakan strategi perhitungan optimal dapat menghemat sumber daya hingga 4 kali lipat.

membandingkan model o1 openai, penelitian ini hampir memberikan kesimpulan yang sama.

model o1 belajar menyempurnakan proses berpikirnya, mencoba berbagai strategi, dan mengenali kesalahannya. dan dengan lebih banyak pembelajaran penguatan (dihitung selama pelatihan) dan lebih banyak waktu berpikir (dihitung selama pengujian), kinerja o1 terus meningkat.

namun, openai merilis modelnya lebih cepat, sementara google menggunakan palm2 dan belum merilis pembaruan pada gemini2.

netizen: apakah paritnya hanya tentang perangkat keras?

temuan-temuan baru tersebut pasti mengingatkan orang akan pandangan yang dikemukakan dalam dokumen internal google tahun lalu:

kami tidak memiliki parit, begitu pula openai. model sumber terbuka dapat mengalahkan chatgpt.

saat ini, kecepatan setiap penelitian sangat cepat, dan tidak ada yang dapat memastikan bahwa mereka selalu terdepan.

satu-satunya parit mungkin adalah perangkat keras.

(jadi musk akan membangun pusat komputasi?)

ada yang bilang kalau nvidia kini mengontrol langsung siapa yang punya daya komputasi lebih besar. lalu apa yang terjadi jika google/microsoft mengembangkan chip khusus yang berfungsi lebih baik?

perlu disebutkan bahwa chip pertama openai terungkap beberapa waktu lalu dan akan menggunakan proses tingkat angstrom a16 paling canggih dari tsmc dan dibuat khusus untuk aplikasi video sora.

jelasnya, untuk medan perang model besar, menggulirkan model itu sendiri saja tidak lagi cukup.

tautan referensi:
https://www.reddit.com/r/singularity/comments/1fhx8ny/deepmind_understands_strawberry_there_is_no_moat/

berita

o1 paparan orang dalam secara tiba-tiba? google mengungkapkan prinsipnya sebelumnya. tidak ada celah untuk model besar hanya dengan perangkat lunak.

menghemat 4 kali jumlah perhitungan

netizen: apakah paritnya hanya tentang perangkat keras?

perkenalan

informasi kontak saya