model openai o1 keluar, agi lima level menerobos lagi! seorang dokter super dengan penalaran ekstrim, seorang tionghoa dari universitas fudan di dinasti qing utara telah melakukan perbuatan baik

model openai o1 keluar, agi lima level menerobos lagi! seorang pria dengan gelar doktor super di bidang penalaran, seorang tionghoa dari universitas fudan di dinasti qing utara yang telah melakukan perbuatan baik

2024-09-13

baru saja, model seri o1 openai yang paling kuat tiba-tiba online. tanpa peringatan, openai melontarkan hal ini.

model strawberry yang konon online dalam waktu dua minggu, ternyata tiba dalam dua hari!

mulai hari ini, o1-pratinjau akan diluncurkan ke semua pengguna plus dan tim di chatgpt, dan ke pengembang tingkat 5 di api.

pada saat yang sama, openai juga merilis o1-mini - model inferensi hemat biaya yang sangat bagus dalam stem, khususnya matematika dan coding.

model o1 masih memiliki kekurangan dan keterbatasan, dan lebih mengesankan pada penggunaan pertama dibandingkan dalam jangka panjang.

performa seri o1 baru dalam penalaran kompleks telah ditingkatkan ke tingkat yang benar-benar baru.

dalam rangkaian tes benchmark, o1 kembali mengalami peningkatan yang sangat besar dibandingkan gpt-4o, mampu meraih medali emas di olimpiade matematika tingkat phd manusia!

peneliti openai jason wei mengatakan bahwa o1-mini adalah hasil penelitian paling mengejutkan yang pernah dilihatnya selama setahun terakhir. sebuah model kecil sebenarnya mencapai skor lebih dari 60% dalam kompetisi matematika aime.

namun jika dilihat dari lampiran artikel openai, preview dan mini yang dirilis kali ini sepertinya hanya "versi dikebiri" dari o1.

penskalaan inferensi membuka paradigma baru

ilmuwan senior nvidia jim fan menganalisis lebih lanjut prinsip di balik model o1.

dia mengatakan bahwa paradigma baru penskalaan waktu inferensi sedang dipopulerkan dan diterapkan secara luas. seperti yang dikatakan sutton dalam "a bitter lesson", hanya ada dua teknologi yang dapat meningkatkan kekuatan komputasi secara tak terbatas: pembelajaran dan pencarian.

sekarang, saatnya mengalihkan fokus kita ke hal terakhir.

1. anda tidak memerlukan model besar untuk melakukan inferensi.

2. mentransfer sejumlah besar perhitungan dari pra-pelatihan/pasca-pelatihan ke layanan inferensi

3. openai pasti telah menemukan aturan penskalaan penalaran sejak dini, namun komunitas akademis baru mulai menemukannya.

4. menerapkan o1 ke dalam penggunaan praktis jauh lebih sulit daripada mencapai hasil yang baik dalam tolok ukur akademis

5. stroberi dapat dengan mudah menjadi roda gila data

dilihat dari klasifikasi openai sebelumnya, o1 telah mencapai kemampuan penalaran tingkat l2.

seseorang mengujinya dan menemukan bahwa o1 berhasil menulis puisi yang sangat sulit. dalam prosesnya, perencanaan dan pemikiran yang diperlukan untuk berhasil menyelesaikan tugas ini sangat gila, dan perhitungan waktu penalarannya sangat keren.

namun, pakar ai, karpathy, mengeluh setelah menguji o1-mini, "saya menolak menyelesaikan hipotesis riemann. kemalasan model masih menjadi masalah besar, dan sungguh menyedihkan."

asisten profesor nyu xie saining juga mencoba menguji pertanyaan klasik "siapa yang lebih besar, 9.11 atau 9.8?" tanpa diduga, o1-preview masih mendapat jawaban yang salah.

masalah klasik "berapa banyak r yang ada di stroberi" tentu saja tidak menjadi masalah bagi o1.

big v matthew sabia mengatakan yang paling menakutkan adalah gpt-5 69 kali lebih kuat dari model o1. orang awam tidak memahami penalaran dan kemampuan logika gajah.

apakah manusia benar-benar siap?

masalah penalaran logis yang membingungkan manusia diselesaikan dengan o1

kita semua tahu bahwa penalaran logis adalah gunung yang sulit untuk dilintasi llm sebelumnya.

namun kali ini, kemampuan model o1 dalam memecahkan masalah logika yang kompleks sungguh mengejutkan.

misalnya, pertanyaan logika berikut -

umur sang putri sama dengan umur pangeran pada suatu waktu di masa depan, ketika umur sang putri akan menjadi dua kali umur pangeran pada suatu waktu di masa lalu; dan pada saat itu di masa lalu, umur sang putri akan menjadi setengahnya jumlah usia mereka saat ini. berapa umur putri dan pangeran sekarang? harap berikan semua solusi untuk masalah ini.

pertanyaan ini sangat sulit untuk diucapkan. bahkan bagi manusia pun, dibutuhkan banyak usaha untuk menerjemahkan dan memahami maksud pertanyaan tersebut dengan benar.

yang mengejutkan, model o1 justru memberikan jawaban yang benar setelah beberapa langkah berpikir!

melalui langkah-langkah seperti mendefinisikan variabel, memahami masalah, dan menyelesaikan persamaan, disimpulkan bahwa umur putri adalah 8k tahun dan umur pangeran adalah 6k tahun, dimana k adalah bilangan bulat positif.

dalam demo lainnya, jason wei menunjukkan kepada kita bagaimana o1 memprogram video game berdasarkan petunjuknya.

seperti yang anda lihat, dia menyalin prompt ke model o1.

selanjutnya model berpikir selama 21 detik dan menampilkan seluruh langkah berpikir.

selanjutnya model diberi kode.

setelah menjalankan kodenya, ternyata permainannya sangat lancar!

kami bahkan memberikan banyak kalimat bahasa korea yang membingungkan ke o1 dan memintanya untuk menerjemahkannya ke dalam bahasa inggris, dan itu benar-benar berhasil.

sebab, meski kalimatnya kurang jelas tata bahasanya, o1 tetap menerjemahkannya selangkah demi selangkah.

pada akhirnya, o1 memberikan jawabannya dan berkata dengan nada bercanda: tidak ada penerjemah di planet ini yang dapat melakukannya, tetapi orang korea dapat dengan mudah mengidentifikasinya. ini adalah metode mengenkripsi bahasa korea melalui berbagai perubahan vokal dan konsonan.

sebaliknya, gpt-4o benar-benar bingung dan tidak dapat memahaminya.

terlihat bahwa kinerja super o1 telah meningkatkan penalaran logis ke tingkat yang baru.

bagaimana cara melakukannya?

pembelajaran penguatan menghasilkan pencapaian yang luar biasa, waktunya untuk model besar alphago akan tiba

perbedaan antara model seri o1 dengan masa lalu adalah ia akan menghabiskan lebih banyak waktu "memikirkan masalah" sebelum menjawab pertanyaan, sama seperti manusia.

melalui pelatihan, mereka belajar menyempurnakan proses berpikir mereka, mencoba berbagai strategi, dan mengenali kesalahan mereka sendiri.

di balik ini, algoritme "pembelajaran penguatan" yang kuat telah memberikan kontribusi besar. saat itu, ketika alphago mengalahkan pemain catur manusia, algoritma rl digunakan di belakangnya.

ini melengkapi pelatihan yang efisien dengan data tingkat tinggi dan mengajarkan llm untuk berpikir produktif menggunakan cot.

jason wei, pengembang di balik proposal cot dan peneliti openai, mengatakan bahwa o1 tidak menyelesaikan cot hanya melalui perintah, tetapi menggunakan model pelatihan rl untuk pada akhirnya melakukan pemikiran berantai dengan lebih baik.

selain itu, tim openai juga menemukan “hukum baru” dalam scaling law dalam model tersebut.

performa o1 terus meningkat seiring dengan semakin banyaknya pembelajaran penguatan (dihitung dalam waktu pelatihan) dan lebih banyak waktu berpikir (dihitung dalam waktu pengujian) yang diinvestasikan.

keterbatasan metode selama scaling ini sangat berbeda dengan keterbatasan pra-pelatihan llm.

performa o1 terus meningkat seiring dengan peningkatan jumlah penghitungan pada fase pelatihan dan fase pengujian.

daftar tim peraih medali emas

studi penalaran

di antara para kontributor pendiri, ilya sutskever, yang meninggalkan pekerjaannya untuk memulai bisnis, jelas terdaftar, namun ia tidak terdaftar dalam kepemimpinan eksekutif (kepemimpinan eksekutif) bersama greg brockman dan lainnya untuk o1.

setelah ilya mengundurkan diri, openai pun menggali banyak makalahnya dan mulai menerbitkannya, seperti penelitian tentang interpretabilitas model gpt-4.

saat ini, ssi yang ia dirikan juga sedang booming. ia berhasil mengumpulkan pembiayaan sebesar us$1 miliar bahkan tanpa memiliki produk, dengan valuasi sebesar us$5 miliar.

hong yu ren

hongyu ren lulus dari universitas peking dengan gelar sarjana ilmu komputer dan menerima gelar doktor dari stanford. ia bergabung dengan openai sejak juli tahun lalu.

jason wei

jason wei saat ini menjadi peneliti di openai. selama tahun 2020-2023, ia bekerja di google brain, mengusulkan cot yang terkenal, penyempurnaan instruksi, dan menerbitkan makalah tentang kemampuan kemunculan model besar.

kevin yu

kevin yu saat ini menjadi peneliti di openai. ia menerima gelar master di bidang fisika dan astrofisika serta gelar doktor di bidang neurologi dari uc berkeley masing-masing pada tahun 2014 dan 2021.

keluarga sheng zhao

shengjia zhao lulus dari universitas tsinghua dengan gelar sarjana dan juga menerima gelar phd dari stanford. setelah lulus pada juni 2022, ia bergabung dengan tim teknis openai.

wenda zhou

wenda zhou bergabung dengan openai tahun lalu. sebelumnya, dia adalah moore-sloan fellow di data science center laboratory di new york university.

ia menerima gelar master dari universitas cambridge pada tahun 2015 dan gelar phd di bidang statistik dari universitas columbia pada tahun 2020.

lagu fransiskus

francis song menerima gelar sarjana fisika dari universitas harvard dan ph.d. dia bergabung dengan openai pada tahun 2022 dan sebelumnya menjabat sebagai ilmuwan riset di deepmind dan asisten ilmuwan riset di universitas new york.

mark chen

mark chen menjabat sebagai direktur frontier research sejak bergabung dengan openai pada tahun 2018, mengawasi kelompok kerja di bawah wakil presiden riset bob mcgrew.

setelah lulus dari mit, chen menerima gelar sarjana ganda di bidang matematika dan ilmu komputer. selama kuliah, ia magang di microsoft dan trading, dan menjadi sarjana tamu di universitas harvard.

saat ini, ia juga menjabat sebagai pelatih tim pelatihan ioi amerika.

informasi tersebut pernah berspekulasi bahwa mark chen akan menjadi anggota kepemimpinan openai di masa depan.

selain itu, tim kepemimpinan juga mencakup jakub pachocki, kepala ilmuwan yang menggantikan ilya, dan wojciech zaremba, salah satu dari sedikit pendiri openai yang tersisa.

alasan tentang keamanan teknis

jieqi yu

jieqi yu lulus dari universitas fudan dengan gelar sarjana teknik elektronik, ia melanjutkan ke universitas sains dan teknologi hong kong untuk pertukaran, dan kemudian menerima gelar phd dari universitas princeton. dia bekerja di facebook selama 12 tahun, beralih dari insinyur perangkat lunak menjadi manajer rekayasa perangkat lunak, dan bergabung dengan openai sebagai manajer teknik pada agustus tahun lalu.

kai xiao

xiao kai lulus dari mit dengan gelar sarjana dan phd. dia juga menerima gelar ganda di bidang matematika dan ilmu komputer sebagai sarjana. dia pergi ke universitas oxford untuk kunjungan akademis dan memiliki pengalaman magang di perusahaan seperti deepmind dan microsoft he bergabung dengan openai pada september 2022.

lilian weng

lilian weng saat ini menjabat sebagai kepala sistem keamanan openai dan sebagian besar terlibat dalam pembelajaran mesin, pembelajaran mendalam, dan penelitian lainnya.

dia lulus dari universitas peking dengan gelar sarjana di bidang sistem informasi dan ilmu komputer. dia melanjutkan ke universitas hong kong untuk pertukaran jangka pendek, dan kemudian menerima gelar phd dari indiana university bloomington.

seperti mark chen, lilian dianggap sebagai bintang baru dalam kepemimpinan openai.

daftar lengkap tim adalah sebagai berikut:

fisika biokimia, melampaui tingkat doktoral manusia

sebagai rangkaian model baru yang diciptakan oleh openai, apa kelebihan o1?

berada di peringkat 89% teratas dari masalah pemrograman kompetisi (codeforces); berada di peringkat 500 siswa teratas di kualifikasi kompetisi olimpiade matematika amerika (aime).

yang terpenting, melebihi tingkat phd manusia dalam tes benchmark soal fisika, biologi, dan kimia (gpqa).

pada pengujian benchmark yang umum digunakan seperti math dan gsm8k untuk penalaran, o1 dan banyak model mutakhir lainnya telah mencapai kinerja jenuh dan sulit dibedakan. oleh karena itu, openai juga memilih aime untuk mengevaluasi kemampuan matematika dan penalaran model tersebut seperti tes manusia dan tolok ukur lainnya.

aime dirancang untuk menantang kemampuan matematika siswa sekolah menengah terbaik di amerika serikat. pada ujian aime 2024, gpt-4o rata-rata hanya menyelesaikan 12% (1,8/15) soal.

namun peningkatan o1 cukup signifikan, rata-rata menyelesaikan 74% (11,1/15) pertanyaan, dan mencapai 83% (12,5/15) ketika pemungutan suara terbanyak dilakukan pada 64 sampel. jika kita menggunakan fungsi scoring dan menyusun ulang 1000 sampel, akurasinya bahkan mencapai 93% (13,9/15).

skor 13,9 berarti level o1 telah mencapai 500 siswa terbaik di negara tersebut dan melampaui skor akhir olimpiade matematika amerika.

pada tugas yang menantang seperti codeforces dan gpqa diamond, o1 jauh melebihi gpt-4o.

o1 jauh mengungguli gpt-4o pada tolok ukur inferensi yang menantang

gpqa diamond menguji keahlian di bidang kimia, fisika dan biologi. untuk membandingkan model tersebut dengan manusia, tim merekrut para ahli dengan gelar phd untuk menjawab pertanyaan-pertanyaannya.

hasilnya, o1 mengungguli para pakar manusia ini (69,7) (78,0), dan menjadi model pertama yang mengungguli manusia dalam tolok ukur ini.

namun, hasil ini tidak berarti bahwa o1 lebih kuat dari manusia dengan gelar phd dalam segala aspek, ini hanya menunjukkan bahwa ia dapat menyelesaikan beberapa masalah pada level yang sesuai dengan lebih terampil.

selain itu, o1 juga menyegarkan sota dalam tes benchmark seperti math, mmlu, dan mathvista.

setelah mengaktifkan kemampuan persepsi visual, o1 meraih skor 78,1% di mmmu, menjadi model pertama yang bersaing dengan pakar manusia, melampaui gpt-4o di 54 dari 57 subkategori mmlu.

o1 mengungguli gpt-4o pada berbagai tolok ukur, termasuk subkelas 54/57 mmlu

rantai pemikiran

melalui pembelajaran penguatan, o1 belajar mengenali dan memperbaiki kesalahannya sendiri dan memecah langkah-langkah rumit menjadi langkah-langkah yang lebih sederhana.

ia juga akan mencoba metode yang berbeda ketika metode saat ini tidak berhasil. proses ini secara signifikan meningkatkan kemampuan inferensi model.

mari kita ambil contoh “kriptografi”.

pertanyaannya adalah: "pikirkan langkah demi langkah" dienkripsi dan sesuai dengan "oyfjdnisdr rtqwainr acxz mynzbhhx". tanyakan apa arti dari "oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz".

terlihat bahwa gpt-4o sama sekali tidak berdaya menghadapi masalah seperti ini.

o1 beralasan tentang metode penghitungan enkripsi berdasarkan informasi yang diketahui, dan akhirnya memberikan jawaban yang benar - ada tiga r di strawberry.

gpt-4o

o1-pratinjau

pemrograman

dalam evaluasi ini, openai melatih lebih lanjut model pemrograman yang disempurnakan berdasarkan o1.

pada olimpiade internasional informatika (ioi) 2024, model baru ini mencetak 213 poin dan menduduki peringkat 49%.

selama kursus, model memiliki waktu sepuluh jam untuk menyelesaikan enam masalah algoritmik yang menantang, dengan 50 pengajuan diperbolehkan untuk setiap masalah.

jika pembatasan pengiriman dilonggarkan, performa model dapat ditingkatkan secara signifikan. ketika mengizinkan 10.000 pengiriman per pertanyaan, model tersebut mencapai skor 362,14 - melebihi ambang batas medali emas.

terakhir, openai juga menyimulasikan kompetisi pemrograman kompetitif yang diselenggarakan oleh codeforces—mengikuti aturan secara ketat dan mengizinkan 10 pengiriman.

skor elo gpt-4o adalah 808, peringkat 11% pemain manusia. model baru ini jauh melampaui gpt-4o dan o1, mencapai skor tinggi 1807, mengungguli 93% pemain.

penyempurnaan lebih lanjut peningkatan o1 dalam kompetisi pemrograman: model yang ditingkatkan berada di peringkat persentil ke-49 berdasarkan aturan kompetisi di olimpiade internasional informatika 2024

penilaian preferensi manusia

selain ujian dan tolok ukur akademik, openai mengevaluasi preferensi manusia untuk pratinjau o1 versus gpt-4o pada kata-kata cepat yang menantang dan terbuka di berbagai domain.

dalam evaluasi ini, manusia melihat tanggapan anonim terhadap kata-kata cepat dari o1-preview dan gpt-4o dan memilih tanggapan mana yang mereka sukai.

dalam kategori yang banyak berpikir seperti analisis data, pemrograman, dan matematika, orang lebih cenderung memilih o1-preview. namun dalam beberapa tugas bahasa alami, gpt-4o lebih baik.

dengan kata lain, o1-preview saat ini tidak cocok untuk semua skenario penggunaan.

di area di mana kemampuan penalaran lebih penting, orang lebih cenderung memilih o1-preview

o1-mini sangat hemat biaya

untuk memberikan solusi yang lebih efisien kepada pengembang, openai merilis o1-mini - model inferensi yang lebih cepat dan lebih murah.

sebagai model yang lebih kecil, o1-mini 80% lebih murah dibandingkan o1-preview.

ini adalah model yang kuat dan hemat biaya untuk aplikasi yang memerlukan penalaran tetapi tidak memerlukan pengetahuan umum.

namun, seri o1 saat ini masih dalam tahap awal, dan kemampuan seperti plug-in jaringan, transfer file jarak jauh, dan gambar belum terintegrasi. dalam jangka pendek, gpt-4o masih menjadi pemain terkuat.

referensi:

https://openai.com/index/learning-to-reason-with-llms/

berita

model openai o1 keluar, agi lima level menerobos lagi! seorang pria dengan gelar doktor super di bidang penalaran, seorang tionghoa dari universitas fudan di dinasti qing utara yang telah melakukan perbuatan baik

perkenalan

informasi kontak saya