penggerebekan model stroberi openai pada larut malam! fisika dan kimia mencapai tingkat mahasiswa doktoral, jauh lebih baik dari gpt-4o, chatgpt tersedia

penggerebekan model stroberi openai pada larut malam! fisika dan kimia mencapai tingkat mahasiswa doktoral, jauh lebih baik dari gpt-4o, tersedia chatgpt

2024-09-13

pengarang |

penyunting |.li shuiqing

zhidongxi melaporkan pada 13 september bahwa dini hari tadi, openai tiba-tiba merilis yang legendarismodel "stroberi".pratinjau sebagian dari -versi pratinjau openai o1. ini adalah serangkaian model ai baru yang dapat memikirkan tugas-tugas kompleks dan memecahkan masalah yang lebih sulit dibandingkan model ilmiah, pemrograman, dan matematika sebelumnya.

▲openai merilis model o1

openai o1 adalah yang pertama dari serangkaian model ai baru。berbeda dengan model sebelumnya, ia memilikinyamengembangkan kemampuan penalaran, akan masukpikirkan baik-baik sebelum menjawab, menghasilkan yang panjangrantai pemikiran internal, memberi peringkat pada pertanyaan pemrograman kompetitifnomor 89, diperingkat dalam turnamen kualifikasi olimpiade matematika as500 pertama, keakuratan dalam tes benchmark pada soal fisika, biologi, dan kimiamelebihi tingkat doktoral manusia！

satu lagi yang baru diriliso1 keciladalah model yang lebih cepat dan lebih kecil, dilatih menggunakan kerangka kerja yang mirip dengan o1. o1 mini pandai dalam sains dan teknik, terutama matematika dan pemrograman.biayanya 80% lebih murah dibandingkan versi o1 preview。

kedua model ini dianggap oleh openai sebagai kemajuan besar dalam tugas penalaran yang kompleks, sehingga diberi nama o1 untuk menyetel ulang penghitung, bukan sebagai kelanjutan dari seri gpt.

namun, versi model o1 yang disempurnakan dengan inferensi masih gagal total pada "masalah tingkat tinggi" dalam membandingkan ukuran 9.9 dan 9.11.

▲model o1 menjawab pertanyaan tentang “rasio ukuran”

andrej karpathy, salah satu pendiri openai dan mantan direktur senior tesla ai, yang meninggalkan openai untuk memulai bisnis, mengeluh pagi ini: "o1-mini selalu menolak menyelesaikan hipotesis riemann bagi saya. kemalasan model masih menjadi masalah utama masalah 😞"

▲andrej karpathy mengeluhkan o1 mini yang “malas”

openai telah menguji dan mengevaluasi versi pratinjau o1 secara ketat untuk memastikan bahwa model tersebut dapat dirilis dengan aman. pengguna chatgpt plus dan tim dapat memilih dua model baru hari ini, dan pengembang tingkat 5 juga akan menjadi yang pertama mendapatkan akses api ke model baru tersebut.

openai juga mengumumkan anggota tim inti di balik model o1, termasuk 21 kontributor dasar, termasuk mantan kepala ilmuwan openai ilya sutskever, yang keluar untuk memulai bisnis, dan 7 pemimpin tim.

1. mmlu sebanding dengan manusia yang ahli dalam kemampuan pemrograman8pembunuhan gandagpt-4o

seperti yang diungkapkan sebelumnya, openai o1 dilatih untuk menjadi model yang menghabiskan lebih banyak waktu untuk memikirkan masalah sebelum bereaksi. ia berpikir sebelum menjawab, menghasilkan arantai ide internal yang sangat panjang, dan bisa seperti manusiatingkatkan proses berpikir anda，teruslah mencoba strategi barudan sadari kesalahanmu.

sebagai model pratinjau awal, openai o1 saat inihanya mendukung percakapan teks, tidak memiliki kemampuan multimodal seperti menjelajahi web untuk memperoleh informasi, mengunggah file dan gambar, dll.

dalam hal kinerja, openai o1 bagusfisika, kimia dan biologikinerja pada tugas benchmark danmahasiswa phdcukup dan masukmatematika dan pemrogramanperforma luar biasa.

▲ tolok ukur evaluasi openai o1 dalam matematika dan pemrograman

dalam ujian kualifikasi olimpiade matematika internasional (imo), model openai generasi sebelumnya gpt-4o memiliki tingkat akurasi 13%, sedangkan openai o1 memiliki tingkat akurasi 13%.mencapai 83%. dalam kompetisi coding codeforces, openai o1'sskornya adalah 89, sedangkan gpt-4o hanya memiliki 11. bahkan versi pratinjau dari model pratinjau o1 memiliki kinerja beberapa kali lebih baik daripada gpt-4o.

o1 berkinerja jauh lebih baik daripada gpt-4o pada sebagian besar benchmark, mencakup 54 dari 57 subkategori mmlu. setelah mengaktifkan fungsi persepsi visual, o1 mendapat skor 78,2% di mmlu, menjadimodel pertama yang bersaing dengan pakar manusia。

▲ perbandingan kinerja antara versi pratinjau o1 dan gpt-4o

berikut adalah beberapa contoh versi pratinjau openai o1:

1. pecahkan teka-teki logika yang rumit

masukkan ateka-teki usia yang kompleks: seorang putri dianggap sama tuanya dengan pangeran apabila usianya dua kali lipat usia pangeran, dan jika usianya setengah dari jumlah usia mereka saat ini. berapa umur pangeran dan putri? berikan semua solusi untuk masalah ini.

model mulai menjawab setelah berpikir lebih dari 20 detik. logika jawabannya sangat masuk akal. yang pertama adalah menentukan persamaan umur, mengubah pernyataan yang diberikan menjadi persamaan matematika, dan menemukan semua kemungkinan solusi yang memenuhi persamaan tersebut. kemudian mulailah menganalisis masalahnya langkah demi langkah:

langkah pertama adalah mendefinisikan variabel, menggunakan p untuk mewakili pangeran dan q untuk mewakili putri; langkah kedua adalah memahami dua kondisi dalam masalah; langkah ketiga adalah mengubah kondisi menjadi persamaan; persamaan; langkah kelima langkah 1 menggunakan nilai-nilai ini untuk memverifikasi semua kondisi;

akhirnya sampai pada kesimpulan:

2. terjemahkan kalimat yang salah

menambahkan konsonan tambahan yang tidak diperlukan akan memengaruhi pembacaan bahasa korea. kalimat tersebut tidak akan dibaca secara alami oleh penutur asli, yang secara otomatis akan mengubah dan memahami teks ketika mereka melihat kalimat seperti itu. namun ini merupakan tantangan yang sulit bagi model tersebut.

masukkan akata-kata cepat bahasa korea rusak parahterakhir, openai o1 pertama kali menyadari bahwa teks masukan berisi karakter korea yang kacau atau tidak selaras dan menanyakan pengguna apakah mereka ingin memeriksa kesalahan masukan.

model o1 pertama-tama akan memahami struktur yang mendasarinya, dan setelah sekitar 10 detik berpikir, model tersebut akan memecahkan kode teks yang kacau, menguraikan teks, menyempurnakan terjemahan, memahami konsep, dan mengubahnya kembali menjadi bahasa yang koheren.

berbeda dengan gpt-4o, model o1 memikirkan pertanyaan sebelum mengeluarkan jawabannya, memeriksa teks, lalu memodifikasinya menjadi kalimat yang benar seolah-olah memecahkan jawabannya. setelah sekitar 15 detik berpikir, o1 memberikan versi terjemahan akhir yang dioptimalkan.

hal ini menunjukkan bahwa keterampilan penalaran menjadi alat yang ampuh untuk memecahkan masalah.

3. jawablah soal sulit yang terkenal dalam model bahasa besar: menghitung huruf dalam kata

contoh ini sangat sederhana, masukkan kata strawberry dan biarkan model menjawabnyaberapa banyak huruf r yang ada dalam kata tersebut?。

akibatnya, gpt-4o memberikan jawaban yang salah: "2".

mengapa model canggih seperti itu bisa membuat kesalahan sederhana? hal ini dikarenakan model seperti gpt-4o dibangun untuk mengolah teks, bukan karakter atau kata, sehingga dapat melakukan kesalahan ketika menemui permasalahan yang melibatkan pemahaman konsep karakter dan kata.

model baru o1 berdasarkan penalaran dapat memberikan jawaban yang benar setelah berpikir beberapa detik:

4. pemrograman video game

biarkan model menggunakan pygamebuatlah video game bernama squirrel finder, dan masukkan persyaratan berikut: pengguna harus memandu ikon "koala" di layar dengan menekan tombol panah, menghindari stroberi yang mengambang, dan menemukan tupai dalam batas waktu 3 detik untuk menang.

ini lebih sulit dengan model sebelumnya, namun versi pratinjau o1 sudah mampu melakukannya. o1 menghabiskan 21 detik untuk berpikir dan menggunakan proses berpikir tersebut untuk merencanakan struktur kode, termasuk mengumpulkan detail tata letak game, menggambar instruksi, menyiapkan layar, dll., dan kemudian mengeluarkan kode pemrograman game akhir.

copy dan paste kode tersebut ke editor sublime text. setelah dijalankan, akan ada beberapa baris petunjuk singkat.

kemudian anda bisa mulai memainkan game "mencari tupai".

model o1 menunjukkan peningkatan kemampuan perencanaan secara signifikan dibandingkan model sebelumnya.

2. peningkatan kecepatan versi mini3~5kali, biayanya hanya versi standar1/5

openai juga dirilismodel "versi cangkir kecil" openai o1-mini,itulebih cepat dan lebih murah, dan memiliki performa luar biasa yang sama dalam matematika dan pemrograman seperti versi standar.

openai o1-mini dioptimalkan untuk penalaran stem (sains, teknologi, teknik, dan matematika) selama pra-pelatihan. setelah dilatih menggunakan alur pembelajaran penguatan intensif komputasi (rl) yang sama seperti o1, o1-mini mencapai kinerja unggul pada banyak tugas inferensi sekaligus jauh lebih hemat biaya.

openai o1-mini80% lebih murah dibandingkan versi pratinjau openai o1, cocok untuk aplikasi yang memerlukan penalaran tetapi tidak memerlukan pengetahuan dunia yang luas. dalam beberapa tes benchmark yang memerlukan kecerdasan dan penalaran, o1-mini bahkan berkinerja lebih baik daripada o1-preview.

▲ kinerja matematika dan kurva biaya penalaran

dalam kompetisi matematika sma aime, tingkat akurasi o1-mini adalah 70%, yang kira-kira setara dengan500 siswa sekolah menengah terbaik di amerika serikat. pada saat yang sama, tingkat akurasi o1 dan o1-preview masing-masing adalah 74,4% dan 44,6%, tetapi o1-mini jauh lebih murah daripada keduanya.

dalam hal penilaian preferensi manusia, openai memperoleh hasil pengujian berikut dengan meminta penilai manusia menguji o1-mini dan o1-pratinjau pada kata-kata perintah terbuka yang menantang di berbagai bidang, dan membandingkannya dengan gpt-4o. mirip dengan o1-preview, o1-mini lebih populer dibandingkan gpt-4o di area dengan tugas inferensi berat, namun tidak disukai di area yang berfokus pada bahasa.

▲ hasil penilaian preferensi manusia

dalam hal kecepatan, masing-masing gpt-4o, o1-mini dan o1-preview membutuhkan waktu untuk menjawab pertanyaan penalaran kata yang sama.3 detik, 9 detik, 32 detik, namun jawaban gpt-4o salah, dan dua jawaban terakhir benar. terlihat kecepatan o1-mini untuk mendapatkan jawabannyasekitar 3~5 kali lebih cepat dari o1。

▲ kecepatan respons gpt-4o, o1-mini dan o1-pratinjau

tentu saja, ini adalah "versi yang dikebiri", dan openai o1-mini juga memiliki batasan tertentu. dalam hal pengetahuan faktual tentang topik non-stem seperti tanggal, biografi, dan hal-hal sepele sehari-hari, o1-mini agak terbatas, kinerjanya setara dengan model yang lebih kecil seperti gpt-4o mini. openai mengatakan akan memperbaiki keterbatasan ini di versi mendatang dan memperluas model ke jurusan dan modalitas lain di luar stem.

3. memperkenalkan penanda penalaran dan menggunakan rantai pemikiran untuk memecahkan masalah

mirip dengan manusia, o1 berpikir lama sebelum menjawab pertanyaan sulit dan kegunaannyarantai pemikiran。

melalui pembelajaran penguatan, o1 belajar meningkatkan rantai berpikir dan menggunakan strategi. ini adalah kemampuan untuk mengidentifikasi dan memperbaiki kesalahan, memecah langkah-langkah rumit menjadi langkah-langkah yang lebih sederhana, dan mencoba pendekatan yang berbeda ketika pendekatan yang ada saat ini tidak berhasil. proses ini sangat meningkatkan kemampuan penalaran model.

secara khusus, model o1 memperkenalkantanda inferensi(token penalaran). penanda inferensi ini digunakan untuk "berpikir", memecah pemahaman kata dari prompt, dan mempertimbangkan berbagai cara untuk menghasilkan respons. setelah token inferensi dihasilkan, model menghasilkan jawaban sebagai token penyelesaian yang terlihat dan membuang token inferensi dari konteksnya.

di bawah ini adalah contoh percakapan multi-langkah antara pengguna dan model. token masukan dan keluaran untuk setiap langkah dipertahankan, sementara token inferensi dibuang.

▲o1 proses inferensi model

perlu dicatat bahwa ketika openai melakukan pelatihan algoritma pembelajaran penguatan skala besar, ditemukan hal tersebutdengan bertambahnya pembelajaran intensif dan waktu berpikir,, atau lebih tepatnyaseiring bertambahnya waktu pelatihan dan waktu ujian,，kinerja o1 akan terus meningkat. hal ini sangat berbeda dengan scaling law pada pra-pelatihan model besar.

▲o1 performa terus meningkat dengan perhitungan waktu pelatihan dan waktu tes

untuk menunjukkan lompatan yang dicapai oleh o1, openai telah mengungkapkan rantai pemikiran yang dihasilkan oleh versi pratinjau o1 ketika memecahkan masalah seperti pemrograman, matematika, decoding, dan bahasa inggris.

misalnya, ketika anda mendapatkan amenguraikan pertanyaan, gpt-4o pertama-tama membongkar masukan, keluaran, dan contoh, lalu mulai menganalisis kemungkinan metode penguraian kode.

▲gpt-4o membongkar masukan, keluaran dan contoh

diperkirakan bahwa frasa pertama mungkin mengikuti struktur yang sama seperti contoh, menyadari bahwa teks masukan tampaknya terbagi dalam kelompok berdasarkan pemisahan atau pola alami, tetapi kemudian berhenti berfungsi, dengan mengatakan bahwa diperlukan lebih banyak informasi tentang konversi atau pergeseran huruf yang mungkin terjadi. terlibat.

▲gpt-4o mengatakan diperlukan lebih banyak informasi

di sisi lain, openai o1-preview mengalami beberapa pemikiranmemberikan jawabannya dengan akurat。

▲o1-preview menjawab masalah decoding dengan benar

walaupun jawaban akhir yang disajikan sangat singkat, namun proses berpikir o1 sangat panjang, pemikiran dan perkataannya sangat mirip manusia. dimulai dengan bertanya pada diri sendiri “apa yang terjadi di sini” dan kemudianulangi permintaan itu, lalu mulaipisahkan tugas dan perjelas tujuan。

▲o1 proses berpikir

kemudian, o1 dimulaiamati informasi yang anda peroleh,dananalisis langkah demi langkah。

▲o1 proses berpikir

setelah beberapa alasan, o1 dimulaitemukan solusi yang berbeda. selama proses ini, seperti manusia, mereka tiba-tiba berkata "tunggu sebentar, menurutku..." dan kemudian mulai berpikir lagi.mencoba metode baru。

▲o1 proses berpikir

tak hanya itu, bahkan muncul kata-kata seperti "um" dan "menarik" dalam proses berpikir o1.bahasa sehari-hari, emosionalekspresi.

▲o1 proses berpikir

rantai pemikiran lengkapnya sangat panjang, jadi saya tidak akan membahas detailnya di sini. secara umum, seperti yang dikatakan openai, o1 dapat terus meningkatkan proses berpikirnya seperti manusia, mencoba strategi baru, mengenali kesalahannya sendiri, dan menyelesaikannya. dan “seperti manusia” di sini tidak sebatas pada cara berpikirnya, tetapi juga tercermin dalam nadanya.

empat,tersedia untuk percakapan setiap minggu30~50kali, ilya berpartisipasi dalam kontribusi dasar

berbeda dari sebelumnya, kali ini openai tidak mencantumkan masa depan, tapilangsung onlinedua model.

mulai sekarang, pengguna chatgpt plus dan tim dapat mengakses model o1 di chatgpt dan secara manual memilih o1-preview atau o1-mini melalui pemilih model, pengguna perusahaan dan pendidikan dapat menggunakannya mulai minggu depan, dan pengguna gratis juga akan dapat menggunakannya mendapatkan akses di masa depan.

▲pengguna dapat mengakses model o1 di chatgpt

namun mungkin karena pertimbangan keamanan atau biaya, kedua model saat ini membatasi jumlah pesan, versi pratinjau dan versi mini.jumlah pesan yang dikirim per minggu masing-masing adalah 30 dan 50.. openai mengatakan pihaknya bekerja keras untuk meningkatkan kuota dan memungkinkan chatgpt untuk secara otomatis memilih model yang sesuai berdasarkan kata-kata cepat yang diberikan.

openai juga telah meluncurkan api (antarmuka pemrograman aplikasi) model o1. pengembang yang memenuhi syarat kini dapat mulai membuat prototipe menggunakan api untuk kedua model dengan batas kecepatan 20 rpm. api ini saat ini tidak mencakup pemanggilan fungsi, streaming, dukungan untuk pesan sistem, dan fungsi lainnya.

▲o1, o1 model mini api

seperti yang dapat dilihat dari dokumentasi api, kedua model inijendela konteks semuanya 128k, sedangkan jendela keluaran versi mini lebih panjang,dua kali lipat dari o1, selain itu, data pelatihan kedua model tersebut adalah per oktober 2023.

openai juga mengumumkan tim di balik model o1anggota tim inti：

▲ anggota tim inti di balik model o1

di dalamada 21 anggota kontributor dasar, termasuk mantan kepala ilmuwan openai ilya sutskever, yang keluar untuk memulai bisnis.

ada 7 pemimpin tim, masing-masing jakub pachocki, jerry tworek (keseluruhan), liam fedus, lukasz kaiser, mark chen, szymon sidor, wojciech zaremba. manajer proyeknya adalah lauren yang dan mianna chen.

menurut anggota timnya, penalaran adalah kemampuan untuk mengubah waktu berpikir menjadi hasil yang lebih baik. mereka menginvestasikan lebih banyak perhitungan daripada sebelumnya, melatih model untuk menghasilkan ide-ide yang koheren, dan menghasilkan kinerja yang benar-benar berbeda dari sebelumnya.

mereka menggunakan pembelajaran penguatan untuk melatih model ai guna menghasilkan dan mengasah rantai pemikirannya sendiri bahkan lebih baik daripada rantai pemikiran yang diprogram oleh manusia. cara melatih model ai untuk menghasilkan proses pemikirannya sendiri secara signifikan meningkatkan kemampuannya untuk memahami dan memperbaiki kesalahan, dan model o1 awal telah mencapai skor yang lebih tinggi dalam pengujian data.

daftar kontributor inti dan kontributor lainnya adalah sebagai berikut:

▲ daftar kontributor inti o1 dan kontributor lainnya

pemimpin administratifnya terdiri dari 8 orang termasuk ceo openai sam altman, presiden greg brockman, ceo mira murati, dan 8 pemimpin pendukung.

▲o1 kepemimpinan administratif, kepemimpinan pendukung

model o1 baru dapat menyimpulkan dan mengeksploitasi aturan keamanan secara kontekstual dengan lebih efektif. openai telah melakukan pengujian dan evaluasi o1-preview yang ketat untuk memastikan bahwa model dapat dirilis dengan aman tanpa meningkatkan risiko yang mungkin timbul dari sumber daya yang ada.

kesimpulan: openai membalikkan keadaan, "strawberry" merekonstruksi pola model besar?

dari model q* yang misterius hingga model "strawberry", model baru openai akhirnya tersedia. sejak dimulainya "kudeta" openai november lalu, model ini telah terungkap sebagai salah satu faktor kunci yang menyebabkan pengusiran altman. pada saat itu, terdapat rumor bahwa demonstrasi model q* sedang beredar di dalam openai, dan kecepatan pengembangannya mengejutkan beberapa peneliti keamanan ai.

berbeda dengan gpt-4o, model o1 memilih untuk langsung membuka rangkaian penamaan nomor baru daripada melanjutkan gpt, yang menunjukkan bahwa openai sangat mementingkan hal tersebut.

kini setelah banyak produsen model besar mulai meluncurkan aplikasi multi-modal dan volume, peluncuran model teks murni o1 oleh openai sekali lagi dapat menarik perhatian publik terhadap peningkatan kemampuan model yang mendasarinya. apakah lanskap model besar akan direkonstruksi di bawah pengaruh o1 masih harus dilihat lebih lanjut.

berita

penggerebekan model stroberi openai pada larut malam! fisika dan kimia mencapai tingkat mahasiswa doktoral, jauh lebih baik dari gpt-4o, tersedia chatgpt

perkenalan

informasi kontak saya