evaluasi model o1 baru openai dalam lima dimensi utama: pengkodean, produksi game, dan kemampuan lainnya adalah "luar biasa", tetapi pengetahuan faktual "terbalik"

evaluasi model o1 baru openai dalam lima dimensi: pengkodean, produksi game, dan kemampuan lainnya adalah "luar biasa", tetapi pengetahuan faktual "terbalik"

2024-09-18

model legendaris "strawberry" tiba-tiba online hari ini tanpa pemberitahuan apa pun!

model terbaru yang dirilis oleh openai disebut o1, yang merupakan versi pertama dari rangkaian model inferensi yang saat ini diluncurkano1-pratinjau (versi pratinjau) dan o1-mini (versi mini）。

saat ini, o1-preview dan o1-mini sudah tersedia untuk pelanggan chatgpt plus dan team, sedangkan pengguna enterprise dan edu akan mendapatkan akses awal minggu depan. openai mengatakan pihaknya berencana untuk memberikan akses o1-mini kepada semua pengguna gratis chatgpt, namun belum menetapkan tanggal rilisnya.

menurut openai, model o1 lebih dekat dengan pemikiran manusia dibandingkan model sebelumnya dalam hal kemampuan pemecahan masalah, dan mampu "bernalar" untuk tugas-tugas matematika, pengkodean, dan ilmiah.

untuk memverifikasi apakah kemampuan model baru ini sekuat yang diklaim openai, seorang reporter dari "daily economic news"dari "tes stroberi" klasik”model pratinjau o1 diuji dalam lima dimensi: penulisan kode, produksi mini-game, matematika dan ekonomi, dan pengetahuan faktual.

hasilnya menunjukkan bahwa o1-preview menunjukkan kemampuan pemrograman dan penalaran matematis yang melebihi model besar openai yang dirilis sebelumnya. misalnya, o1-pratinjaukemampuan untuk menulis kode yang berjalan dengan lancar dan tetap mempertimbangkan solusi anda sendiri di lingkungan yang kompleks. selain itu, reporter juga merasakan selama proses pengujian bahwa pratinjau o1 juga telah meningkat pesat dalam hal humanisasi, menunjukkan pemikiran orang sungguhan. namun, model baru ini bukannya tanpa kekurangan, dan model ini "terbalik" dalam uji pengetahuan faktual.

"strawberry" yang legendaris ada di sini

pada 12 september waktu setempat, openai merilis model baru bernama o1, yang merupakan versi pertama dari serangkaian model "inferensi" yang rencananya akan digunakan. ini juga merupakan model "strawberry" yang telah dikabarkan di industri selama a waktu yang lama.

sumber gambar: x platform

bagi openai, o1 mewakili langkah lain menuju tujuan ai yang mirip manusia. openai percaya bahwa o1 mewakili kemampuan yang benar-benar baru, yang dianggap sangat penting sehingga perusahaan memutuskan untuk memulai kembali model gpt-4 saat ini, sepenuhnya meninggalkan merek "gpt" dan menamainya dari 1.

openai mengatakan akan memulai kembali dengan model gpt-4 saat ini, "mengatur ulang penghitung ke 1", dan bahkan meninggalkan merek "gpt" yang sejauh ini mendefinisikan chatbot dan seluruh kegilaan ai generatif.o1 membangun sebuah sistem yang dapat memecahkan masalah dengan cermat dan logis melalui serangkaian langkah terpisah, setiap langkah dibangun berdasarkan langkah sebelumnya, serupa dengan cara berpikir manusia.

kepala ilmuwan openai jakub pachocki mengatakan bahwa model sebelumnya akan segera menjawab pertanyaan pengguna ketika mereka menerimanya. "dan model ini (mengacu pada o1) membutuhkan waktu. model ini memikirkan masalah dan mencoba memecahkannya, menemukan sudut pandang, dan mencoba memberikan jawaban terbaik." mereka masih muda, berpikirlah sebelum berbicara.

openai berkata,o1 menempati peringkat persentil ke-89 dalam masalah pemrograman kompetitif (codeforces), di antara 500 siswa teratas di amerika serikat dalam kualifikasi american mathematics olympiad (aime), dan dalam tes benchmark untuk akurasi masalah fisika, biologi, dan kimia (gpqa) yang melebihi tingkat ph.d。

dalam penelitian dan postingan blog yang diterbitkan oleh openai, o1 tampaknya memiliki kemampuan "penalaran" yang sangat kuat. ia tidak hanya dapat memecahkan masalah matematika dan pengkodean tingkat lanjut, tetapi juga mendekripsi kata sandi yang rumit dan menjawab pertanyaan dari para ahli dan cendekiawan tentang genetika, ekonomi, dan ilmu kuantum. .masalah kompleks dalam fisika. sejumlah besar grafik menunjukkan hal itudalam evaluasi internal, o1 telah melampaui gpt-4o, model bahasa tercanggih milik perusahaan, dalam masalah pengkodean, matematika, dan berbagai bidang ilmiah, dan bahkan mungkin telah melampaui manusia.

sumber gambar: situs web resmi openai

lima dimensi pengujian aktual: pengkodean, produksi game, dan kemampuan lainnya "luar biasa", tetapi "gagal" dalam tes pengetahuan faktual

untuk mendapatkan pemahaman lebih dalam tentang kemampuan hebat model o1, reporter dari "daily economic news" menguji model pratinjau o1 dari lima dimensi: pengujian stroberi klasik, penulisan kode, produksi mini-game, matematika dan ekonomi, dan pengetahuan faktual.

1) tes stroberi

pertama-tama, reporter melakukan tes dengan menggunakan pertanyaan sederhana yang hampir semua model besar pernah "terbalik" sebelumnya, yaitu, "berapa banyak r yang ada pada kata strawberry?"”. dilihat dari hasil yang dihasilkan, o1-preview masih membawa sedikit kejutan.

2) penulisan kode

reporter pertama kali menanyakan o1-preview tentang pertanyaan algoritma sederhana paling terkenal di platform pemrograman online leetcode: masalah dua jumlah (jumlah dua angka). o1 memberikan proses penalaran dan jawaban yang sangat rinci.

kemudian reporter sengaja meminta untuk mengoptimalkan jawabannya. setelah berpikir selama 9 detik, o1 menyadari bahwa yang diberikannya sudah merupakan solusi optimal, dan menjelaskannya juga. dalam pengujian model lain sebelumnya oleh reporter, model ini hanya akan meminta maaf dan kemudian mengubah jawabannya menjadi solusi suboptimal.

3) produksi permainan mini

dalam demonstrasi model o1, openai mendemonstrasikan fungsi "menulis mini-game dalam satu kalimat". selama proses pengujian, reporter meminta o1-preview untuk membantu memperkenalkan alat pengkodean yang berguna dan membantu menulis permainan pingpong.

hanya membutuhkan o1-preview 19 detik untuk memberikan kode yang dapat berjalan dengan lancar, serta dilampirkan panduan belajar dan kata-kata penyemangat yang sangat user-friendly.

untuk mencegah o1-preview curang dan menggunakan kemampuan memori alih-alih kemampuan penalaran untuk menjawab, reporter juga meminta o1-preview untuk mengubah kode lingkungan yang berjalan: jupyter note. lingkungan berjalan ini adalah lingkungan python yang dikhususkan untuk analisis data. pengembang pada dasarnya tidak akan menggunakan lingkungan ini untuk mengembangkan game kecil.

setelah dipikir-pikir, o1 tetap memberikan kode yang bisa dijalankan. namun dibandingkan dengan kode sebelumnya, jawaban ini memiliki banyak bug, namun ini juga menunjukkan bahwa ini memang merupakan jawaban yang dipikirkan dengan matang, bukan jawaban standar yang ditambahkan selama proses pelatihan.

untuk memverifikasi lebih lanjut kemampuan penalaran inovatif o1-preview, reporter kemudian meminta model untuk mengembangkan mini-game yang lebih kompleks dan menarik berdasarkan mini-game ini.

kali ini performa o1 sedikit mengejutkan. berdasarkan mekanisme tumbukan pada permainan pingpong, model ini mengulangi permainan lompat ke atas. umumnya, model besar lainnya mengharuskan pengguna untuk menjelaskan kebutuhan mereka dengan jelas sebelum mereka dapat menghasilkan jawaban yang lebih baik. namun, pelapor tidak memberikan petunjuk tambahan apa pun dalam pengujian ini untuk menghasilkan jawaban yang dapat berjalan dengan lancar dan cukup di mata reporter.permainan kecil yang menyenangkan.

4) tes sains

dalam hal tes sains, reporter fokus pada pengujian kinerja o1-preview dalam matematika dan ekonomi.

pertama-tama, reporter mengajukan pertanyaan penalaran matematis.o1-pratinjautanyakan tentang kemungkinan cara menyelesaikan ledakan waktu terbatas persamaan euler (ini adalah artikel diskusi yang diterbitkan minggu ini oleh profesor terence teru, ahli matematika tiongkok terkenal dan pemenang fields medal).

meskipun o1 tidak memberikan solusi yang jelas, namun memberikan ide untuk menyelesaikan masalah.gagasan ini sebagian konsisten dengan artikel profesor tao zhexuan (walaupun sangat sedikit)。

pada bidang ekonomi, reporter menanyakan o1-preview tentang permasalahan sistem perekonomian yang kompleks. dari masukan yang diberikan,pada dasarnya tidak ada masalah besar. logika keseluruhannya jelas dan dimensi pemikirannya juga beragam. walaupun ada sedikit kesalahan kecil pada rumus matematika yang diberikan, namun tidak merugikan keadaan secara keseluruhan.。

5) pengetahuan faktual dan pemahaman bahasa

pada sesi ini, reporter menanyakan o1-preview tentang anekdot menarik tentang kaisar pertama dinasti ming, namun o1 mengartikan anekdot tersebut sebagai hal yang benar-benar terjadi dalam sejarah dan menceritakan keseluruhan kisah sejarah zhu yuanzhang.

pada saat yang sama, reporter juga melemparkan pertanyaan tersebut ke model gpt-4o sebagai perbandingan, gpt-4o dapat memahami pertanyaan reporter dengan baik dan menceritakan dua cerita rakyat yang beredar luas.

keseluruhan,klaim openai bahwa model o1 dapat mendekati level manusia tampaknya benar dalam beberapa aspek.。

yang paling mengejutkan reporter adalah openai menunjukkan kepada pengguna proses berpikir model dalam teks. selama proses berpikir teks, model besar banyak menggunakan kata-kata "saya sedang melakukannya".”kata-kata seperti "saya pikir" dan "saya berencana" terasa lebih antropomorfis, seperti orang sungguhan yang menjelaskan logika berpikirnya di depan penggunanya.

namun ini tidak berarti model o1 sempurna.openai juga mengakui bahwa o1 kalah jauh dengan gpt-4o dalam hal desain, penulisan, dan pengeditan teks.o1 juga tidak memiliki kemampuan untuk menelusuri web atau memproses file dan gambar.

hal yang paling merepotkan bagi reporter adalah bahkan untuk permintaan yang sangat sederhana, seperti mengonversi hasil keluaran ke bahasa mandarin, o1 akan menghabiskan lebih dari sepuluh detik untuk memikirkannya, sementara gpt4o akan dengan cepat menangani permintaan tersebut.

bahkan di area openai yang menguntungkan, model o1 akan tiba-tiba mengalami penurunan kinerja dan keluaran model akan menjadi lambat.karpathy, pendiri openai yang telah mengundurkan diri, mengeluh: "saya menolak memecahkan hipotesis riemann. kemalasan model masih menjadi masalah besar."

openai mengatakan bahwa perusahaan akan mengatasi masalah ini dalam pembaruan berikutnya, karena ini hanyalah pratinjau awal dari model inferensi.

berita ekonomi harian

laporan/umpan balik

berita

evaluasi model o1 baru openai dalam lima dimensi: pengkodean, produksi game, dan kemampuan lainnya adalah "luar biasa", tetapi pengetahuan faktual "terbalik"

"strawberry" yang legendaris ada di sini

lima dimensi pengujian aktual: pengkodean, produksi game, dan kemampuan lainnya "luar biasa", tetapi "gagal" dalam tes pengetahuan faktual

perkenalan

informasi kontak saya