openai merilis model o1 baru: model ini akan sama "bijaksananya" seperti human

openai merilis model o1 baru: model ini akan sama "bijaksananya" seperti manusia

2024-09-13

penulis｜sukhoi

tanpa tindakan pencegahan apa pun, model “strawberry” openai yang telah lama ditunggu-tunggu dirilis.

pengenalan potongan model o1, sumber: openai

dini hari tadi waktu beijing, openai merilis model baru bernama openai o1, yang juga dilaporkan sebelumnya sebagai "strawberry", tetapi awalnya o1 diberi nama sandi "q*". ceo openai sam altman menyebutnya sebagai “awal dari paradigma baru.”

dilihat dari informasi resmi openai,singkatnya, karakteristik o1 adalah: lebih besar, lebih kuat, lebih lambat, dan lebih mahal.

melalui pembelajaran penguatan (reinforcement learning), openai o1 telah mencapai kemajuan signifikan dalam kemampuan penalaran. tim r&d mengamati bahwa dengan perpanjangan waktu pelatihan (peningkatan pembelajaran penguatan) dan waktu berpikir (perhitungan selama pengujian), kinerja model o1 secara bertahap meningkat. tantangan dalam menskalakan pendekatan ini berbeda dengan keterbatasan model bahasa besar (llm) sebelum pelatihan.

performa o1 terus meningkat seiring dengan penghitungan waktu pelatihan dan waktu pengujian, sumber: openai

mengenai rumor di pasar bahwa "model o1 dapat secara mandiri melakukan tugas tingkat operasi browser atau sistem untuk pengguna", informasi publik saat ini tidak menyebutkan fungsi ini.

pejabat openai mengatakan: "meskipun model awal ini belum memiliki fungsi seperti mencari informasi secara online, mengunggah file dan gambar, model ini telah membuat kemajuan yang signifikan dalam memecahkan masalah penalaran yang kompleks, yang mewakili tingkat teknologi kecerdasan buatan yang baru. jadi kami itu adalah memutuskan untuk memberikan seri ini titik awal baru dan menamainya openai o1.”penerapan utama o1 masih fokus pada menjawab pertanyaan dan menganalisis melalui interaksi teks, dibandingkan mengontrol browser atau sistem operasi secara langsung.

berbeda dengan versi sebelumnya,model o1 "berpikir secara mendalam" sebelum membuat jawaban seperti yang dilakukan manusia,dibutuhkan sekitar 10-20 detik untuk menghasilkan rangkaian panjang ide internal, dan mampu mencoba berbagai strategi dan mengidentifikasi kesalahan anda sendiri.

kemampuan penalaran yang kuat ini memberi o1 berbagai potensi penerapan di berbagai industri, terutama tugas-tugas ilmiah, matematika, dan pemrograman yang kompleks. saat menghadapi permasalahan fisika, kimia, dan biologi, kinerja o1 bahkan sebanding dengan mahasiswa doktoral di lapangan. pada international mathematical olympiad qualifying examination (aime), tingkat akurasi o1 sebesar 83% berhasil masuk dalam jajaran 500 siswa terbaik di amerika serikat, sedangkan tingkat akurasi model gpt-4o hanya sebesar 13%.

altman juga membagikan o1 di x, sumber: x

openai menyediakan beberapa kasus penggunaan khusus. misalnya, peneliti medis dapat menggunakan o1 untuk memberi anotasi pada data pengurutan sel; fisikawan dapat menggunakan o1 untuk menghasilkan rumus matematika kompleks yang diperlukan untuk pengembang perangkat lunak optik kuantum; lagi.

seri o1 mencakup tiga model, openai o1, openai o1-preview, dan openai o1-mini. kedua model tersedia untuk pengguna mulai hari ini:

bukaai o1: model inferensi tingkat lanjut, untuk sementara tidak dibuka untuk umum.

openai o1-pratinjau: versi ini lebih fokus pada pemrosesan penalaran yang mendalam dan dapat digunakan 30 kali per minggu.

openai o1-mini: versi ini lebih efisien dan hemat biaya, cocok untuk tugas coding dan dapat digunakan 50 kali per minggu.

pengembang dan peneliti kini dapat mengakses model ini melalui chatgpt dan antarmuka pemrograman aplikasi.

mengenai harga, the information sebelumnya menyampaikan berita bahwa eksekutif openai sedang mendiskusikan harga model besar baru "strawberry" dan "orion" sebesar us$2.000 per bulan, sehingga memicu banyak keluhan dan kecaman. namun hari ini seseorang mengetahui bahwa keanggotaan chatgpt pro sudah online, dengan harga us$200 per bulan. kesenjangan antara us$2.000 hingga us$200 membuat sulit untuk tidak merasa seperti "mengambil keuntungan". perang psikologis terhadap harga jelas-jelas dimainkan oleh openai.

pada bulan mei tahun ini,altman bertemu presiden mit sally kornbluthhal itu disebutkan dalam obrolan api unggun,gpt-5 dapat memisahkan data dari mesin inferensi.

“gpt-5 atau gpt-6 dapat menjadi mesin inferensi terbaik. saat ini, satu-satunya cara untuk mencapai mesin terbaik adalah dengan melatih data dalam jumlah besar.”namun faktanya, model tersebut membuang banyak sumber daya data saat memproses data.seperti gpt-4. ia juga berfungsi seperti database, hanya saja inferensinya lambat, mahal, dan "kurang dari ideal".masalah-masalah ini pada dasarnya adalah pemborosan sumber daya yang disebabkan oleh cara model dirancang dan dilatih.

“tidak dapat dihindari, ini adalah efek samping dari satu-satunya cara kita membuat model untuk mesin inferensi.” dia dapat memperkirakan pendekatan baru di masa depan,hal ini untuk memisahkan kemampuan penalaran model dari permintaan akan data besar.

namun dalam rilis hari ini, gpt-5 tidak muncul, dan gagasan untuk memisahkan data dan mesin inferensi juga hilang.

mengenai harga, the information sebelumnya menyampaikan kabar bahwa eksekutif openai berencana menetapkan harga model besar baru "strawberry" dan "orion" sebesar us$2.000 per bulan, yang memicu banyak keluhan dan kecaman. namun hari ini seseorang mengetahui bahwa keanggotaan chatgpt pro sudah online, dengan harga us$200 per bulan.

kesenjangan antara us$2.000 dan us$200 menyulitkan pengguna untuk tidak merasa bahwa mereka sedang mengambil keuntungan. perang psikologis terhadap harga jelas dimainkan oleh openai.

2. poles “rantai pemikiran”

model besar selalu dikritik karena "ketidakmampuannya menghitung".alasan mendasarnya adalah model besar kurang memiliki kemampuan melakukan penalaran terstruktur.

penalaran adalah salah satu kemampuan inti kecerdasan manusia.model besar terutama dilatih melalui data teks tidak terstruktur, yang biasanya mencakup artikel berita, buku, teks halaman web, dll. teks berbentuk bahasa alami dan tidak mengikuti aturan logis atau struktural yang ketat, jadi yang dipelajari model terutama adalah bagaimana menghasilkan bahasa berdasarkan konteks, bukan bagaimana bernalar secara logis atau memproses informasi mengikuti aturan tetap.

namun banyak tugas penalaran kompleks yang terstruktur.

seperti penalaran logis, pemecahan masalah matematika atau pemrograman. jika kita ingin keluar dari labirin, kita perlu mengikuti serangkaian aturan logis dan spasial untuk menemukan jalan keluar. jenis masalah ini mengharuskan model untuk dapat memahami dan menerapkan serangkaian langkah atau aturan tetap, yang merupakan kekurangan dari sebagian besar model besar.

oleh karena itu, meskipun model seperti chatgpt dan bard dapat menghasilkan jawaban yang tampaknya masuk akal berdasarkan data pelatihan, model tersebut sebenarnya lebih seperti "stochastic parroting".mereka seringkali tidak dapat benar-benar memahami logika kompleks di baliknya atau melakukan tugas-tugas penalaran tingkat lanjut.

ingat, model besar berperforma baik saat memproses teks bahasa alami tidak terstruktur, karena ini adalah fokus data pelatihan. namun ketika menyangkut tugas-tugas yang memerlukan penalaran logis terstruktur, tugas-tugas tersebut sering kali kesulitan untuk dilakukan dengan ketelitian seperti manusia.

untuk mengatasi masalah ini, openai berpikir untuk menggunakanrantai pemikiran (cot)datanglah untuk "menghancurkan situasi".

rangkaian pemikiran adalah teknologi yang membantu model ai berpikir. ia bekerja dengan membiarkan model menjelaskan setiap langkah proses penalaran langkah demi langkah ketika menjawab pertanyaan kompleks, bukan memberikan jawabannya secara langsung. oleh karena itu, ketika model menjawab suatu pertanyaan, ibarat manusia ketika memecahkan suatu masalah, terlebih dahulu memikirkan logika setiap langkahnya, kemudian secara bertahap menyimpulkan hasil akhirnya.

namun, dalam proses pelatihan ai, pelabelan rantai pemikiran secara manual memakan waktu dan mahal. jumlah data yang diperlukan berdasarkan panduan hukum penskalaan pada dasarnya merupakan tugas yang mustahil bagi manusia.

pada titik ini, pembelajaran penguatan menjadi alternatif yang lebih praktis.

pembelajaran penguatan memungkinkan model untuk belajar sendiri melalui praktik dan coba-coba. pembelajaran ini tidak memerlukan anotasi manual tentang cara mengambil setiap langkah. sebaliknya, pembelajaran ini mengoptimalkan metode pemecahan masalah melalui eksperimen dan umpan balik yang berkelanjutan.

secara khusus, model menyesuaikan perilakunya berdasarkan konsekuensi (baik atau buruk) dari tindakan yang diambilnya ketika mencoba memecahkan masalah. dengan cara ini, model dapat secara mandiri mengeksplorasi berbagai kemungkinan solusi dan menemukan metode paling efektif melalui trial and error. misalnya, dalam lingkungan game atau simulasi, ai dapat terus mengoptimalkan strategi melalui permainan mandiri, dan pada akhirnya mempelajari cara melakukan tugas kompleks secara akurat tanpa panduan manual untuk setiap langkah.

misalnya, alphago, yang melanda dunia go pada tahun 2016, menggabungkan metode pembelajaran mendalam dan pembelajaran penguatan, terus mengoptimalkan model pengambilan keputusannya melalui sejumlah besar permainan mandiri, dan akhirnya mampu mengalahkan pemain go top dunia lee sedol.

model o1 menggunakan metode yang sama seperti alphago untuk menyelesaikan masalah secara bertahap.

dalam proses ini, o1 terus meningkatkan proses berpikirnya melalui pembelajaran penguatan, belajar mengidentifikasi dan memperbaiki kesalahan, memecah langkah-langkah kompleks menjadi bagian-bagian yang lebih sederhana, dan mencoba metode baru ketika menemui kendala. metode pelatihan ini secara signifikan meningkatkan kemampuan penalaran o1 dan memungkinkan o1 memecahkan masalah dengan lebih efektif.

greg brockman, salah satu pendiri openai, "sangat bangga" akan hal ini, "ini adalah pertama kalinya kami melatih model menggunakan pembelajaran penguatan.katanya.

potongan tweet brockman, sumber: x

menurut brockman, model openai awalnya melakukan pemikiran sistem 1 (pengambilan keputusan yang cepat dan intuitif), sedangkan teknologi rantai pemikiran memulai pemikiran sistem 2 (pemikiran analitis dan hati-hati).

pemikiran sistem 1 cocok untuk respons cepat, sedangkan pemikiran sistem 2 menggunakan teknologi "rantai pemikiran" yang memungkinkan model bernalar dan memecahkan masalah langkah demi langkah. praktik telah menunjukkan bahwa melalui uji coba terus-menerus, performa model dapat ditingkatkan secara signifikan dengan melatih model secara menyeluruh dari awal hingga akhir (seperti saat diterapkan dalam game seperti go atau dota).

selain itu, meskipun teknologi o1 masih dalam tahap awal pengembangan, namun kinerjanya baik dalam hal keamanan. misalnya, model yang disempurnakan dapat digunakan untuk melakukan penalaran mendalam mengenai strategi guna meningkatkan ketahanannya terhadap serangan dan mengurangi risiko fenomena halusinasi. kemampuan penalaran yang mendalam ini sudah mulai menunjukkan hasil positif dalam penilaian keamanan.

"kami mengembangkan model baru berdasarkan model o1, membiarkannya berpartisipasi dalam kompetisi olimpiade internasional informatika (ioi) 2024, dan mencetak 213 poin di 49% peringkat."

ia berkompetisi dalam kondisi yang sama dengan kontestan manusia, memecahkan enam masalah algoritmik dengan masing-masing 50 peluang penyerahan. efektivitas strategi seleksinya ditunjukkan dengan menyaring beberapa kandidat dan memilih pengajuan berdasarkan kasus uji publik, kasus uji yang dihasilkan model, dan fungsi penilaian, dengan skor rata-rata lebih tinggi dibandingkan dengan pengajuan acak.

ketika jumlah pengiriman dikurangi menjadi 10.000 per pertanyaan, kinerja model lebih baik dan mendapat skor di atas standar emas. terakhir, model tersebut mendemonstrasikan kemampuan pengkodean yang "luar biasa" dalam simulasi kompetisi pemrograman codeforces. gpt-4o memiliki peringkat elo 808, yang menempatkannya pada persentil ke-11 di antara pesaing manusia. dan model baru kami memiliki peringkat elo 1807, mengungguli 93% pesaing.

penyempurnaan lebih lanjut meningkatkan kinerja model o1 dalam kompetisi pemrograman

2. “masa-masa sulit” openai

sebelum o1 dirilis, openai berada di bawah pengaruh perubahan dalam manajemen senior inti perusahaan.

pada bulan februari tahun ini, andrej karpathy, anggota pendiri openai dan seorang ilmuwan riset, mengumumkan di x bahwa dia telah keluar dari perusahaan. capas mengatakan dia meninggalkan openai secara baik-baik dan "bukan karena insiden, masalah, atau drama tertentu."

mantan kepala ilmuwan dan salah satu pendiri ilya sutskever mengumumkan pengunduran dirinya pada bulan mei, dan tim super alignment juga dibubarkan. industri percaya bahwa ini adalah keseimbangan openai antara mengejar terobosan teknologi dan memastikan keamanan ai.

dari kanan, ilya sutskvi, greg brockman, sam altman dan mira mulati. sumber: new york times

beberapa jam setelah pengumuman ilya, jan leike, salah satu penemu rlhf dan salah satu direktur tim super alignment, juga mengikuti jejaknya dan pergi, sekali lagi menambah ketidakpastian pada masa depan seks openai.

pada bulan agustus, salah satu pendiri openai dan ilmuwan riset john schulman mengungkapkan kepergiannya dan bergabung dengan anthropic untuk fokus pada penelitian mendalam tentang penyelarasan ai. ia menjelaskan kepergiannya adalah untuk fokus pada penyelarasan ai dan pekerjaan teknis, bukan karena openai tidak mendukung penelitian penyelarasan. schulman berterima kasih kepada rekan-rekannya di openai dan menyatakan "keyakinan penuh" terhadap perkembangannya di masa depan.

anthropic didirikan oleh saudara laki-laki dan perempuan dario amodei, wakil presiden penelitian openai, yang mengundurkan diri pada tahun 2020, dan daniela amodei, yang saat itu menjabat sebagai wakil presiden keamanan dan kebijakan.

brockman juga mengumumkan cuti panjang selama setahun di bulan yang sama, yang merupakan "liburan panjang pertamanya" sejak ikut mendirikan openai sembilan tahun lalu.

pada 10 september, alexis conneau, yang memimpin penelitian interaksi audio model openai gpt-4o dan gpt-5, mengumumkan pengunduran dirinya dan memulai bisnisnya sendiri yang didedikasikan untuk mewujudkan fitur-fitur yang ditampilkan dalam film "her" yang natural pengalaman interaksi suara, namun peluncuran produk terkait telah berulang kali ditunda.

sejak didirikan, openai telah menarik banyak perhatian karena status gandanya yaitu nirlaba dan komersialisasi. ketika proses komersialisasi semakin cepat, ketegangan internal mengenai misi nirlaba menjadi semakin jelas, yang juga berkontribusi pada berkurangnya anggota tim. sementara itu, gugatan elon musk baru-baru ini mungkin juga terkait dengan gesekan.

peneliti openai daniel kokotajlo mengatakan dalam sebuah wawancara eksklusif dengan media setelah pengunduran dirinya bahwa selama insiden "pertarungan istana" yang terjadi tahun lalu, altman dipecat sebentar dan kemudian dengan cepat diangkat kembali. ketiga anggota dewan yang berfokus pada keamanan agi anggota dicopot. “hal ini memungkinkan altman dan brockman untuk lebih mengkonsolidasikan kekuasaan, sementara mereka yang terutama peduli dengan keselamatan agi terpinggirkan. (altman) mereka menyimpang dari rencana perusahaan untuk tahun 2022.”

selain itu, openai diperkirakan menghadapi kerugian hingga 5 miliar dolar as dan biaya operasional hingga 8,5 miliar dolar as, yang sebagian besar merupakan biaya sewa server dan pelatihan. untuk mengatasi tekanan operasional yang tinggi, openai mencari putaran pendanaan baru dengan valuasi yang mungkin melebihi us$100 miliar, dan calon investor seperti microsoft, apple, dan nvidia telah menyatakan minatnya. para eksekutif perusahaan mencari investasi secara global untuk mendukung kebutuhan modal mereka yang berkembang pesat.

untuk mengurangi tekanan keuangan, openai sedang mencari putaran pendanaan baru. menurut laporan new york times pada tanggal 11, openai juga berharap dapat mengumpulkan sekitar us$1 miliar minggu lalu dengan penilaian sebesar us$100 miliar. namun, karena daya komputasi yang dibutuhkan untuk membangun sistem ai skala besar akan memerlukan biaya yang lebih besar, perusahaan baru-baru ini memutuskan untuk meningkatkan jumlah pembiayaannya menjadi us$6,5 miliar.

namun, beberapa media asing mengutip orang-orang yang mengetahui masalah ini dan analisis data keuangan internal yang dirahasiakan yang mengatakan bahwa openai mungkin menghadapi kerugian besar hingga 5 miliar dolar as tahun ini, dan total biaya operasional diperkirakan mencapai 8,5 miliar dolar as. diantaranya, biaya sewa server dari microsoft mencapai us$4 miliar, dan biaya pelatihan data sebesar us$3 miliar. tekanan finansial terhadap perusahaan semakin diperburuk dengan semakin tingginya biaya operasional model yang lebih canggih seperti strawberry dan orion.

(sumber gambar sampul: openai)

berita

openai merilis model o1 baru: model ini akan sama "bijaksananya" seperti manusia

perkenalan

informasi kontak saya