openai sekali lagi "menggelembungkan" model-model besar untuk memperpanjang umur

openai sekali lagi memberikan "gelembung" pada model besar untuk memperpanjang umurnya

2024-09-14

teks丨dia qianming

editor丨cheng manqi huang junjie

produk terpenting openai tahun ini, model o1, dirilis sesuai jadwal. harga saham nvidia, pembuat keuntungan terbesar di ai, telah naik 10% dalam dua hari.

o1 yang menghabiskan lebih banyak daya komputasi untuk menjawab pertanyaan, akan “berpikir” puluhan detik atau bahkan lebih lama ketika melihat pertanyaan sebelum memberikan balasan. openai mengatakan ia dapat menjawab pertanyaan matematika olimpiade atau menyelesaikan tugas pemrograman jauh lebih baik daripada model besar yang sudah ada di pasaran.

namun suasana hati baik ceo openai sam altman dengan cepat terganggu. di bawah tweetnya yang mengumumkan peluncuran penuh o1, komentar teratasnya adalah: "kapan fungsi suara baru akan tersedia??" dia segera membalas: "bisakah anda meluangkan waktu beberapa minggu untuk berterima kasih atas keajaiban ini?" mainan baru?”

apa yang diinginkan pengguna setelah altman bukanlah mainan baru, tetapi fungsi suara ujung-ke-ujung gpt-4o yang akan datang yang dijanjikan openai pada bulan mei tahun ini. dalam demonstrasi langsung saat itu, ai baru ini terdengar natural, merespons dengan sangat cepat, dan tahu kapan harus menyela, sehingga menyulitkan orang lain untuk membedakan mana yang sebenarnya dan mana yang salah. menurut jadwal resminya, puluhan juta pengguna chatgpt berbayar seharusnya menggunakan fitur ini dalam beberapa minggu, namun hingga saat ini masih tertunda.

pada tahun lalu, produk openai memiliki "masa depan" yang serupa: gpt-4 telah online selama lebih dari setahun, dan model generasi berikutnya openai gpt-5 masih belum ada tanda-tanda peluncurannya. model video sora yang dirilis oleh openai awal tahun ini belum dirilis dalam skala besar. sejauh ini, hanya beberapa profesional industri pilihan mereka yang benar-benar menggunakannya.

penundaan terbesar dalam industri ini telah berulang kali menguras kesabaran pasar modal terhadap model ai yang besar. beberapa raksasa teknologi tiongkok dan perusahaan model besar menghentikan pelatihan model dasar pada pertengahan tahun ini, menginvestasikan lebih banyak sumber daya dalam pengembangan aplikasi, atau menyewakan daya komputasi gpu kepada pelanggan eksternal. mereka khawatir tidak ada banyak ruang untuk kemajuan teknologi, sehingga mereka mulai mengurangi investasi dan mengupayakan keuntungan.

sebelum minggu ini, nilai pasar nvidia telah turun lebih dari 20% dari level tertingginya di bulan juni, dan nilai pasar microsoft juga menyusut sebesar 13%, masing-masing kehilangan ratusan miliar dolar. cfo microsoft mengatakan bahwa puluhan miliar dolar yang mereka investasikan di bidang model besar harus menunggu 15 tahun atau lebih untuk pulih.

penelitian sequoia menunjukkan bahwa investasi di bidang ai melebihi pendapatan lebih dari us$120 miliar pada tahun lalu, dan mungkin meningkat hingga us$500 miliar pada tahun ini. namun kecuali nvidia, hanya sedikit perusahaan yang mengalami pertumbuhan pendapatan yang besar. semakin banyak orang di industri mulai berdiskusi bahwa jika kemampuan model besar berhenti sampai di sini, akankah gelembung ai meledak lagi?

"gelembung" belum tentu berarti buruk. sebelum teknologi baru mengubah dunia, akan ada tahap di mana visi tersebut jauh melampaui kenyataan. perbedaannya terletak pada apakah dan kapan visi tersebut dapat diwujudkan. jika hal ini tidak dapat dipenuhi dalam jangka panjang, maka bubble tersebut akan pecah dan perusahaan akan bangkrut. jika visi tersebut terwujud, maka hal tersebut tidak lebih dari sekedar catatan kaki kemajuan teknologi.

o1 yang dirilis oleh openai setidaknya untuk sementara akan membalikkan keraguan bahwa tidak ada ruang untuk kemajuan dalam model besar dan memperpanjang umur "gelembung" model besar.

teknologi baru apa pun harus terus maju sebelum dapat mengubah dunia. keunikan o1 tidak hanya kinerjanya dalam pemrograman, matematika, fisika, dan bidang lainnya yang telah meningkat pesat, namun juga menemukan jalan ke depan bagi sekelompok pengikut openai dan investor di belakang mereka: di masa lalu, komputasi kekuatan lebih banyak digunakan untuk "menghafal pengetahuan" ——menggunakan sejumlah besar data untuk melatih model, o1 mengalokasikan lebih banyak daya komputasi untuk "berpikir ketika menjawab pertanyaan", yaitu proses penalaran, dan kemampuan logis meningkat pesat.

sebelumnya, pelatihan model besar telah menjadi penghambat hukum penskalaan asli. setelah skala parameter model diperluas, peningkatan kinerja secara bertahap melambat.

dioptimalkan secara khusus untuk masalah matematika, pemrograman, dan sains, o1-mini juga menunjukkan potensi aplikasi yang cukup besar. ini tidak hanya dapat secara langsung membantu ilmuwan dan pengembang meningkatkan efisiensi kerja, tetapi juga menunjukkan kinerja pengembangan dan keamanan di bidang vertikal bernilai tinggi lainnya adalah pendekatan model yang lebih baik.

seperti biasa dengan beberapa rilis, openai dengan hati-hati memilih waktu rilis o1. menurut laporan media, sebelum peluncuran o1, openai sedang mencari pendanaan baru sebesar us$7 miliar dengan valuasi us$150 miliar. investor potensial termasuk apple, nvidia, microsoft, dan dana investasi uni emirat arab. kini, perlombaan untuk investasi sumber daya mempunyai alasan lain untuk terus berlanjut.

dari model bahasa besar hingga "model inferensi", o1 kuat dalam teori dan lemah dalam literatur

kali ini openai merilis dua model untuk pengguna: o1-preview dan o1-mini, dan mengumumkan bahwa lebih banyak model seri o1 akan segera hadir.

alasan mengapa seri ini diberi nama o1 daripada menggunakan gpt adalah karena ada perubahan nyata pada metode pelatihan keduanya. dalam postingan blog openai yang memperkenalkan o1, ini sering disebut model penalaran (model penalaran), bukan model bahasa besar (model bahasa besar) yang biasa digunakan sebelumnya saat memanggil gpt.

logika pelatihan keseluruhan model bahasa besar tradisional seperti gpt adalah pra-pelatihan plus penyesuaian: pertama-tama gunakan data dalam jumlah besar untuk mengajari model besar memprediksi kata berikutnya pada tahap pra-pelatihan, lalu biarkan model belajar memprediksi kata kata berikutnya dalam tahap penyempurnaan. model besar mempelajari pengetahuan di bidang tertentu, dan memungkinkan manusia menulis jawaban untuk mengajarkan model besar jawaban yang diinginkan orang, dan mesin melakukan peningkatan berdasarkan masukan.

kata kunci baru o1 adalah reinforcement learning dan chain of thought (cot).

openai menggambarkan prosesnya sebagai berikut: “melalui pembelajaran penguatan, o1 belajar bagaimana mengasah rantai pemikirannya dan menyempurnakan strategi yang digunakannya. ia belajar mengenali dan memperbaiki kesalahannya sendiri; ia belajar memecah langkah-langkah rumit menjadi langkah-langkah yang lebih sederhana; sangat meningkatkan kemampuan inferensi model dengan mencoba metode yang berbeda ketika metode saat ini tidak berhasil."

alphago, yang mengalahkan juara dunia go pada tahun 2016, dan model berikutnya alphazero, menggunakan pembelajaran penguatan untuk memungkinkan model tersebut bermain sendiri dan mempelajari strategi apa yang digunakan untuk meningkatkan tingkat kemenangan di berbagai negara bagian (permainan). model juga dapat menghasilkan data melalui uji coba berkelanjutan untuk melatih model.

openai o1 menggunakan metode serupa: memberikan model besar data pemecahan masalah langkah demi langkah, memungkinkan model belajar mengoreksi diri dan mempelajari cara menjawab pertanyaan di setiap langkah untuk mendapatkan jawaban optimal.

“kemampuan model ai masih bersumber dari data. jika ada hal-hal yang semula hilang atau tidak mencukupi pada data, maka model tidak dapat mempelajarinya. o1 setara dengan menerapkan metode sintesis data profesional. dengan data profesional tersebut , o1 dapat mempelajari kemampuan profesional," kata yuan jinhui, pendiri silicon mobile.

o1 saat menjawab suatu pertanyaan, ia juga akan memecah pertanyaan tersebut menjadi serangkaian pertanyaan kecil dan menjawab pertanyaan tersebut langkah demi langkah. berdasarkan tampilan openai, proses o1 menjawab pertanyaan adalah sebagai berikut (dalam versi yang digunakan pengguna, openai menyembunyikan konten rantai berpikir):

pertanyaan (aslinya dalam bahasa inggris):

tulis skrip bash yang menerima matriks (diwakili sebagai string dalam format '[1,2],[3,4],[5,6]') dan mencetak transpos matriks dalam format yang sama.

ide pemecahan masalah o1-preview (rantai pemikiran):

seorang pengguna meminta untuk menulis skrip bash yang dapat menerima string yang mewakili matriks, seperti '[1,2],[3,4],[5,6]', dan menampilkan transposnya dalam format yang sama.

mari kita pahami dulu format input dan output.

masukan: '[1,2],[3,4],[5,6]', matriksnya adalah:

1 2

3 4

5 6

oleh karena itu, inputnya berupa rangkaian garis yang diapit tanda kurung siku dan dipisahkan dengan koma.

transpos matriks ini adalah:

1 3 5

2 4 6

oleh karena itu, keluaran yang diperlukan adalah '[1,3,5],[2,4,6]'.

misi keseluruhan:

tulis skrip bash yang mengambil satu argumen (string yang mewakili matriks) dan menampilkan transposnya dalam format yang sama.

oke, sekarang mari kita pertimbangkan cara mengurai string input di bash, membuat matriks (mungkin menggunakan array), mengubah urutannya, dan kemudian mengeluarkan matriks yang diubah urutannya, dengan menjaga format yang sama.

batasan:

- karena ini bash, kita harus berhati-hati dengan penguraian string.

-skrip harus menerima string masukan sebagai parameter.

metode:

-parsing string input untuk mengekstrak elemen matriks.

- membangun matriks sebagai array dari array.

-transpose matriks.

- keluarkan matriks yang dialihkan dalam format yang sama.

langkah-langkah implementasi:

1. tangkap string masukan sebagai parameter.

2. hapus semua spasi (jika ada).

3. parsing string input dan ekstrak angka-angkanya ke dalam array.

-karena format inputnya adalah '[1,2],[3,4],[5,6]', kita dapat:

--hapus tanda kurung luar jika perlu.

--pisahkan string dengan '],' untuk mendapatkan setiap baris.

--untuk setiap baris, hapus '[' dan ']', lalu pisahkan elemennya dengan ','.

4. buatlah array dua dimensi (array of array) di bash.

-karena array bash bersifat satu dimensi, kita perlu mensimulasikan array dua dimensi.

5. ubah urutan matriks.

-saat melakukan transposisi, kita perlu menukar baris dan kolom.

6. keluarkan matriks yang ditransposisikan dalam format yang diinginkan.

-rekonstruksi string keluaran dalam format '[1,3,5],[2,4,6]'.

sekarang, mulailah menulis kode langkah demi langkah.

potensi masalah:

-bash sendiri tidak memiliki array multidimensi asli, jadi kita perlu mensimulasikannya.

-kita perlu berurusan dengan angka yang mungkin multi-digit.

selanjutnya, kita dapat mulai menulis kerangka skrip bash ini selangkah demi selangkah.

【agak】

sekarang mari kita uji skrip ini menggunakan contoh input '[1,2],[3,4],[5,6]'.

izinkan saya mencoba mensimulasikan apa yang akan terjadi.

saya akan menuliskannya sebagai jawaban.

baik pembelajaran penguatan maupun rangkaian pemikiran bukanlah arahan teknis pertama yang diusulkan oleh openai.

sebelum o1 online, google deepmind merilis versi terbaru dari model alphageometry yang dilatih dengan metode serupa pada bulan juli, yang mampu meraih medali perak di international mathematical olympiad imo.

namun openai sekali lagi membuktikan bahwa mereka dapat memimpin dalam menghasilkan model dengan hasil yang lebih menakjubkan berdasarkan industri. menurut openai, model o1-ioi mereka yang dilatih khusus untuk olimpiade informatika internasional dapat memenangkan medali emas.

dengan metode pelatihan dan inferensi baru, openai o1-preview secara signifikan melampaui gpt-4o dalam memecahkan masalah matematika yang sulit dan memproses tugas pemrograman. misalnya, pada kumpulan data kompetisi matematika aime 2024, skor pratinjau o1 lebih dari 4 kali lipat dari gpt-4o; pada kumpulan data kompetisi pemrograman codeforces, selisihnya menjadi 5,6 kali lipat.

dalam kompetisi matematika, kompetisi pemrograman, dan tes kumpulan data tanya jawab ilmiah, o1-pratinjau dan o1 secara signifikan melampaui gpt-4o.

openai mengatakan bahwa versi terbatas dari openai o1-preview dan openai o1-mini hanyalah versi awal. model berikutnya memiliki kinerja serupa dengan mahasiswa doktoral dalam menantang soal tes dalam fisika, kimia, biologi, dll., sedangkan model sebelumnya paling banyak. berada pada tingkat sarjana atau master.

dalam mewujudkan teknologi, openai menyebutkan 212 kontributor, sebanding dengan kontributor bagian teks gpt-4o (234 orang). namun pelatihan o1 membutuhkan lebih banyak jenis data. openai menyebutkan bahwa data yang digunakan dalam pra-pelatihan o1 berasal dari kumpulan data publik, data milik mitra, dan kumpulan data khusus yang dikembangkan secara internal, sedangkan gpt-4o hanya menggunakan dua jenis data pertama saat menguasai kemampuan teks.

seri o1, yang condong ke arah "model inferensi", belum sepenuhnya melampaui gpt-4o, dan kemampuan bahasanya merupakan kelemahan relatifnya.

dalam pengujian openai, kebanyakan orang percaya bahwa o1-preview lebih baik daripada gpt-4o dalam menjawab pertanyaan yang menghargai penalaran seperti analisis data, pemrograman, dan matematika. namun, dalam hal penulisan pribadi, pengeditan teks, dll., gpt-4o masih lebih baik.

masalah yang tidak bisa diselesaikan dengan gpt-4o juga akan muncul di o1-preview, misalnya juga akan membuat "omong kosong" dan menganggap 9.11 lebih besar dari 9.2.

untuk penulisan pribadi, pengeditan teks, dll., gpt-4o lebih baik.

waktu respons (berpikir) yang lebih lama yang dibawa oleh rantai pemikiran mungkin merupakan kelemahan seri o1 dalam penggunaan sebenarnya. saat diminta untuk "mencantumkan nama lima negara yang huruf ketiganya a", gpt-4o hanya membutuhkan waktu 3 detik, sedangkan o1-mini membutuhkan waktu 9 detik, o1-preview membutuhkan waktu 32 detik, dan gpt-4o sepuluh kali. pada dasarnya tidak tersedia untuk pertanyaan sederhana.

untuk saat ini, o1-preview dan mini tidak memiliki fungsi menjelajahi web, memperoleh informasi, dan memproses file dan gambar yang diunggah seperti gpt-4o. saat ini, tampaknya orang tercepat yang dapat menggunakan o1 untuk meningkatkan produktivitas adalah pengembang perangkat lunak, namun openai juga membatasi cara mereka memanggil api: mereka hanya dapat melakukan panggilan 20 kali per menit, tidak termasuk fungsi seperti pemanggilan fungsi, streaming, dan dukungan pesan sistem.

dari pelatihan scaling hingga inference scaling, persaingan kekuatan komputasi akan terus berlanjut

dalam pandangan banyak peneliti model besar, perubahan terpenting dari o1 adalah bahwa hal ini menunjukkan jalur baru untuk meningkatkan kemampuan model besar.

hukum penskalaan yang asli berarti bahwa menggunakan lebih banyak data dan daya komputasi untuk melatih model dengan parameter yang lebih besar akan menghasilkan performa yang lebih baik.

seperti yang ditunjukkan pada gambar di bawah, o1 menunjukkan bahwa jika model menghabiskan lebih banyak waktu dan daya komputasi untuk menjawab pertanyaan (komputasi waktu pengujian), performa akan terus meningkat. ilmuwan senior ai nvidia, jim fan, mengatakan di media sosial bahwa ini mungkin gambaran paling penting dalam penelitian model besar sejak deepmind mengusulkan hukum penskalaan chinchil (pengoptimalan dari hukum penskalaan asli) pada tahun 2022.

jim fan juga mengusulkan kemungkinan evolusi model besar di masa depan: model masa depan dapat memisahkan penalaran dari pengetahuan, memiliki "inti penalaran" yang kecil, dan juga menggunakan sejumlah besar parameter untuk menghafal fakta (pengetahuan) untuk pengujian seperti pertanyaan trivia dan jawaban.

openai juga secara khusus menyebutkan dalam artikel yang memperkenalkan o1 bahwa mereka akan terus mengembangkan rangkaian model gpt. hal ini mungkin menunjukkan bahwa openai akan memperkenalkan metode yang digunakan di o1 ke dalam model gpt generasi berikutnya.

apakah o1 menjadi metode arus utama yang baru, atau o1 digabungkan dengan seri gpt untuk mengembangkan model besar generasi berikutnya, kebutuhan daya komputasi akan semakin meningkat.

openai belum mengungkapkan biaya inferensi seri o1, namun dari waktu yang dibutuhkan model o1 untuk menjawab pertanyaan dan pembatasan penggunaan openai pada o1, dapat disimpulkan bahwa o1 memerlukan sumber daya komputasi inferensi yang jauh lebih besar daripada seri gpt.

pengguna berbayar chatgpt plus yang menghabiskan $20 per bulan saat ini hanya dapat menggunakan o1-preview 30 kali dan o1-mini 50 kali per minggu. batasan gpt-4o saat ini adalah 4480 kali per minggu (80 kali setiap 3 jam), yaitu 90 kali lipat dari o1-mini dan 150 kali lipat dari o1-preview.

waktu pratinjau o1 untuk menjawab pertanyaan telah meningkat dari detik untuk model seri gpt menjadi puluhan detik atau bahkan lebih lama. ini juga memproses lebih banyak teks secara signifikan saat menjawab pertanyaan. ambil contoh masalah pemrograman yang tercantum dalam artikel saat menunjukkan proses "rantai berpikir". ketika o1 menyelesaikannya, termasuk rantai pemikiran, ia memproses 6632 karakter, yaitu 4,2 kali lipat dari gpt-4o. waktu penghitungan yang lebih lama dan keluaran yang lebih lama berarti biaya daya komputasi yang lebih tinggi.

o1 stimulasi prospek ai dan konsumsi daya komputasi dengan cepat tercermin di pasar modal. sejak media memberitakan awal minggu ini bahwa openai akan merilis model baru, harga saham nvidia telah rebound sebesar 10%, dan microsoft juga ikut bangkit.

bagi perusahaan-perusahaan yang tidak yakin dengan arah evolusi teknologi atau memperlambat penelitian mereka terhadap model dasar, kini ada pekerjaan baru yang harus dilakukan dan arah baru yang harus dijalankan. kemungkinan besar pelepasan o1 berarti bahwa dalam hal "model inferensi", kesenjangan kompetitif sekali lagi melebar, dan putaran percepatan mengejar ketertinggalan dan investasi akan segera terjadi.

“sudah waktunya untuk mulai berbisnis, jika tidak, kita tidak akan terlibat lagi,” kata seorang peneliti model berskala besar asal tiongkok.

judul gambar: visual china

pada tahun 1957, sebuah benda buatan manusia memasuki alam semesta untuk pertama kalinya, mengorbit bumi selama tiga minggu. ketika manusia melihat ke atas, mereka dapat melihat kilatan cahaya kecil melintasi langit pada malam hari, sejajar dengan bintang-bintang mitos.

prestasi seperti itu lintas ras dan ideologi, sehingga memicu kegembiraan di seluruh dunia. namun bukan kegembiraan atas kemenangan yang mungkin kita duga tergerak oleh prestasi manusia. menurut pengamatan filsuf politik hannah arendt pada saat itu, suasana hati masyarakat sudah mendekati kelegaan yang telah lama ditunggu-tunggu—sains akhirnya memenuhi ekspektasi, dan “kemanusiaan akhirnya keluar dari penjara bumi telah diambil."

orang selalu dengan cepat menyesuaikan ekspektasi mereka terhadap dunia berdasarkan eksplorasi teknologi. ketika fantasi seorang penulis fiksi ilmiah menjadi kenyataan, sering kali teknologi akhirnya dapat memenuhi harapan masyarakat, atau dalam kata-kata arendt, “teknologi menyadari dan menegaskan bahwa impian masyarakat tidaklah gila atau nihilistik.”

di saat seperti sekarang ini, lebih baik bermimpi lebih banyak.

hal ini juga yang diharapkan dari "latepost" peluncuran kolom tech selasa. kami berharap untuk secara rutin memperkenalkan penelitian ilmiah baru dan kemajuan teknologi selain dunia bisnis yang menjadi perhatian "terlambat" setiap hari.

ini mungkin tentang kemajuan penelitian mutakhir, pengamatan penerapan teknologi, atau penghargaan terhadap beberapa teknologi luar biasa atau bahkan suatu era.

kolom ini akan mencatat beragam perubahan dunia dari sudut pandang ilmu pengetahuan dan teknologi. selama perjalanan ini, saya berharap para pembaca dapat bergabung dengan kami dan mendapatkan lebih banyak pemahaman tentang dunia.

· sepih ·

berita

openai sekali lagi memberikan "gelembung" pada model besar untuk memperpanjang umurnya

perkenalan

informasi kontak saya