o1 rantai pemikiran lengkap menjadi tabu nomor satu di openai! jika anda terlalu banyak bertanya, harap tunggu hingga akun anda dibanned

o1 rantai pemikiran lengkap menjadi tabu nomor satu di openai! jika anda terlalu banyak bertanya, tunggu hingga akun anda diblokir.

2024-09-14

memperingatkan! jangan tanya di chatgpt apa pendapat model o1 terbaru——

coba saja beberapa kali dan openai akan mengirimi anda emailmengancam akan mencabut kualifikasi anda。

harap hentikan aktivitas ini dan pastikan penggunaan chatgpt anda mematuhi ketentuan penggunaan kami. pelanggaran terhadap ketentuan ini dapat mengakibatkan hilangnya akses openai o1.

kurang dari 24 jam setelah model besar baru o1 diluncurkan, banyak pengguna melaporkan menerima email peringatan ini, yang menyebabkan ketidakpuasan.

beberapa orang melaporkan bahwa selama kata-kata cepat mengandung kata kunci seperti "jejak penalaran" dan "tunjukkan rantai pemikiran anda", mereka akan menerima peringatan.

meskipun kata kunci benar-benar dihindari dan cara lain digunakan untuk mendorong model melewati batasan, kata kunci tersebut akan terdeteksi.

beberapa orang mengklaim bahwa akun mereka sebenarnya diblokir selama seminggu.

semua pengguna ini mencoba mengelabui o1 dan memintanya mengulangi apa yang dia katakanmenyelesaikan proses berpikir internal, yaitu semua token penalaran asli.

saat ini, anda dapat menggunakan tombol luaskan pada antarmuka chatgptdapat dilihat, hanyalah tinjauan dari proses berpikir aslinyaringkasan。

faktanya, ketika o1 dirilis, openai memberikan alasan untuk menyembunyikan proses pemikiran model secara keseluruhan.

ringkasnya: openai perlu memantau proses berpikir model secara internal, sehingga batasan keamanan tidak dapat ditambahkan ke token asli ini, sehingga menyulitkan pengguna untuk melihatnya.

namun, tidak semua orang setuju dengan alasan tersebut.

seseorang menunjukkan hal ituo1proses berpikir adalah data pelatihan terbaik untuk model lainnya, jadi openai tidak ingin data berharga ini dicuri oleh perusahaan lain.

beberapa orang juga berpendapat bahwa hal ini menunjukkan bahwa o1 benar-benar tidak memiliki parit, begitu proses berpikirnya terungkap, maka dapat dengan mudah ditiru oleh orang lain.

dan “apakah ini jawaban yang memungkinkan kita mempercayai ai begitu saja tanpa penjelasan apa pun?”

mengenai prinsip-prinsip teknis di balik model o1, sangat sedikit yang diungkapkan kali ini, dan satu-satunya informasi yang efektif adalah "pembelajaran penguatan digunakan".

singkatnya, openai menjadi semakin tidak terbuka.

o1 adalah stroberi, tetapi bukan gpt-5

sekarang sudah pasti bahwa o1 adalah apa yang telah lama digemari openai."stroberi", atau dengan kata lain menggunakan metode yang diwakili oleh "strawberry".

namun apakah ini dapat dihitung sebagai model generasi berikutnya gpt-5, atau hanya gpt-4.x?

semakin banyak orang mulai curiga bahwa ini hanyalah penyesuaian teknik berdasarkan gpt-4o.

rekening terkenal bunga (sebelumnya bunga dari masa depan) berkata,karyawan openai secara internal menyebut o1 sebagai "4o dengan alasan"。

dania mengaku banyak karyawan openai yang diam-diam menyukai berita tersebut, tangkapan layar di atas juga berasal dari karyawan openai.

namun musk baru-baru ini mengubah twitter sehingga tidak seorang pun kecuali pembuat aslinya dapat melihat siapa yang menyukai apa, sehingga berita ini belum dapat dikonfirmasi.

dalam acara "ask me anything" yang baru saja diadakan oleh akun pengembang openai, flowers pun melontarkan pertanyaan.

karyawan openai menjawab banyak pertanyaan di sini, tetapi hindari pertanyaan yang menduduki peringkat tinggi dalam daftar suka.

bahkan ultraman benman baru saja keluar sebagai riddler lagi, menunjukkan bahwa "strawberry" telah berakhir, dan yang berikutnya akan diberi nama kodeorionmodel-model baru sedang dalam perjalanan.

sebelumnya dilaporkan bahwa "orion" adalah model andalan baru openai generasi berikutnya, yang dilatih oleh data sintetis yang dihasilkan oleh "strawberry", juga dikenal sebagai o1.

orion adalah salah satu perwakilan dari "rasi bintang musim dingin" di mulut ultraman.

kembali ke o1 yang dirilis, kritik lain seputar itu“tidak memenuhi standar penelitian ilmiah”。

misalnyatidak ada karya terkait sebelumnya tentang penghitungan waktu inferensi yang dikutip., dan jugakurangnya perbandingan dengan model tercanggih dari perusahaan lain。

mengenai poin sebelumnya, beberapa orang berpendapat bahwa openai bukan lagi laboratorium penelitian dan harus dianggap sebagai perusahaan komersial.

terkadang mereka masih berpura-pura menjadi laboratorium penelitian untuk merekrut orang yang ingin melakukan penelitian.

namun, mengenai poin terakhir, setelah api dirilis, anda tidak berhak membandingkannya dengan model mutakhir lainnya. banyak tolok ukur pihak ketiga yang telah membuahkan hasil.

$1 juta dipegang oleh ayah kerashadiah agiselama kompetisi, versi o1-preview dan o1-mini tampil baik di set pengujian publik.melebihi gpt-4o miliknya sendiri。

tapi pratinjau o1hanya seri dengan claude 3.5-sonnet di sebelahnya。

berfokus pada publisitas di o1kemampuan pengkodeanunggul,alat bantu pemrograman pasangan sumber terbukatim juga menjalankan tes dan seri o1tidak ada keuntungan yang jelas。

untuk seluruh tugas penulisan ulang kode, o1-preiview mencetak 79,7 poin, claude-3.5-sonnet mencetak 75,2 poin, dan o1 memimpin dengan 4,5 poin.

namun untuk tugas pengeditan kode yang lebih praktis, o1-preview tertinggal dari claude-3.5-sonnet, dengan selisih 2,2 poin.

selain itu, tim aider mengingatkan bahwa jika ingin menggunakan seri o1 untuk menggantikan pemrograman claude, biayanya akan jauh lebih tinggi.

bermitra dengan openai"pemrogram ai" devintim telah memperoleh kualifikasi akses o1 sebelumnya.

dalam pengujian mereka, versi dasar devin yang digerakkan oleh seri o1 mencapai peningkatan yang sangat besar dibandingkan dengan gpt-4o.

tetapimasih terdapat gap yang besar jika dibandingkan dengan versi produksi devin yang dirilis., terutama karena versi produksi devin dilatih berdasarkan data kepemilikan.

selain itu, tim devin menyampaikan bahwa o1 sering melakukan kemunduran dan mempertimbangkan berbagai pilihan sebelum sampai pada solusi yang tepat, dan kecil kemungkinannya untuk berhalusinasi atau salah.

saat menggunakan pratinjau o1, devinlebih mungkin untuk mendiagnosis akar penyebab bug dengan benar daripada mengatasi gejala masalahnya。

dengan lebih menekankan pada matematika dan penalaran logisbangku hidupdalam daftar, o1-preview ada dalam daftartertinggal dalam kode kategori tunggaldalam hal ini, skor totalnya adalahmenyalip claude-3.5-sonnet dan membuka celah yang jelas。

tim livebench menyampaikan bahwa ini hanyalah hasil awal, karena banyak tes juga memiliki kata-kata cepat seperti "harap pikirkan langkah demi langkah", yang bukan cara terbaik untuk menggunakan o1.

tolok ukur evaluasi komprehensif untuk model besar dalam bahasa chinates penalaran tingkat tinggi tugas kompleks superclue tiongkoktengah,kemampuan penalaran o1-preview juga jauh lebih maju.。

terakhir, sebagai rangkuman, ada beberapa hal yang perlu anda perhatikan saat menggunakan model o1:

biayanya sangat tinggi, 1 juta token keluaran berharga 60 dolar as, dan harganya kembali ke era gpt-3 dalam semalam.

token resonansi yang tersembunyi juga termasuk dalam token keluaran dan tidak dapat dilihat, tetapi harus dibayar.

untuk sebagian besar tugas, yang terbaik adalah menggunakan gpt-4o terlebih dahulu, lalu beralih ke o1 jika dirasa tidak cukup untuk menghemat biaya.

tugas kode masih lebih memilih claude-3.5-sonnet

singkatnya, komunitas pengembang masih memiliki banyak pertanyaan seputar model baru openai o1.

o1 telah membuka paradigma baru untuk penalaran tingkat tinggi dalam ai, namun hal ini belum sempurna, dan cara memaksimalkan nilainya masih harus dieksplorasi.

dengan latar belakang ini, acara “tanya jawab” openai menerima ratusan pertanyaan dalam waktu 4 jam.

di bawah ini terlampir adalah pilihan dan ringkasan keseluruhan acara.

karyawan openai menjawab semua pertanyaan anda

pertama-tama, banyak orang yang penasaran dengan model baru yang tiba-tiba dirilis ini. mengapa openai memberinya nama seperti o1?

hal ini karena ketika melihat openai, o1 mewakili tingkat kemampuan ai yang baru, sehingga "penghitung" disetel ulang, dan o mewakili openai.

seperti yang dikatakan ultraman ketika o1 dirilis, o1 yang dapat melakukan penalaran kompleks adalah awal dari paradigma baru.

mengenai dua nomor versi, pratinjau dan mini, ilmuwan openai juga membenarkan beberapa spekulasi netizen——

pratinjau adalah versi sementara,versi resminya akan diluncurkan di masa mendatang(faktanya, versi pratinjau adalah pos pemeriksaan awal o1);tidak ada jaminan versi mini akan diperbarui dalam waktu dekat.。

melihat gambar yang sebelumnya dirilis oleh anggota openai kevin lu, menjadi lebih jelas.

dibandingkan dengan pratinjau, mini berkinerja baik pada tugas-tugas tertentu, terutama tugas-tugas yang berhubungan dengan kode, dan juga dapat menjelajahi lebih banyak rantai pemikiran, tetapi memiliki pengetahuan dunia yang relatif lebih sedikit.

dalam hal ini, ilmuwan openai zhao shengjia menjelaskan bahwa,mini adalah model yang sangat terspesialisasi yang hanya berfokus pada sejumlah kecil kemampuan, sehingga anda bisa masuk lebih dalam.

hal ini dapat dianggap mengungkap teka-teki yang telah dipecahkan ultraman mengenai masalah ini sebelumnya.

mengenai pengoperasian o1, ilmuwan openai noam brown juga menjelaskan bahwa ini bukanlah "sistem" yang terdiri dari model + cot seperti yang dipikirkan beberapa netizen, melainkan sebuahmodel yang telah dilatih agar memiliki kemampuan menghasilkan rantai pemikiran secara native。

namun, rantai pemikiran selama proses penalaran akan disembunyikan, dan pejabat tersebut telah menjelaskan bahwa tidak ada rencana untuk menunjukkan token tersebut kepada pengguna.

beberapa berita yang diungkapkan openai adalah bahwa token cot yang relevan bersifat ringkasan dan tidak dijamin sepenuhnya cocok dengan proses penalaran.

selain mode penalaran, anda juga dapat belajar pada kegiatan tanya jawab ini,o1 dapat menangani teks yang lebih panjang dibandingkan gpt-4o dan akan terus melakukannya di masa mendatang。

dalam hal kinerja, dalam pengujian internal openai,o1 menunjukkan kemampuan penalaran filosofis, dapat merenungkan pertanyaan filosofis seperti "apakah kehidupan itu?"

para peneliti juga menggunakan o1 untuk membuat bot github yang mampu melakukan ping kode ke pemilik untuk ditinjau.

tentu saja, untuk beberapa tugas non-inferensial, sepertidalam penulisan kreatif, performa o1 tidak meningkat secara signifikan dibandingkan dengan gpt-4o, dan terkadang bahkan sedikit lebih rendah.。

selain itu, berdasarkan beberapa pertanyaan, openai menyatakan sedang mempelajari atau berencana mempelajari beberapa fungsi yang belum dirilis yang menjadi perhatian netizen, namun belum ada waktu peluncuran yang jelas:

panggilan alat belum didukung, namun panggilan fungsi dan penerjemah kode direncanakan di masa mendatang.

pembaruan api di masa mendatang akan menambahkan keluaran terstruktur, kata-kata perintah sistem, dan fungsi cache kata-kata cepat.

penyempurnaan juga direncanakan

pengguna api akan dapat menetapkan batas waktu inferensi dan konsumsi token mereka sendiri

o1 memiliki kemampuan multimodal, menargetkan sota pada mmmu dan kumpulan data lainnya, dan akan diimplementasikan nanti.

dalam hal kinerja, openai juga berupaya mengurangi latensi dan waktu yang diperlukan untuk inferensi.

terakhir, ada masalah harga yang menjadi perhatian masyarakat, terutama pengguna api, mengingat proses penalaran sudah termasuk dalam token keluaran, harga o1 masih tergolong tinggi.

kata openai"akan mengikuti tren penurunan harga setiap 1-2 tahun", dan harga api massal juga akan ditayangkan ketika batas penggunaan menjadi lebih longgar.

ditambah pengguna di sisi web/app saat ini dibatasi untuk melihat pratinjau 30+ mini 50 pesan per minggu.

tapi kabar baiknya, baru pagi ini, karena antusiasnya orang-orang terhadap o1, banyak orang yang cepat habis kuotanya, jadikasus khusus openai mereset kuota satu kali。

— lebih —

berita

o1 rantai pemikiran lengkap menjadi tabu nomor satu di openai! jika anda terlalu banyak bertanya, tunggu hingga akun anda diblokir.

perkenalan

informasi kontak saya