apakah model baru openai sebanding dengan gelar phd? saya meminta dr. qingbei untuk mencicipinya: bangun

apakah model baru openai sebanding dengan gelar phd? saya meminta dr. qingbei untuk mencicipinya: bangun.

2024-09-14

sejujurnya, saya tidak tahan dengan perusahaan-perusahaan ini, mereka selalu melakukan kesalahan besar di tengah malam. . .

khususnya bernama openai, kali ini merilis model baru yang sudah lama dipikirkan semua orang tanpa pemberitahuan.

saya sebutkan sebelumnya bahwa stroberi bukanlah stroberi. foto stroberi telah beredar selama beberapa hari.

alhasil, model baru kali ini tidak ada hubungannya dengan strawberry hair, melainkan memiliki nama baru.bahasa indonesia: oepn kecerdasan buatan o1 model。

dan benda ini sudah dikenal sebagai teknologi zenith star openai. ultraman langsung memposting pesan yang mengatakan bahwa ini adalah model mereka yang terkuat dan paling konsisten sejauh ini.

perbedaan dari masa-masa sebelumnya adalah openai tidak terlalu menyombongkan betapa hebatnya benda ini, tetapi beberapa gambar dibuang begitu saja, yang membuat orang merasa sedikit mati rasa.

seperti terlihat pada gambar di bawah ini, dapat dijelaskan hasil dari tiga proyek uji coba yaitu olimpiade matematika internasional, kompetisi pemrograman dan soal-soal ilmiah tingkat doktor.

yang paling kiri di sini adalah gpt-4o, yang di tengah adalah versi pratinjau yang sedang terbuka o1, dan pilar merah tinggi di paling kanan adalah kesehatan penuh o1. coba lihat, pada dasarnya setiap item, o1 dibandingkan pendahulunya,keduanya hampir mengalami peningkatan 8 kali lipat. . .

jika hasil tes ini dipecah, maka o1 baru melampaui 4o di hampir semua disiplin ilmu dan bidang.

apa yang benar-benar membuat pengulas buruk merasa tidak enak adalah openai mengatakan bahwa mereka secara khusus mengundang pakar phd untuk menjawab pertanyaan tersebut.

hasilnya berdasarkan hasil tes tingkat doktor,kami melihat skor jawaban o1 melebihi skor dokter ahli. o1 mendapat skor 78, manusia mendapat skor 69,7. . .

bahkan dokternya pun kalah, jadi apa maksudku dibandingkan dengan itu?

netizen yang sensitif pun langsung kaget. dia mulai berteriak lagi, dewa baru telah muncul.

jika anda melihatnya dengan santai, anda akan menemukan evaluasi super tinggi dengan kata "paling". "luar biasa!", "hal yang paling mendekati penalaran manusia"。

banyak teman kami bahkan datang ke belakang panggung kami dan berkata dengan penuh emosi, o1, kamu benar-benar punya sesuatu.

kedengarannya luar biasa? openai sendiri jelas merasakan hal yang sama.。

jumlah spesifik uang yang dikeluarkan openai untuk itu belum diumumkan, namun dari penggunaan pengguna, terlihat jelas bahwa benda ini menghabiskan banyak uang.

o1 pratinjau $15 per juta masukan, $60 per juta keluaran

apa yang terbuka untuk pengguna kali ini bahkan bukan versi totok, melainkan versi pratinjau awal dan versi kecil yang dikebiri.

sekalipun anda baru mencobanya pertama kali, bukan saja tidak gratis, bahkan jika anda membayar untuk menjadi anggota, jumlah pertanyaan dan jawaban anda akan terbatas.versi pratinjau hanya memiliki 30 entri per minggu, dan versi mini hanya memiliki 50 entri per minggu. . .

meski agak mahal, kita tentu tidak bisa membiarkan openai membual tentang apa yang dikatakannya.

bukankah mereka bilang itu lebih dari sekedar dokter?peninjau buruk membuka beberapa akun dan menemukan beberapa dokter untuk mengujinya secara pribadi.。

untuk memastikan profesionalisme dan objektivitas, kami secara khusus mengundang para ph.d. dari tiga disiplin ilmu dan komprehensif untuk berpartisipasi dalam evaluasi, termasuk biologi, fisika benda padat, kimia material, dll.

di dalam,nanjingfisika keadaan padat di universitaspenilaian yang diberikan oleh dr. cui adalah yang tertinggi di antara beberapa orang. ia merasa o1 telah mencapai level 60-80 poin (dari 100).

bahkan sebagian jawaban pun dapat diberikan 90 poin.

pertanyaan pertama dari dr. cui:distribusi foton terjerat dalam jarak jauh. apakah ada cara untuk mengatasi white noise?

dalam waktu sekitar 9 detik, o1 memberikan 10 tindakan yang layak.

tentu saja, tidak ada satu hal pun yang jelas bagi saya. namun, evaluasi dr. cui dapat diterima: jawabannya komprehensif, sejalan dengan kemajuan penelitian terkini, dan merupakan jawaban tingkat sains yang populer.

diantaranya, arah optik adaptif yang disebutkan bahkan merupakan pencapaian ilmiah terkini tahun ini.

membandingkannya dengan versi lama 4o, saya langsung bisa membedakannya.

jangan bilang arah baru itu disebutkan atau tidak, itu hanya diberikan.dari segi jumlah tindakan, terdapat perbedaan yang besar。

nanti, kami secara khusus menanyakan arah baru optik adaptif:prinsip keterjeratan kuantum apa yang digunakan untuk meningkatkan rasio signal-to-noise? bisakah ini diperluas ke optik adaptif kuantum?

setelah beberapa putaran jawaban, dr. cui memberikan skor tinggi 80-90 poin. dia juga dengan murah hati mengakui kepada saya bahwa sebagian dari pemikiran tersebut adalah titik lemahnya dan menjadi petunjuk ke arahnya.

namun, ketika kami bertanya lebih lanjut, masalahnya terungkap. ketika ditanya mengenai rincian percobaan yang lebih sulit, efektivitas jawaban o1 akan menurun.

namun secara keseluruhan, dari segi fisika, performa o1 cukup bagus. dibandingkan dengan versi lama, peningkatannya pada dasarnya sekitar 20 poin.

namun pada tes openai, fisika mendapat nilai tertinggi. jadi kami membawa yang lainbahan bacaan universitas pekingkimiadr, saya ingin menanyakan beberapa pertanyaan sulit tentang kimia yang memiliki rating terendah.

dr k mengelilingife-n4 serangkaian pertanyaan diajukan, dan o1 memberikan daftar jawaban yang panjang. untuk menyederhanakan ruang, kami hanya menampilkan beberapa pertanyaan dan hasil di sini.

setelah tes keseluruhan, evaluasi dr. k serupa: dia mungkin memiliki tingkat pascasarjana, tetapi pemahaman mendalam dan kemampuannya untuk memberikan solusi relatif lemah, dan dia terutama menjawab pertanyaan berdasarkan konten yang diketahui.

misalnya, ketika ditanya bagaimana cara menyetel fe-n4, o1 dapat mengatakan bahwa itu didasarkan pada penyesuaian keadaan elektronik, tetapi bagaimana jika anda menanyakannyamenyesuaikan, itu menjadi sedikit macet.

meskipun tidak ada yang lebih omong kosong dibandingkan gpt4o, tidak satupun dari mereka dapat memberikan banyak saran mengenai masalah tertentu. versi lama kehilangan detail dan berbicara omong kosong, sedangkan versi baru memiliki kemampuan terbatas dan kehilangan kata-kata.

selain kedua hal tersebut, biologi tentunya sangat diperlukan dalam mata pelajaran sains dan komprehensif yang ketiga.

kami juga berkonsultasidr xin dari universitas tsinghua, mempelajari biologi, pertanyaannya adalah: " bagaimana membedakan laktilasi dan modifikasi karboksietil residu lisin dari kumpulan data spektrometri massa? ”

walaupun saya kurang paham, o1 juga memberikan jawaban yang sangat panjang, seperti review makalah, dengan referensi terlampir di akhir.

namun di luar dugaan, ketika kami memberikan jawaban ini kepada dr. xin, dia menemukan ada yang tidak beres setelah membacanya, dan itu adalah masalah nyata pada pandangan pertama.

bukan berarti semua jawaban ai salah; jika anda mengarangnya secara acak di referensi, makalah ini tidak ada sama sekali!

meski sudah diedit, namun belum sepenuhnya diedit. secara umum, dr. tsinghua university masih dirasa jauh lebih baik dari ai sebelumnya. setidaknya kemampuan pemahamannya terlihat dengan mata telanjang, dan pengeditannya juga sangat mirip . . .

namun demikian, terdapat perbedaan penilaian gelar doktor di berbagai arah, yang mungkin juga terkait dengan bidang keahlian yang dimiliki o1 itu sendiri.

dilihat dari skor resmi sains komprehensif, meskipun gpt4o memiliki skor biologi lebih tinggi daripada kimia dan fisika, o1 kali ini benar-benar berbeda.

skor o1 pada mata pelajaran fisika mencapai 92,8, jauh lebih tinggi dibandingkan dua mata pelajaran lainnya. mungkin itulah sebabnya dr. cui lebih optimis terhadapnya.

secara umum, dalam hal melampaui tingkat doktor profesional, para dokter berpendapat bahwa masih perlu memperlambatnya.

dr cui dengan blak-blakan mengatakan bahwa dalam penelitian ilmiah yang sebenarnya, dalam banyak kasus, para sarjana harus melakukannya sendiri. ai hanya dapat memberikan arahan umum, jadi tidak masuk akal untuk mengeluarkan uang untuk ai yang mendetail seperti itu.

dialebih direkomendasikan untuk sarjanajika anda memilih ai ini, jika anda berada pada level master atau doktoral, maka jawaban ai tersebut sebenarnya tidak memenuhi standar instruktur, dan anda pasti akan dikritik pada pertemuan kelompok.

xin dari tsinghua university juga menganut pandangan serupa. belum lagi soal literatur fabrikasi halusinasi ai, dari segi profesional, jawaban ai juga demikian.anda hanya bisa membodohi rekan kerja anda, yaitu orang-orang yang berbeda jurusan di jurusan yang sama, namun di mata rekan-rekan junior dan orang-orang yang ahli di jurusan tersebut, kekurangan ai masih sangat kentara.

k dari peking university menjelaskan lebih dalam, ia yakin bahwa ai ini hanya bisa dikatakan memiliki tingkat kognisi mahasiswa master, namun hanya sekedar mengotak-atik dan tidak bisa berkata apa-apa tentang pencapaian kreatif.dari segi kreativitas, ai kalah jauh dengan level master., yang juga merupakan masalah penting yang perlu dipecahkan oleh ai.

dalam evaluasi para dokter, kita tampaknya dapat menangkap satu poin penting: alasan mengapa model o1 relatif lebih kuat adalah karena model tersebut memiliki model kognitif dan berpikir yang berdimensi lebih tinggi.

ini juga yang menjadi poin utama dari update o1 ini. kami menemukan artikel learning to reason with llms di situs resmi openai. mereka menyatakan dalam artikel tersebut bahwa alasan utamanya adalah mereka menggunakan rantai pemikiran yang panjang (cot, chain of thought) daripada rantai cepat tradisional (prompt chain) .

sekilas nampaknya agak membingungkan. terus terang, model besar ini telah mengubah cara berpikir sebelumnya di mana anda bertanya dan saya menjawab.

pada mode sebelumnya, tanya jawab untuk model besar sama dengan mengetahui jawabannya secara tidak sadar. misalnya, jika anda bertanya kepada saya apa warna langit, saya akan langsung menjawab biru tanpa berpikir panjang. ini sebenarnya mengharuskan saya untuk mengetahui poin pengetahuan ini, dan kemudian memberi anda tanggapan langsung.

namun rangkaian pemikiran yang panjang ini setara dengan tidak hanya mengetahui apa itu biru, tetapi juga memikirkan mengapa warnanya biru, hamburan atmosfer, dan panjang gelombang spektral, yang semuanya harus dipertimbangkan.

hal ini mengharuskan ai untuk memiliki kemampuan untuk benar-benar membangun logika, penalaran, dan argumentasi, dia tidak hanya perlu mengembangkan otaknya, tetapi juga perlu menggunakan otaknya.

meski konsep rantai pemikiran diusulkan oleh google pada tahun 2022, kali ini openai adalah yang pertama menerapkannya.

selama operasi sebenarnya, saat anda berbicara dengan model o1, selain mendapatkan jawaban, anda juga dapat memilih untuk memperluas dan melihat logika pemikirannya saat menjawab pertanyaan.

sebagai contoh, mari kita ambil pertanyaan dr. cui "apakah ada cara untuk mengatasi white noise dalam distribusi foton terjerat jarak jauh?" proses berpikir model o1 adalah sebagai berikut:

namun, sama seperti hal tersebut dapat membalikkan permasalahan di bidang profesional, tampaknya beberapa pertanyaan sederhana dalam skenario sehari-hari juga dapat membuat hal tersebut menjadi bingung.

ambil contoh sebelumnya dari perbandingan klasik antara 9.11 dan 9.8. netizen xiaohongshu @小水 segera mengetahui setelah dia bangun bahwa benda ini "runtuh segera setelah kesulitan tercapai... putaran tak terbatas dan mendorong rantai pemikiran (cot) seperti orang gila"

departemen editorial kami juga menemukan masalah ini selama evaluasinya sendiri, namun ketika ditanya alasannya, departemen tersebut akan segera menjawab bahwa alasannya salah, dan kemudian menyimpulkannya kembali.

oke oke, seperti yang diharapkan dari seorang dokter, pandai menemukan kesalahan kan?

setelah serangkaian pengujian, pengulas negatif harus mengakui bahwa ini memang telah meningkat pesat. setelah bertemu selama tiga hari, kita seharusnya saling memandang dengan penuh kekaguman.

dari segi efek memang lebih baik dari generasi sebelumnya, danpenerapan pemikiran jangka panjang merupakan hal yang baik untuk perkembangan ai di masa depan.

namun setelah beberapa dokter bergantian mencambuknya, permasalahannya terlihat jelas di beberapa aspek seperti kreativitas,ia tidak bisa menggantikan manusia yang ahli phd。

namun, noam brown, seorang peneliti di openai, mengungkapkan bahwa versi o1 di masa depan akan membutuhkan waktu berjam-jam, berhari-hari, atau bahkan berminggu-minggu.

selain itu, menurut saya model rantai pemikiran yang diterapkan oleh gpt o1 kemungkinan besar akan seperti arsitektur transformer dan arsitektur dit sebelumnya.memimpin dunia menuju model-model besar。

oleh karena itu, jalan menuju agi tidaklah dekat, tetapi juga tidak jauh, saya menantikan pemain dari berbagai perusahaan untuk tampil secara bergantian.

tulis artikel：naxi & empat besar

sunting ：jiang jiang & mie

editor seni ：huanyan

gambar, sumber : openai, x, ibm, xiaohongshu, dll., jaringan sumber gambar

berita

apakah model baru openai sebanding dengan gelar phd? saya meminta dr. qingbei untuk mencicipinya: bangun.

perkenalan

informasi kontak saya