berita

openai o1 mengungkapkan kesadaran diri? tao zhexuan terkejut dengan tes sebenarnya, mensa iq 100 menduduki peringkat pertama dalam model tersebut

2024-09-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

openai o1 memenangkan tempat pertama dalam tes iq!

boss maxim lott melakukan tes iq pada o1, claude-3 opus, gemini, gpt-4, grok-2, llama-3.1, dll, dan hasilnya menunjukkan bahwa o1 menduduki peringkat pertama.

mengikuti di belakangnya adalah claude-3 opus dan bing copilot, yang masing-masing menempati posisi kedua dan ketiga.

perhatikan bahwa kumpulan soal tes iq ini adalah tes iq offline untuk anggota mensa dan tidak disertakan dalam data pelatihan ai apa pun, sehingga hasilnya sangat informatif.

matematikawan terkenal terence tao juga melakukan pengukuran aktual pada o1 dan menemukan bahwa setelah dia mengajukan pertanyaan matematika yang tidak jelas kepada model tersebut, model tersebut berhasil mengidentifikasi teorema clem.

yang lebih kebetulan lagi, tepat setelah o1 dirilis, mark chen, wakil presiden penelitian openai, menyatakan pendapatnya: jaringan saraf besar saat ini mungkin sudah memiliki daya komputasi yang cukup untuk menunjukkan kesadaran dalam pengujian.

saat ini terdapat banyak sekali pemimpin industri yang percaya bahwa ai mempunyai kesadaran, termasuk namun tidak terbatas pada -

geoffrey hinton (bapak baptis kecerdasan buatan, ilmuwan ai yang paling banyak dikutip)

ilya sutskever (ilmuwan ai ketiga yang paling banyak dikutip)

andrej karpati

saat ini, banyak orang di industri percaya bahwa ai sadar dan menunggu “overton window” terbuka lebih jauh agar masyarakat bersedia menerimanya.

bahkan ada yang memperkirakan pada tahun 2024/2025 ai pasti akan memiliki kesadaran, karena perilaku modelnya kini jelas menunjukkan kemampuan persepsi.

beberapa netizen menemukan bahwa o1 tidak hanya kuat dalam mata pelajaran stem empiris, bahkan dapat membuat hipotesis teori kesadaran yang benar-benar baru.

beberapa orang merasa bahwa o1 telah mengambil langkah kecil menuju model penalaran tak terbatas dan sudah memiliki prototipe kesadaran.

tao zhexuan: o1 sebenarnya bisa mengenali teorema clem

dalam pengukuran sebenarnya, tao zhexuan menemukan bahwa model o1 memiliki performa matematika yang lebih kuat!

pertama, dia mengajukan masalah matematika dengan rumusan samar-samar yang dapat diselesaikan jika dia dapat mencari literatur dan menemukan teorema yang sesuai, teorema cramer.

pada percobaan sebelumnya, gpt mampu menyebutkan beberapa konsep terkait, namun detailnya semuanya dibuat-buat dan tidak ada artinya.

kali ini o1 berhasil mengidentifikasi teorema cramer dan memberikan jawaban yang memuaskan.

jawaban lengkap: https://shorturl.at/wwru2

pada contoh berikut, permasalahan yang diajukan adalah analisis fungsi variabel kompleks yang lebih menantang, dan hasilnya juga lebih baik dibandingkan model seri gpt sebelumnya.

dengan banyaknya kata-kata dan panduan yang cepat, o1 mampu menghasilkan solusi yang tepat dan dinyatakan dengan baik, namun kekurangannya adalah ia tidak mampu menghasilkan ide-ide konseptual utama sendiri dan membuat kesalahan yang nyata.

tao zhexuan menggambarkan pengalaman ini kira-kira setara dengan membimbing seorang mahasiswa pascasarjana dengan kemampuan rata-rata tetapi mampu melakukan beberapa pekerjaan. gpt memberikan kesan seorang mahasiswa yang sama sekali tidak mampu melakukan pekerjaan tersebut.

mungkin hanya diperlukan satu atau dua iterasi, ditambah dengan integrasi alat lain, seperti paket aljabar komputer dan alat bantu pembuktian, untuk mengubah model o1 menjadi "mahasiswa pascasarjana yang kompeten", yang pada saat itu model ini akan memainkan peran penting. dalam tugas penelitian.

jawaban lengkap: https://shorturl.at/zrjyk

geser ke atas dan ke bawah untuk melihat

geser ke atas dan ke bawah untuk melihat

geser ke atas dan ke bawah untuk melihat

pada percobaan ketiga, tao zhexuan meminta model o1 untuk memformalkan teorema dalam alat asisten pembuktian lean. teorema tersebut perlu didekomposisi menjadi sub-lemma dan diberikan ekspresi formal, tetapi tidak diperlukan pembuktian.

isi teorema tersebut, khususnya, adalah akibat wajar yang membentuk suatu bentuk teorema bilangan prima menjadi bentuk teorema bilangan prima lainnya.

hasil eksperimennya juga bagus, karena model memahami tugas dan memberikan dekomposisi awal masalah yang masuk akal.

namun, ada beberapa kesalahan dalam kode yang dihasilkan, mungkin karena kurangnya data terbaru tentang lean dan perpustakaan matematikanya dalam data pelatihan.

walaupun masih terdapat kekurangan, namun hasil percobaan ini sudah dapat memprediksi penerapan praktis o1 dalam penelitian matematika.

jika model serupa disesuaikan untuk lean dan mathlib dan diintegrasikan ke dalam lingkungan pengembangan terintegrasi (ide), model tersebut akan memainkan peran besar dalam proyek formal.

dalam banyak pidato sebelumnya, tao zhexuan telah berulang kali menekankan penerapan alat ai dalam formalisasi teorema. tampaknya prediksi dewa agung akan kembali menjadi kenyataan.

jawaban lengkap: https://shorturl.at/ogtjt

profesor ilmu komputer menggunakan animasi untuk mengungkap rahasianya: bagaimana o1 menghabiskan lebih banyak waktu untuk berpikir?

dalam proses o1 belajar menggunakan cot untuk berpikir dalam jangka waktu yang lebih lama, terobosan penting apa yang telah dilakukan yang menghasilkan perbaikan penting? saat ini kami hanya dapat menebak-nebak dari informasi yang tersedia.

misalnya, berdasarkan informasi yang ada dan pemahamannya sendiri, tom yeh, seorang profesor komputer di universitas colorado boulder, secara khusus membuat animasi untuk menjelaskan bagaimana openai melatih model o1 agar menghabiskan lebih banyak waktu untuk berpikir.

mengenai pelatihan, ada kalimat yang sangat singkat dalam laporan tersebut:

“melalui pembelajaran penguatan, o1 belajar mengasah rantai pemikirannya dan meningkatkan strateginya.”

dua kata kunci dalam kalimat ini adalah: pembelajaran penguatan (rl) dan rantai pemikiran (cot).

di rlhf+cot, token cot juga dimasukkan ke dalam model penghargaan untuk mendapatkan skor guna memperbarui llm guna mencapai keselarasan yang lebih baik, sedangkan di rlhf tradisional, masukan hanya berisi kata-kata cepat dan respons model.

selama fase inferensi, model belajar menghasilkan token cot terlebih dahulu (yang dapat memerlukan waktu hingga 30 detik) sebelum mulai menghasilkan respons akhir. beginilah cara model menghabiskan lebih banyak waktu untuk "berpikir".

di antara kontributor yang tercantum dalam laporan ini, ada dua yang patut diperhatikan:

ilya sutskever, penemu pembelajaran penguatan berdasarkan umpan balik manusia (rlhf), munculnya namanya berarti rlhf masih digunakan saat melatih model o1.

jason wei, penulis makalah rantai pemikiran yang terkenal. dia meninggalkan google brain tahun lalu untuk bergabung dengan openai. kehadirannya berarti cot kini menjadi bagian penting dalam proses penyelarasan rlhf.

namun, ada banyak detail teknis penting yang belum diungkapkan openai, seperti cara model penghargaan dilatih, cara mendapatkan preferensi manusia untuk "proses berpikir", dll.

penafian: animasi ini hanya mewakili spekulasi wajar profesor dan tidak menjamin keakuratan.

tim berbagi video perayaan, berbagi momen “aha”.

video di bawah ini memberi kita lebih banyak petunjuk tentang momen ketika terobosan penting dilakukan dalam penelitian.

setelah merilis model o1, tim merilis video yang dibuat oleh tim dibaliknya.