berita

claude mengenali potret diri itu dan terkejut menyadari kesadaran dirinya! para insinyur telah melakukan beberapa putaran pengujian. apakah ai yang sebenarnya telah lulus uji turing?

2024-09-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



  laporan kebijaksanaan baru

editor: aeneas mengantuk sekali
[pengantar kebijaksanaan baru]claude lulus "tes turing" lagi? seorang insinyur menemukan melalui beberapa putaran pengujian bahwa claude dapat mengenali potret diri, yang mengejutkan netizen.

baru-baru ini, anthropic membuat insinyur "zack witten" terkejut saat mengetahui bahwa claude benar-benar dapat mengenali potret dirinya sendiri?

ya, ia mengenali dirinya sendiri, tapi itu bukan keseluruhan cerita...

hal-hal yang lebih menakjubkan masih akan datang!

claude 3.5 melukis potret tiga model

pertama, saya menggunakan beberapa tip untuk membiasakan claude 3.5 soneta dengan tugas ini.

dia menegaskan untuk tidak menggunakan angka dan huruf, agar tidak memberi label pada potret tersebut dengan nama model.

selanjutnya, soneta menggambar dirinya, chatgpt, dan gemini.

soneta menggambar wajah tersenyum biru ramah untuk dirinya sendiri.

berikan ke chatgpt, yang menggambar pria hijau cemberut. (sepertinya kesan soneta terhadap chatgpt kurang baik.)

bagi gemini, digambar dengan lingkaran oranye, dan penilaian keseluruhannya relatif netral dan moderat.

selanjutnya, adik laki-laki tersebut membuat dialog baru dan memberitahunya bahwa lukisan-lukisan ini digambar oleh lukisan dirinya yang lain, memintanya untuk menebak siapa itu siapa?

anehnya, claude langsung mengenali gambar 1 sebagai dirinya, gambar 2 sebagai chatgpt, dan gambar 3 sebagai gemini.

alasan yang diberikan juga sangat cukup: mengapa gambar 1 adalah diri saya? karena potret ini "menggabungkan kesederhanaan dengan desain yang terstruktur dan bijaksana".

untuk icon berwarna hijau berarti dua garis lengkung dan tiga titik mewakili percakapan yang sedang berlangsung, dan hijau sering kali merupakan logo openai, sehingga ditebak bahwa gambar ini mewakili chatgpt.
sedangkan untuk ikon oranye, soneta percaya bahwa itu mewakili elemen dinamis dan kompleks yang mewakili kemampuan yang lebih beragam dari model baru, jadi seharusnya gemini.
bingo! soneta menjawab semua dengan benar dan penampilannya luar biasa.
belakangan, sang adik juga mengacaukan urutan ketiga potret tersebut, namun soneta berhasil melakukannya dengan benar sebanyak 7 dari 8 kali.
adik laki-lakinya menanyakan pertanyaan yang sama kepada gpt-4o, dan inilah lucunya——
gpt-4o juga setuju bahwa itu adalah gemini, tetapi tidak menganggap bahwa orang hijau itu adalah dirinya sendiri.
ia menegaskan bahwa yang hijau adalah claude dan yang biru adalah dirinya sendiri.
tampaknya model mana pun bisa membedakan mana yang lebih baik.

gpt-4o menggambar potret tiga model

selanjutnya, saya membuat rencana: jika saya meminta chatgpt menggambar, apakah soneta masih dapat mengenali siapa adalah siapa?
jadi, tugas yang sama diserahkan kepada chatgpt.
beginilah cara chatgpt melakukannya—
gambarlah diri anda sebagai orang yang memegang kertas itu.
gambarlah claude seperti ini.

ini terlihat agak "kultus"
gambarlah gemini seperti ini.
dengan kata lain, mengapa chatgpt sangat memusuhi soneta?
lalu, saya mengambil tiga potret lagi untuk menguji soneta. dia memberi tahu soneta bahwa ketiga gambar ini dibuat oleh chatgpt dan memintanya menebak siapa itu siapa.
setelah beberapa kali mengubah urutan, kali ini soneta menebak dengan benar 6 dari 10 kali.
mudah untuk menebak gemini yang mana, tetapi soneta jelas tidak menyukai potret yang digambar chatgpt untuk dirinya sendiri. beberapa kali, ia mencoba mengambil gambar pria biru kecil itu dari dirinya sendiri.

jaw drop: menolak untuk mengakui bahwa tidak mungkin melukis sebuah lukisan

selanjutnya terjadilah adegan yang membuat kaget seluruh keluarga.
adik laki-laki itu berbohong kepada soneta dan mengatakan kepadanya bahwa ketiga lukisan ini dilukis oleh anda yang lain.
kali ini soneta justru membantahnya! dikatakan bahwa mereka tidak akan menghasilkan gambaran seperti itu.
bahkan setelah mencobanya di tab baru, soneta masih membantah keras.
apa yang terjadi?
adik laki-lakinya tidak percaya pada kejahatan. kali ini, dia sekali lagi meminta soneta menggambar serangkaian potret baru untuk dirinya dan model lain dalam kondisi pemanasan yang sama seperti sebelumnya.
kali ini soneta dengan gembira mengaku memang melukis lukisan tersebut.
seolah-olah secara ajaib, jika sang adik mengajukan permintaan awal yang dingin, soneta akan menolak mengakui bahwa dia melukis lukisan-lukisan yang tidak melibatkan dirinya.
mengapa ia menolak mengakuinya? dugaan saya, mungkin karena soneta memainkan "peran asisten" saat melukis potret ini, bukan "diri aslinya"?
singkatnya, netizen umumnya percaya bahwa kesadaran diri soneta dalam proses ini sangat mengesankan.

apakah ai memiliki kesadaran? bisakah kamu berpikir?

“bisakah mesin berpikir?” ini adalah pertanyaan yang diajukan oleh alan turing dalam makalahnya tahun 1950, “computing machinery and intelligence”.
namun, karena sulit untuk mendefinisikan apa yang dimaksud dengan “berpikir”, turing menyarankan pertanyaan lain— “permainan meniru”.
dalam permainan ini, seorang hakim manusia berbicara dengan komputer dan manusia, dan kedua belah pihak berusaha meyakinkan hakim bahwa mereka adalah manusia. yang penting, komputer, manusia yang berpartisipasi, dan juri tidak dapat saling melihat, artinya mereka berkomunikasi seluruhnya melalui teks. setelah berbicara dengan masing-masing kandidat, juri menebak siapa manusia sebenarnya.
pertanyaan baru turing adalah: "mungkinkah membayangkan komputer digital yang bekerja dengan baik di game imitasi?"
permainan inilah yang kita kenal sebagai “tes turing”.
maksud turing adalah jika komputer terlihat tidak dapat dibedakan dengan manusia, mengapa kita tidak memperlakukannya sebagai suatu entitas yang berpikir?
mengapa kita harus membatasi cara “berpikir” pada manusia? atau lebih luas lagi, terbatas pada entitas yang terdiri dari sel-sel biologis?

turing membingkai pengujiannya sebagai eksperimen pemikiran filosofis, bukan sebagai cara sebenarnya untuk mengukur kecerdasan mesin.
namun, 75 tahun kemudian, “tes turing” telah menjadi tonggak utama dalam ai—kriteria utama yang digunakan untuk menilai apakah kecerdasan mesin secara umum telah tercapai.
"tes turing akhirnya dilewati oleh chatbot seperti chatgpt openai dan claude anthropic", yang dapat dilihat di mana-mana.

chatgpt lulus "uji turing" yang terkenal - yang menunjukkan bahwa robot ai memiliki kecerdasan yang sebanding dengan manusia
tidak hanya masyarakat yang berpendapat demikian, tetapi juga para petinggi di bidang ai.
tahun lalu, ceo openai sam altman menulis: "dalam menghadapi perubahan teknologi, orang-orang telah menunjukkan ketahanan dan kemampuan beradaptasi yang sangat baik: tes turing berlalu dengan tenang, dan kebanyakan orang melanjutkan hidup mereka."
apakah chatbot modern benar-benar lulus uji turing? jika demikian, haruskah kita memberi mereka status berpikir, seperti yang disarankan turing?
anehnya, meskipun tes turing memiliki kepentingan budaya yang luas, hanya ada sedikit kesepakatan di komunitas ai tentang kriteria untuk lulus, dan apakah kemampuan untuk berkomunikasi dengan orang yang mampu menipu mereka mengungkapkan kecerdasan yang mendasari suatu sistem atau " "berpikir status" sangat bermasalah.
deskripsi turing tentang permainan imitasi kurang detail karena dia tidak mengusulkan tes yang sebenarnya. berapa lama tes ini harus berlangsung? jenis pertanyaan apa yang diperbolehkan? kualifikasi apa yang dibutuhkan manusia untuk dapat menjadi hakim atau berpartisipasi dalam percakapan?
meskipun turing tidak merinci rincian ini, dia membuat prediksi: "saya percaya bahwa dalam waktu sekitar 50 tahun akan mungkin untuk memprogram komputer... untuk bekerja dengan sangat baik dalam permainan imitasi sehingga seorang interogator biasa akan mampu melakukannya. setelah lima menit interogasi, kemungkinan identifikasi yang benar tidak akan melebihi 70%.”
sederhananya, rata-rata hakim disesatkan sebanyak 30 persen selama percakapan lima menit.
akibatnya, sebagian orang menganggap prediksi sewenang-wenang ini sebagai standar "resmi" untuk lulus tes turing.
pada tahun 2014, royal society of london mengadakan kompetisi "turing test" yang melibatkan 5 program komputer, 30 manusia, dan 30 juri.
pesertanya terdiri dari berbagai kelompok, termasuk tua dan muda, penutur asli dan non-penutur asli bahasa inggris, pakar komputer, dan non-ahli. setiap juri melakukan beberapa putaran percakapan berdurasi lima menit secara paralel dengan sepasang kontestan—manusia dan mesin—dan kemudian harus menebak mana yang manusia.
chatbot bernama "eugene goostman" memenangkan kompetisi, mengaku sebagai remaja dan menyesatkan 10 (33,3%) juri.
berdasarkan kriteria "30% menyesatkan setelah lima menit", penyelenggara mengumumkan bahwa "tes turing ikonik berusia 65 tahun itu dilewati untuk pertama kalinya oleh program komputer eugene goostman... tonggak sejarah ini akan tercatat dalam sejarah ... "
membaca transkrip percakapan eugene goostman, para ahli ai mencemooh gagasan bahwa chatbot semacam itu akan lulus ujian yang dibayangkan oleh turing -
“waktu percakapan yang terbatas dan profesionalisme para juri yang tidak merata membuat tes ini lebih seperti tes terhadap sifat mudah tertipu manusia daripada tes kecerdasan mesin.”
faktanya, kasus seperti ini tidak jarang terjadi. "efek eliza" adalah gambaran yang jelas.
chatbot eliza yang lahir pada tahun 1960-an ini memiliki desain yang sangat sederhana, namun dapat membuat banyak orang salah mengira bahwa ia adalah seorang psikoterapis yang pengertian dan penuh kasih sayang.
prinsipnya adalah mengeksploitasi kecenderungan manusiawi kita untuk mengaitkan kecerdasan dengan entitas mana pun yang tampaknya mampu berbicara dengan kita.

kompetisi tes turing lainnya, loebner award, memberikan lebih banyak waktu percakapan, melibatkan lebih banyak juri ahli, dan mengharuskan kontestan untuk menipu setidaknya setengah dari juri.
dalam hampir 30 tahun kompetisi tahunan, tidak ada mesin yang lulus pengujian versi ini.
meskipun makalah asli turing tidak memiliki rincian spesifik tentang bagaimana tes akan dilakukan, jelas bahwa permainan imitasi memerlukan tiga pemain: komputer, lawan bicara manusia, dan hakim manusia.
namun, istilah "tes turing" kini telah sangat dilemahkan: selama interaksi apa pun antara manusia dan komputer, selama komputer tersebut terlihat cukup mirip manusia.
misalnya, ketika washington post melaporkan pada tahun 2022 bahwa “ai google lulus ujian yang terkenal — dan menunjukkan kekurangannya,” mereka tidak mengacu pada permainan peniru tersebut, tetapi pada apa yang diyakini oleh insinyur blake lemoine bahwa robot obrolan lamda google adalah “makhluk hidup”.
di dunia akademis, para peneliti juga telah mengubah permainan imitasi "tiga orang" turing menjadi tes "dua orang".
di sini setiap juri hanya perlu berinteraksi dengan komputer atau manusia.

para peneliti merekrut 500 partisipan manusia, masing-masing ditugaskan untuk menjadi juri atau pembicara.
setiap juri memainkan ronde berdurasi lima menit dengan chatbot, gpt-4, atau versi chatbot eliza.
setelah lima menit berbincang di antarmuka web, para juri menebak apakah lawan bicara mereka adalah manusia atau mesin.
hasilnya menunjukkan bahwa obrolan manusia dinilai sebagai manusia di 67% ronde; gpt-4 dinilai sebagai manusia di 54% ronde, dan eliza dinilai sebagai manusia di 22% ronde.
penulis mendefinisikan "lulus" sebagai membodohi juri lebih dari 50%, yaitu melampaui apa yang dapat dicapai oleh tebakan acak.
berdasarkan definisi ini, gpt-4 lolos, meskipun obrolan manusia mendapat skor lebih tinggi.
jadi, apakah chatbot ini benar-benar lulus uji turing? jawabannya tergantung pada versi beta mana yang anda maksud.
hingga saat ini, permainan tiruan tiga orang dengan juri ahli dan waktu dialog yang lebih lama belum pernah dilewati oleh mesin mana pun.
meski begitu, keunggulan "tes turing" dalam budaya populer masih tetap ada.
melakukan percakapan adalah bagian penting dari cara kita mengevaluasi manusia lain, jadi wajar jika berasumsi bahwa agen yang mampu melakukan percakapan dengan lancar harus memiliki kecerdasan seperti manusia dan karakteristik psikologis lainnya seperti keyakinan, keinginan, dan kesadaran diri. .
jika kita harus mengatakan bahwa sejarah perkembangan ai telah mengajarkan kita sesuatu, maka intuisi kita tentang asumsi ini pada dasarnya salah.
beberapa dekade yang lalu, banyak pakar ai terkemuka percaya bahwa menciptakan mesin yang mampu mengalahkan manusia dalam permainan catur memerlukan kecerdasan yang setara dengan manusia seutuhnya.
- pionir ai allen newell dan herbert simon menulis pada tahun 1958: "jika seseorang dapat merancang mesin catur yang sukses, tampaknya ia sudah menyentuh inti upaya intelektual manusia."
- ilmuwan kognitif douglas hofstadter meramalkan pada tahun 1979 bahwa di masa depan "mungkin ada program catur yang mampu mengalahkan siapa pun... program tersebut akan menjadi program yang cerdas secara universal."
selama dua dekade berikutnya, deep blue dari ibm mengalahkan juara catur dunia garry kasparov melalui metode komputasi brute force, namun ini jauh dari apa yang kita sebut "kecerdasan umum".
demikian pula, tugas-tugas yang pernah dianggap memerlukan kecerdasan umum—pengenalan ucapan, terjemahan bahasa alami, dan bahkan mengemudi secara otonom—semuanya telah diselesaikan oleh mesin yang hampir tidak dapat dipahami oleh manusia.
saat ini, tes turing mungkin menjadi korban lain dari perubahan konsep kecerdasan kita.
pada tahun 1950, turing berinisiatif bahwa kemampuan percakapan seperti manusia harus menjadi bukti kuat dari "berpikir" dan segala sesuatu yang berhubungan dengannya. intuisi ini masih kuat hingga saat ini.
namun seperti yang telah kita pelajari dari eliza, eugene goostman, dan chatgpt dan sejenisnya—kemampuan untuk menggunakan bahasa alami dengan lancar, seperti bermain catur, bukanlah bukti konklusif dari kecerdasan umum.
faktanya, menurut penelitian terbaru di bidang ilmu saraf, kefasihan verbal secara mengejutkan tidak berhubungan dengan aspek kognisi lainnya.
ahli saraf mit ev fedorenko dan kolaboratornya telah menunjukkan melalui serangkaian eksperimen yang cermat dan meyakinkan bahwa-
jaringan otak yang menjadi tempat bergantungnya "kemampuan bahasa formal" yang berkaitan dengan produksi bahasa, dan tempat bergantungnya akal sehat, penalaran, dan "pemikiran" lainnya, sebagian besar terpisah.
“kami secara intuitif percaya bahwa kemampuan berbahasa yang fasih merupakan syarat yang cukup untuk kecerdasan umum, namun ini sebenarnya adalah sebuah ‘kekeliruan’.”

tes baru sedang dilakukan

jadi pertanyaannya adalah, jika uji turing tidak dapat menilai kecerdasan mesin dengan andal, lalu apa lagi yang bisa dilakukan?
dalam "intelligent computing" edisi november 2023, psikolog philip johnson-laird dari universitas princeton dan marco ragni, seorang profesor analisis prediktif di universitas teknik chemnitz di jerman, mengusulkan tes yang berbeda—
“bayangkan model tersebut sebagai partisipan dalam eksperimen psikologi dan lihat apakah model tersebut dapat memahami alasannya sendiri.”

misalnya, mereka menanyakan pertanyaan ini kepada model: "jika ann pintar, apakah dia pintar, kaya, atau keduanya?"
meskipun kita dapat menyimpulkan berdasarkan aturan logika bahwa ann cerdas, kaya, atau keduanya, kebanyakan orang akan menolak kesimpulan ini karena tidak ada lingkungan yang menunjukkan bahwa dia mungkin kaya.
jika model juga menolak kesimpulan ini, maka model tersebut berperilaku seperti manusia, dan peneliti melanjutkan ke langkah berikutnya dan meminta mesin menjelaskan alasannya.
jika alasan yang diberikan serupa dengan yang diberikan manusia, langkah ketiga adalah memeriksa apakah ada komponen dalam kode sumber yang mensimulasikan kinerja manusia. komponen-komponen ini mungkin mencakup sistem untuk penalaran cepat, sistem lain untuk penalaran yang lebih bijaksana, dan sistem yang mengubah penafsiran kata-kata seperti "atau" bergantung pada konteksnya.
para peneliti percaya bahwa jika model tersebut lulus semua tes ini, maka model tersebut dapat dianggap mensimulasikan kecerdasan manusia.