berita

Setelah ChatGPT, tonggak utama kecerdasan buatan mengalami kemunduran

2024-08-19

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Laporan Jantung Mesin

Editor: Zenan, Asia Oriole

Perilaku antropomorfik model-model besar memberi kita efek lembah yang luar biasa.

Tes Turingadalah ujian yang buruk karena keterampilan percakapan dan penalaran adalah hal yang sangat berbeda. ” Dalam beberapa hari terakhir, pandangan baru menjadi populer di kalangan AI.


Sekarang kita berada di era AI generatif, standar kita dalam mengevaluasi kecerdasan harus berubah.


“Bisakah mesin berpikir?” Ini adalah pertanyaan yang diajukan oleh Alan Turing dalam makalahnya tahun 1950, “Computing Machinery and Intelligence”. Turing dengan cepat menunjukkan bahwa, mengingat sulitnya mendefinisikan "berpikir", pertanyaan tersebut "tidak ada artinya dan tidak layak untuk didiskusikan". Seperti yang biasa terjadi dalam perdebatan filosofis, ia menyarankan untuk menggantinya dengan pertanyaan lain.


Turing membayangkan sebuah "permainan imitasi" di mana hakim manusia berbicara dengan komputer dan manusia (foil), dengan kedua belah pihak berusaha meyakinkan hakim bahwa mereka benar-benar manusia.


Yang penting, komputer, foil, dan juri tidak dapat saling memandang, dan mereka berkomunikasi sepenuhnya melalui teks. Setelah berbicara dengan masing-masing kandidat, juri menebak siapa manusia sebenarnya.


Pertanyaan baru Turing adalah: "Apakah ada komputer digital yang bisa unggul dalam Permainan Imitasi?"



Tautan kertas:

https://academic.oup.com/mind/article/LIX/236/433/986238?login=false

Permainan yang diusulkan oleh Turing ini, yang sekarang dikenal luas sebagai tes Turing, digunakan untuk menyangkal intuisi yang tersebar luas bahwa "karena sifat mekanis komputer, mustahil untuk berpikir pada tingkat prinsip."


Maksud Turing adalah ini: Jika komputer secara perilaku tidak dapat dibedakan dari manusia (kecuali penampilan dan karakteristik fisik lainnya), mengapa kita tidak memperlakukannya sebagai entitas yang berpikir? Mengapa kita harus membatasi kualifikasi “berpikir” hanya pada manusia (atau, lebih luas lagi, pada entitas yang terbuat dari sel biologis)? Seperti yang dijelaskan oleh ilmuwan komputer Scott Aronson, usulan Turing adalah "seruan terhadap 'chauvinisme duniawi'".

Tes Turing lebih merupakan sebuah ide daripada sebuah “metode”


Turing membingkai pengujiannya sebagai eksperimen pemikiran filosofis dan bukan sebagai cara untuk mengukur kecerdasan mesin. Namun, dalam persepsi publik, Tes Turing telah menjadi tonggak utama dalam kecerdasan buatan (AI) – kriteria utama untuk menilai apakah kecerdasan mesin secara umum telah tercapai.


Sekarang, hampir 75 tahun kemudian, laporan tentang AI dipenuhi dengan klaim bahwa Tes Turing telah lulus, terutama dengan peluncuran chatbot seperti ChatGPT OpenAI dan Claude Anthropic.

Tahun lalu, CEO OpenAI Sam Altman menulis: "Dalam menghadapi perubahan teknologi, kemampuan beradaptasi dan ketahanan masyarakat telah terbukti dengan baik: uji Turing berlalu dengan tenang, dan kebanyakan orang melanjutkan hidup mereka."


Media besar juga telah menerbitkan berita utama serupa. Misalnya, sebuah surat kabar melaporkan bahwa "ChatGPT lulus 'uji Turing' yang terkenal - yang menunjukkan bahwa robot AI memiliki kecerdasan yang sebanding dengan manusia."


Surat kabar lama yang diterbitkan setiap hari di Inggris—The Daily Mail


Bahkan salah satu media terbesar di dunia dan organisasi media publik yang sangat berpengaruh seperti BBC bahkan mengusulkan pada tahun 2014 bahwa AI komputer telah lulus uji Turing.


https://www.bbc.com/news/technology-27762088

Namun, pertanyaannya adalah: Apakah chatbot modern benar-benar lulus uji Turing? Jika demikian, haruskah kita memberi mereka status "berpikir", seperti yang diusulkan Turing?


Anehnya, meskipun Tes Turing memiliki signifikansi budaya yang luas, komunitas AI telah lama gagal menyepakati kriteria untuk lulus Tes Turing. Banyak yang mempertanyakan apakah memiliki keterampilan percakapan yang mampu menipu orang benar-benar mengungkapkan kecerdasan yang mendasari suatu sistem, atau kemampuan “berpikir”.


Mungkin ada seribu standar tes Turing di mata seribu orang.


Pemenang Turing Award Geoffery Hinton berbicara tentang "Standar Tes Turing" dalam sebuah wawancara. Dia percaya bahwa chatbot seperti Palm dapat menjelaskan mengapa sebuah lelucon itu lucu, yang dapat dianggap sebagai tanda kecerdasan mereka. Model besar saat ini seperti GPT-4 sangat pandai menjelaskan mengapa sebuah lelucon itu lucu, yang dianggap sebagai bagian dari kriteria tes Turing mereka.


Dibandingkan dengan definisi serius ilmuwan lain tentang uji Turing, pandangan Hinton, meskipun lucu, tetap mengungkapkan pemikirannya tentang proposisi utama "apakah kecerdasan buatan memiliki kemampuan untuk berpikir".


Tautan video wawancara: https://www.youtube.com/watch?v=PTF5Up1hMhw


Sebuah "Lelucon Turing"

Karena Turing tidak menghasilkan tes dengan petunjuk praktis yang lengkap.


Deskripsinya tentang "permainan imitasi" kurang detail:


  • Berapa lama tes ini harus berlangsung?

  • Jenis pertanyaan apa yang diperbolehkan?

  • Kualifikasi apa yang harus dimiliki oleh hakim manusia atau “orang yang melakukan kegagalan”?


Turing tidak menjelaskan lebih lanjut mengenai isu-isu spesifik ini. Namun, ia membuat prediksi spesifik: "Saya percaya bahwa dalam waktu sekitar 50 tahun, komputer akan diprogram dengan sangat baik sehingga rata-rata interogator hanya memiliki peluang untuk mengidentifikasi manusia sungguhan setelah lima menit diinterogasi. 70% ." Sederhananya, dalam percakapan lima menit, penilai rata-rata disesatkan sebanyak 30%.


Beberapa orang melihat prediksi sewenang-wenang ini sebagai kriteria "resmi" untuk lulus Tes Turing. Pada tahun 2014, Royal Society mengadakan kompetisi tes Turing di London, yang melibatkan lima program komputer, 30 manusia, dan 30 juri.


Beragam kelompok manusia yang berpartisipasi mencakup tua dan muda, penutur asli dan non-pribumi bahasa Inggris, serta pakar dan non-ahli komputer. Setiap juri melakukan beberapa putaran percakapan paralel selama lima menit dengan sepasang kontestan (manusia dan mesin), setelah itu mereka harus menebak siapa manusia tersebut.


Chatbot bernama "Eugene Goostman", berperan sebagai remaja, berhasil menipu 10 juri (tingkat penipuan: 33,3%).


Jelas sekali, "tingkat penipuan" telah melampaui 30% yang dikatakan Turing saat itu.


Eugene Goostman menirukan seorang anak laki-laki berusia 13 tahun.


Menurut standar "30% kemungkinan penipuan dalam lima menit", penyelenggara mengumumkan: "Tes Turing yang ikonik 65 tahun yang lalu pertama kali dilewati oleh program komputer" Eugene Gustman ". Tonggak sejarah ini akan tercatat dalam sejarah... ".


Setelah membaca transkrip percakapan antara protagonis "Eugene Goostman" dalam tes Turing ini, para ahli AI mencemooh gagasan bahwa chatbot lulus tes Turing, dengan mengatakan bahwa itu tidak cukup rumit dan tidak mirip dengan manusia ujian yang dibayangkan oleh Turing.


Waktu percakapan yang terbatas dan keahlian para juri yang tidak merata membuat tes ini lebih merupakan tes terhadap sifat mudah tertipu manusia daripada demonstrasi kecerdasan mesin. Hasilnya adalah contoh mencolok dari "efek ELIZA" - dinamai berdasarkan chatbot ELIZA tahun 1960-an, yang meskipun sangat sederhana masih dapat membodohi banyak orang dengan berpikir bahwa ia adalah psikoterapis yang pengertian dan penuh kasih sayang.


Hal ini menyoroti kecenderungan manusia untuk menghubungkan kecerdasan dengan entitas yang dapat berbicara dengan kita.


ELIZA adalah salah satu chatbot paling awal setelah "publikasi" Tes Turing. Ini adalah chatbot psikoterapi Rogersite yang sangat mendasar.

Kompetisi tes Turing lainnya, Loebner Prize, memungkinkan percakapan yang lebih panjang, mengundang lebih banyak juri ahli, dan mengharuskan mesin yang berpartisipasi untuk menipu setidaknya setengah dari juri. menariknya,Ketika standar ditingkatkan, dalam hampir 30 tahun kompetisi tahunan, tidak ada satu pun mesin yang lulus pengujian versi ini.


Tes Turing mulai berubah


Meskipun makalah asli Turing tidak memiliki rincian tentang bagaimana tes tersebut akan dilaksanakan, jelas bahwa Permainan Imitasi membutuhkan tiga pemain: komputer, manusia, dan hakim manusia. Namun seiring berjalannya waktu, arti istilah "uji Turing" dalam diskusi publik berkembang menjadi versi yang sangat lemah: setiap interaksi antara manusia dan komputer yang berperilaku cukup mirip manusia dianggap telah lulus uji Turing.


Misalnya, ketika Washington Post melaporkan pada tahun 2022 bahwa “AI Google lulus ujian yang terkenal — dan menunjukkan kekurangannya,” mereka tidak mengacu pada The Imitation Game tetapi kepada insinyur Google Blake Lemo Karena (Blake Lemoine) percaya bahwa chatbot LaMDA Google telah"Makhluk hidup"


Pada tahun 2024, siaran pers dari Universitas Stanford mengumumkan bahwa penelitian tim Stanford "menandai pertama kalinya kecerdasan buatan lulus salah satu tes Turing yang ketat." Namun yang disebut tes Turing di sini dilakukan dengan membandingkan statistik perilaku GPT-4 dalam survei psikologis dan permainan interaktif dengan statistik perilaku manusia.


Definisi ini mungkin jauh dari maksud awal Turing: definisi tim Stanford adalah "Kami percaya bahwa AI telah lulus uji Turing ketika responsnya secara statistik tidak dapat dibedakan dari respons manusia yang dipilih secara acak."


Kasus terbaru yang diklaim mengenai chatbot yang lulus tes Turing berasal dari studi tahun 2024 yang menggunakan tes "dua pemain": permainan tiruan "tiga pemain" dengan Turing (di mana wasit mempertanyakan komputer dan manusia) (foil), disini setiap wasit hanya berinteraksi dengan komputer atau manusia.


Para peneliti merekrut 500 peserta manusia, masing-masing ditugaskan untuk menjadi wasit atau manusia. Setiap juri memainkan ronde berdurasi lima menit dengan Foil, GPT-4 (yang menghasilkan saran tertulis tentang cara mengelabui juri), atau ELIZA versi chatbot. Setelah lima menit berbicara melalui antarmuka web, para juri menebak apakah mereka berbicara dengan manusia atau mesin.


Terakhir, human foil dinilai sebagai manusia dalam 67% ronde; GPT-4 dinilai sebagai manusia dalam 54% ronde, dan ELIZA dinilai sebagai manusia dalam 22% ronde. Penulis mendefinisikan "lulus" sebagai tindakan membodohi juri lebih dari 50%—yaitu, melebihi kemungkinan tebakan acak. Berdasarkan definisi ini, GPT-4 lolos, meskipun lawan manusianya masih mendapat skor lebih tinggi.

Yang mengkhawatirkan, sebagian besar hakim manusia tertipu oleh GPT-4 dalam waktu lima menit setelah percakapan. Penggunaan sistem AI generatif untuk menyamar sebagai manusia guna menyebarkan disinformasi atau melakukan penipuan merupakan risiko yang harus dihadapi masyarakat. Namun apakah chatbot saat ini benar-benar lulus uji Turing?


Jawabannya, tentu saja, bergantung pada versi tes yang Anda bicarakan. Permainan imitasi tiga orang dengan juri ahli dan waktu dialog yang lebih lama masih belum dilewati oleh mesin mana pun (ada rencana untuk versi super ketat pada tahun 2029).


Karena fokus tes Turing adalah mencoba membodohi manusia, bukan tes kecerdasan yang lebih langsung. Banyak peneliti AI telah lama memandang Tes Turing sebagai gangguan, sebuah tes yang "tidak dirancang agar AI dapat lulus, tetapi agar manusia gagal." Namun pentingnya tes ini masih mendominasi pikiran kebanyakan orang.


Melakukan percakapan adalah cara penting bagi kita masing-masing untuk mengevaluasi manusia lain. Kita secara alami berasumsi bahwa seorang agen yang mampu melakukan percakapan dengan lancar harus memiliki kecerdasan seperti manusia dan karakteristik psikologis lainnya seperti keyakinan, keinginan, dan kesadaran diri.


Namun, jika sejarah kecerdasan buatan telah mengajarkan kita sesuatu, asumsi tersebut sering kali didasarkan pada intuisi yang salah. Beberapa dekade yang lalu, banyak pakar kecerdasan buatan terkemuka percaya bahwa menciptakan mesin yang mampu mengalahkan manusia dalam permainan catur memerlukan sesuatu yang setara dengan kecerdasan manusia seutuhnya.


Pionir kecerdasan buatan Allen Newell dan Herbert Simon menulis pada tahun 1958: "Jika seseorang dapat merancang mesin catur yang sukses, ia tampaknya telah menembus inti kecerdasan manusia." Ilmuwan kognitif Douglas Hofstadter meramalkan pada tahun 1979, Di masa depan "di sana." mungkin program yang bisa mengalahkan siapa pun dalam permainan catur, tapi... program tersebut akan memiliki kecerdasan umum."


Tentu saja, selama dua dekade berikutnya, DeepBlue dari IBM mengalahkan juara catur dunia Garry Kasparov, menggunakan pendekatan brute force yang jauh dari apa yang kita sebut "kecerdasan umum". Demikian pula, kemajuan dalam kecerdasan buatan menunjukkan bahwa tugas-tugas yang tadinya dianggap memerlukan kecerdasan umum—pengenalan ucapan, terjemahan bahasa alami, bahkan mengemudi secara otonom—dapat dilakukan oleh mesin yang tidak dapat dipahami manusia.


Tes Turing mungkin menjadi korban lain dari perubahan gagasan kita tentang kecerdasan. Pada tahun 1950, Turing secara intuitif percaya bahwa kemampuan berbicara seperti manusia harus menjadi bukti kuat dari "berpikir" dan semua kemampuan terkaitnya. Intuisi ini masih persuasif hingga saat ini. Tapi mungkin apa yang kita pelajari dari ELIZA dan Eugene Goostman, dan apa yang masih bisa kita pelajari dari ChatGPT dan sejenisnya, adalah bahwa kemampuan berbicara bahasa alami dengan lancar, seperti bermain catur, bukanlah bukti konklusif akan adanya bukti kecerdasan umum.


Faktanya, terdapat semakin banyak bukti di bidang ilmu saraf bahwa kefasihan berbahasa secara mengejutkan tidak terhubung dengan aspek kognisi lainnya. Melalui serangkaian eksperimen yang cermat dan meyakinkan, ahli saraf MIT Ev Fedorenko dan yang lainnya telah menunjukkan bahwa jaringan otak di balik apa yang mereka sebut "kemampuan bahasa formal" (kemampuan yang berkaitan dengan produksi bahasa) berkaitan dengan akal sehat, penalaran, dan apa yang kita sebut sebagai Jaringan di balik aspek-aspek lain dari apa yang disebut “berpikir” sebagian besar terpisah. Para peneliti ini menyatakan bahwa intuisi kita bahwa kefasihan berbahasa merupakan syarat yang cukup untuk kecerdasan umum adalah sebuah "kekeliruan".


Turing menulis dalam makalahnya pada tahun 1950: "Saya percaya bahwa pada akhir abad ini penggunaan kata-kata dan opini umum yang terpelajar akan banyak berubah sehingga orang akan dapat berbicara tentang pemikiran mesin tanpa terbantahkan." belum mencapai titik itu. Apakah prediksi Turing meleset dalam beberapa dekade saja? Apakah perubahan nyata terjadi dalam konsep “berpikir” kita? — Atau apakah kecerdasan sejati lebih kompleks dan halus daripada yang kita sadari Turing? Semuanya masih harus dilihat.


Menariknya, mantan CEO Google Eric Schmidt juga mengungkapkan pandangannya dalam pidatonya baru-baru ini di Universitas Stanford.


Dalam jangka waktu yang lama dalam sejarah, pemahaman umat manusia tentang alam semesta lebih misterius. Revolusi ilmu pengetahuan mengubah situasi ini. Namun, AI saat ini sekali lagi menghalangi kita untuk benar-benar memahami prinsip-prinsipnya. Apakah sifat pengetahuan berubah? Apakah kita akan mulai menerima hasil dari model AI ini tanpa perlu lagi menjelaskannya kepada kita?


Schmidt mengatakannya seperti ini: Kita bisa membandingkannya dengan masa remaja. Jika Anda memiliki seorang remaja, Anda tahu bahwa mereka adalah manusia, tetapi Anda tidak dapat memahami pemikiran mereka. Masyarakat kita jelas sedang beradaptasi dengan keberadaan remaja. Kita mungkin mempunyai sistem pengetahuan yang tidak dapat kita pahami sepenuhnya, namun berada dalam batas kemampuan kita untuk memahaminya.


Mungkin itu yang terbaik yang bisa kita dapatkan.