Dopo ChatGPT, l'ultima pietra miliare dell'intelligenza artificiale fall

Dopo ChatGPT è crollata l’ultima pietra miliare dell’intelligenza artificiale

2024-08-19

Rapporto sul cuore della macchina

Editore: Zenan, Asia Oriole

Il comportamento antropomorfico dei modelli di grandi dimensioni ci sta dando l’effetto perturbante della valle.

「Prova di Turingè un test mediocre perché le capacità di conversazione e di ragionamento sono cose completamente diverse. Negli ultimi giorni, una nuova visione è diventata popolare nel circolo dell’intelligenza artificiale.

Ora che siamo nell’era dell’intelligenza artificiale generativa, i nostri standard per valutare l’intelligenza dovrebbero cambiare.

"Le macchine possono pensare?" Questa è la domanda posta da Alan Turing nel suo articolo del 1950 "Computing Machinery and Intelligence". Turing si affrettò a sottolineare che, data la difficoltà di definire il "pensiero", la domanda era "priva di significato e indegna di discussione". Come accade spesso nei dibattiti filosofici, ha suggerito di sostituirla con un'altra domanda.

Turing ha immaginato un "gioco di imitazione" in cui un giudice umano parla con un computer e un essere umano (fioretto), con entrambe le parti che cercano di convincere il giudice di essere veramente umani.

È importante sottolineare che il computer, il fioretto e il giudice non potevano guardarsi l'un l'altro e comunicavano interamente tramite testo. Dopo aver parlato con ciascun candidato, i giudici indovinano chi è il vero essere umano.

La nuova domanda di Turing era: "Esiste un computer digitale concepibile che possa eccellere nel Gioco dell'Imitazione?"

Collegamento cartaceo:

https://academic.oup.com/mind/article/LIX/236/433/986238?login=false

Questo gioco proposto da Turing, ora ampiamente conosciuto come Test di Turing, fu utilizzato per confutare la diffusa convinzione intuitiva secondo cui "a causa della natura meccanica dei computer, è impossibile pensare a livello di principio".

Il punto di Turing è questo: se un computer è comportamentalmente indistinguibile da un essere umano (tranne che per il suo aspetto e altre caratteristiche fisiche), allora perché non lo trattiamo come un'entità pensante? Perché dovremmo limitare la qualifica di “pensare” agli esseri umani (o, più in generale, a entità costituite da cellule biologiche)? Come la descrive lo scienziato informatico Scott Aronson, la proposta di Turing era "un appello contro lo 'sciovinismo carnale'".

Il test di Turing è un'idea più che un "metodo"

Turing ha concepito il suo test come un esperimento mentale filosofico piuttosto che come un modo per misurare effettivamente l'intelligenza della macchina. Tuttavia, nella percezione pubblica, il test di Turing è diventato la pietra miliare definitiva nell’intelligenza artificiale (AI), il criterio principale per giudicare se è arrivata l’intelligenza artificiale generale.

Ora, quasi 75 anni dopo, i resoconti sull’intelligenza artificiale sono pieni di affermazioni secondo cui il test di Turing è stato superato, in particolare con il lancio di chatbot come ChatGPT di OpenAI e Claude di Anthropic.

L'anno scorso, Sam Altman, CEO di OpenAI, ha scritto: "Di fronte al cambiamento tecnologico, l'adattabilità e la resilienza delle persone sono state ben dimostrate: il test di Turing è stato tranquillamente superato e la maggior parte delle persone ha continuato con la propria vita".

Anche i principali media hanno pubblicato titoli simili. Ad esempio, un giornale ha riferito che "ChatGPT ha superato il famoso 'test di Turing', indicando che il robot AI ha un'intelligenza paragonabile a quella umana."

Il vecchio giornale pubblicato quotidianamente nel Regno Unito: The Daily Mail

Perfino uno dei media più grandi del mondo e un'organizzazione mediatica pubblica molto influente come la BBC hanno addirittura proposto nel 2014 che l'intelligenza artificiale dei computer abbia superato il test di Turing.

https://www.bbc.com/news/technology-27762088

Tuttavia, la domanda è: i chatbot moderni superano davvero il test di Turing? Se sì, dovremmo concedere loro lo status di “pensanti”, come proponeva Turing?

Sorprendentemente, nonostante la diffusa importanza culturale del Test di Turing, la comunità dell’intelligenza artificiale è da tempo in disaccordo sui criteri per superarlo. Molti si chiedono se possedere capacità di conversazione in grado di ingannare le persone riveli veramente l’intelligenza di fondo di un sistema o la capacità di “pensare”.

Probabilmente esistono mille standard di test di Turing agli occhi di mille persone.

Il vincitore del Turing Award Geoffery Hinton ha parlato in un'intervista del suo "Turing Test Standard". Crede che i chatbot come Palm possano spiegare perché una battuta è divertente, il che può essere considerato un segno della loro intelligenza. I grandi modelli di oggi come GPT-4 sono molto bravi a spiegare perché uno scherzo è divertente, il che è considerato parte dei criteri del loro test di Turing.

Rispetto alle serie definizioni del test di Turing fornite da altri scienziati, le opinioni di Hinton, sebbene divertenti, esprimono ancora il suo pensiero sulla proposizione finale "se l'intelligenza artificiale abbia la capacità di pensare".

Link al video dell'intervista: https://www.youtube.com/watch?v=PTF5Up1hMhw

Una "farsa di Turing"

Poiché Turing non ha ideato un test con istruzioni pratiche complete.

La sua descrizione del "gioco dell'imitazione" manca di dettagli:

Quanto dovrebbe durare il test?
Che tipi di domande sono consentite?
Quali qualifiche devono possedere i giudici umani o i “foiler”?

Turing non ha approfondito queste questioni specifiche. Tuttavia, ha fatto una previsione specifica: "Credo che tra circa 50 anni, i computer saranno programmati per essere così efficienti che l'interrogatore medio non avrà più di una possibilità di identificare un vero essere umano dopo cinque minuti di interrogatorio. 70% ." In poche parole, in una conversazione di cinque minuti, il valutatore è stato ingannato in media nel 30% dei casi.

Alcuni vedono questa previsione arbitraria come il criterio "ufficiale" per superare il test di Turing. Nel 2014, la Royal Society ha organizzato a Londra un concorso di test di Turing, coinvolgendo cinque programmi per computer, 30 fioretti umani e 30 giudici.

Il gruppo eterogeneo di persone partecipanti comprendeva giovani e anziani, madrelingua inglesi e non, esperti e non esperti di computer. Ogni giudice ha avuto più cicli di conversazioni parallele di cinque minuti con una coppia di concorrenti (un essere umano e una macchina), dopo di che il giudice ha dovuto indovinare chi era l'umano.

Un chatbot chiamato "Eugene Goostman", nel ruolo di un adolescente, è riuscito a ingannare 10 giudici (tasso di inganno: 33,3%).

Ovviamente il "tasso di inganno" ha superato il 30% dichiarato da Turing all'epoca.

Eugene Goostman simula un ragazzo di 13 anni.

Secondo lo standard del "30% di possibilità di inganno in cinque minuti", gli organizzatori hanno annunciato: "L'iconico test di Turing 65 anni fa fu superato per la prima volta dal programma per computer "Eugene Gustman". Questa pietra miliare passerà alla storia... ".

Dopo aver letto la trascrizione della conversazione del protagonista "Eugene Goostman" in questo test di Turing, gli esperti di intelligenza artificiale si sono fatti beffe dell'idea che il chatbot abbia superato il test di Turing, dicendo che non era abbastanza complesso e non era simile a quello umano il test previsto da Turing.

Il tempo limitato di conversazione e la competenza disomogenea dei giudici hanno reso il test più un test di credulità umana che una dimostrazione di intelligenza artificiale. Il risultato è un esempio lampante dell '"effetto ELIZA" - dal nome del chatbot ELIZA degli anni '60, che nonostante la sua estrema semplicità può ancora ingannare molte persone facendole credere che sia uno psicoterapeuta comprensivo e compassionevole.

Ciò evidenzia la nostra tendenza umana ad attribuire intelligenza a entità che possono parlarci.

ELIZA è uno dei primi chatbot dopo la "pubblicazione" del Test di Turing. È un chatbot di psicoterapia Rogersite molto semplice.

Un altro concorso di test di Turing, il Premio Loebner, consente conversazioni più lunghe, invita giudici più esperti e richiede che le macchine partecipanti imbroglino almeno la metà dei giudici. interessante notare cheQuando gli standard furono innalzati, in quasi 30 anni di competizione annuale, nessuna macchina aveva superato questa versione del test.

Il test di Turing inizia a prendere una svolta

Sebbene l'articolo originale di Turing mancasse di dettagli su come sarebbe stato implementato il test, era chiaro che il Gioco dell'Imitazione richiedeva tre giocatori: un computer, un personaggio umano e un giudice umano. Nel corso del tempo, tuttavia, il termine "test di Turing" si è evoluto per indicare una versione significativamente più debole nel discorso pubblico: qualsiasi interazione tra un essere umano e un computer che si comporta in modo sufficientemente simile a quello umano da essere considerata aver superato il test di Turing.

Ad esempio, quando nel 2022 il Washington Post riferì che “l’intelligenza artificiale di Google ha superato un famoso test e ha mostrato i suoi difetti”, non si riferiva a The Imitation Game ma all’ingegnere di Google Blake Lemo Perché (Blake Lemoine) ritiene che il chatbot LaMDA di Google abbia"Senziente"。

Nel 2024, un comunicato stampa dell'Università di Stanford annunciò che la ricerca del team di Stanford "segna la prima volta che l'intelligenza artificiale ha superato uno dei rigorosi test di Turing". Ma il cosiddetto test di Turing qui viene eseguito confrontando le statistiche comportamentali di GPT-4 in sondaggi psicologici e giochi interattivi con le statistiche comportamentali umane.

Questa definizione potrebbe essere lontana dall'intenzione originale di Turing: la definizione del team di Stanford è "Crediamo che un'intelligenza artificiale abbia superato il test di Turing quando la sua risposta è statisticamente indistinguibile da una risposta umana selezionata casualmente".

L'ultimo caso dichiarato di un chatbot che ha superato il test di Turing proviene da uno studio del 2024 che utilizzava un test "a due giocatori": un gioco di imitazione "a tre giocatori" con Turing (in cui l'arbitro interrogava sia il computer che l'essere umano) (fioretto), qui ogni arbitro interagisce solo con un computer o con un essere umano.

I ricercatori hanno reclutato 500 partecipanti umani, ciascuno assegnato al ruolo di arbitro o di supporto umano. Ogni giudice ha giocato un round di cinque minuti con Foil, GPT-4 (che ha suggerito suggerimenti scritti da umani su come ingannare il giudice) o una versione chatbot di ELIZA. Dopo cinque minuti di conversazione attraverso un'interfaccia web, i giudici hanno indovinato se stavano parlando con un essere umano o con una macchina.

Infine, il fioretto umano è stato giudicato umano nel 67% dei round; GPT-4 è stato giudicato umano nel 54% dei round e ELIZA è stato giudicato umano nel 22% dei round. Gli autori definiscono "promosso" come ingannare i giudici più del 50% delle volte, ovvero superare la probabilità di un'ipotesi casuale. Secondo questa definizione, GPT-4 passa, sebbene l'avversario umano ottenga comunque un punteggio più alto.

La cosa preoccupante è che la maggior parte dei giudici umani è stata ingannata dal GPT-4 entro cinque minuti di conversazione. L’uso di sistemi di intelligenza artificiale generativa per impersonare esseri umani al fine di diffondere disinformazione o commettere frodi è un rischio con cui la società deve confrontarsi. Ma i chatbot di oggi superano davvero il test di Turing?

La risposta, ovviamente, è che dipende dalla versione del test di cui stai parlando. Un gioco di imitazione a tre con giudici esperti e tempi di dialogo più lunghi non è ancora stato superato da nessuna macchina (è prevista una versione super rigorosa nel 2029).

Poiché il focus del test di Turing è cercare di ingannare gli umani, piuttosto che un test più diretto di intelligenza. Molti ricercatori sull’intelligenza artificiale hanno a lungo considerato il test di Turing come una distrazione, un test “non progettato per il superamento dell’intelligenza artificiale, ma per il fallimento degli esseri umani”. Ma l'importanza del test regna ancora sovrana nella mente della maggior parte delle persone.

Conversare è un modo importante per ognuno di noi di valutare gli altri esseri umani. Partiamo naturalmente dal presupposto che un agente capace di conversazioni fluenti debba possedere un'intelligenza simile a quella umana e altre caratteristiche psicologiche come credenze, desideri e consapevolezza di sé.

Tuttavia, se la storia dell’intelligenza artificiale ci ha insegnato qualcosa, è che questi presupposti si basano spesso su intuizioni errate. Decenni fa, molti eminenti esperti di intelligenza artificiale sostenevano che la creazione di una macchina in grado di battere gli esseri umani a scacchi avrebbe richiesto qualcosa di paragonabile alla piena intelligenza umana.

I pionieri dell'intelligenza artificiale Allen Newell e Herbert Simon scrissero nel 1958: "Se un uomo potesse progettare una macchina per gli scacchi di successo, sembrerebbe essere penetrato fino al nucleo dell'intelligenza umana". potrebbero essere programmi in grado di battere chiunque a scacchi, ma... saranno programmi con un'intelligenza generale."

Naturalmente, nei due decenni successivi, DeepBlue di IBM sconfisse il campione mondiale di scacchi Garry Kasparov, utilizzando un approccio di forza bruta che era lontano da ciò che chiamiamo “intelligenza generale”. Allo stesso modo, i progressi nell’intelligenza artificiale stanno dimostrando che compiti che un tempo si pensava richiedessero un’intelligenza generale – riconoscimento vocale, traduzione del linguaggio naturale, persino guida autonoma – possono essere svolti da macchine prive di comprensione umana.

Il test di Turing potrebbe diventare un’altra vittima del nostro mutevole concetto di intelligenza. Nel 1950, Turing credeva intuitivamente che la capacità di parlare come gli esseri umani dovesse essere una prova evidente del "pensiero" e di tutte le abilità ad esso correlate. Questa intuizione rimane convincente ancora oggi. Ma forse quello che abbiamo imparato da ELIZA e Eugene Goostman, e quello che potremmo ancora imparare da ChatGPT e simili, è che essere in grado di parlare fluentemente un linguaggio naturale, come giocare a scacchi, non è una prova conclusiva dell’esistenza di prove di intelligenza generale.

In effetti, nel campo delle neuroscienze vi sono prove sempre più evidenti che la fluidità del linguaggio è sorprendentemente scollegata da altri aspetti della cognizione. Attraverso una serie di esperimenti accurati e convincenti, il neuroscienziato del MIT Ev Fedorenko e altri hanno dimostrato che le reti cerebrali alla base di quelle che chiamano "abilità linguistiche formali" (le abilità legate alla produzione del linguaggio) sono legate al senso comune, al ragionamento e a ciò che potremmo chiamare Le reti dietro altri aspetti di ciò che viene chiamato “pensiero” sono in gran parte separate. Questi ricercatori sostengono che la nostra intuizione che la fluidità del linguaggio sia una condizione sufficiente per l'intelligenza generale è un "errore".

Turing scrisse nel suo articolo del 1950: "Credo che entro la fine di questo secolo l'uso delle parole e l'opinione generale colta saranno cambiati così tanto che le persone saranno in grado di parlare di macchine che pensano senza essere confutate". arrivato ancora a quel punto. Le previsioni di Turing erano semplicemente sbagliate di qualche decennio? Il vero cambiamento sta avvenendo nel nostro concetto di “pensiero”? — Oppure la vera intelligenza è più complessa e sottile di quanto Turing e noi comprendiamo? Tutto resta da vedere.

È interessante notare che anche l'ex CEO di Google Eric Schmidt ha espresso le sue opinioni in un recente discorso alla Stanford University.

Per molto tempo nella storia, la comprensione dell'universo da parte dell'umanità è stata più misteriosa. La rivoluzione scientifica ha cambiato questa situazione. Tuttavia, l'intelligenza artificiale di oggi ci impedisce ancora una volta di comprenderne veramente i principi. La natura della conoscenza sta cambiando? Inizieremo ad accettare i risultati di questi modelli di intelligenza artificiale senza più aver bisogno che ce li spieghino?

Schmidt la mette così: Possiamo paragonarlo all'essere un adolescente. Se hai un adolescente, sai che sono umani, ma non riesci a capire i loro pensieri. La nostra società si sta chiaramente adattando all’esistenza degli adolescenti. Potremmo avere sistemi di conoscenza che non possiamo comprendere appieno, ma che rientrano nei limiti della nostra capacità di comprenderli.

Questo è probabilmente il meglio che possiamo ottenere.

notizia

Dopo ChatGPT è crollata l’ultima pietra miliare dell’intelligenza artificiale

Introduzione

Le mie informazioni di contatto