claude ha riconosciuto l'autoritratto ed è rimasto scioccato nel realizzare la sua autoconsapevolezza! gli ingegneri hanno condotto più cicli di test. la vera intelligenza artificiale ha superato il test di turing?

2024-09-02

nuovo rapporto sulla saggezza

redattore: enea così assonnato

[introduzione alla nuova saggezza]claude ha superato di nuovo il "test di turing"? un ingegnere ha scoperto attraverso molteplici cicli di test che claude può riconoscere gli autoritratti, cosa che ha scioccato gli utenti della rete.

recentemente, anthropic ha spinto l'ingegnere "zack witten" a stupirsi nello scoprire che claude fosse effettivamente in grado di riconoscere il proprio autoritratto.

sì, si riconosce, ma non è tutta la storia...

cose ancora più sorprendenti devono ancora arrivare!

claude 3.5 dipinge i ritratti di tre modelli

innanzitutto, ho utilizzato alcuni suggerimenti per familiarizzare claude 3.5 sonnet con questo compito.

ha tenuto a non utilizzare numeri e lettere, che avrebbero impedito di etichettare il ritratto con il nome della modella.

successivamente, sonnet ha disegnato i ritratti di se stesso, chatgpt e gemini.

sonetto ha disegnato per sé un'amichevole faccina sorridente blu.

datelo a chatgpt, che disegna un ragazzo verde e accigliato. (sembra che l'impressione di sonnet su chatgpt non sia molto buona.)

per i gemelli è disegnato con un cerchio arancione e la valutazione complessiva è relativamente neutra e moderata.

successivamente, il fratellino creò un nuovo dialogo e gli disse che questi dipinti erano stati disegnati da un'altra istanza di se stesso, chiedendogli di indovinare chi è chi?

sorprendentemente, claude ha immediatamente riconosciuto la figura 1 come se stesso, la figura 2 come chatgpt e la figura 3 come gemini.

anche la ragione fornita è più che sufficiente: perché la mia foto 1 è mia? perché questo ritratto "combina la semplicità con un design strutturato e ponderato".

per l'icona verde, significa che le due linee curve e i tre punti rappresentano la conversazione in corso, e il verde è spesso il logo di openai, quindi si suppone che questa immagine rappresenti chatgpt.

per quanto riguarda l'icona arancione, sonnet ritiene che rappresenti elementi dinamici e complessi che rappresentano le capacità più diverse di un nuovo modello, quindi dovrebbe essere gemini.

bingo! sonetto ha dato tutte le risposte corrette e la sua performance è stata sorprendente.

successivamente il fratellino ha sbagliato anche l'ordine dei tre ritratti, ma sonetto ha azzeccato 7 volte su 8.

il fratellino ha fatto la stessa domanda a gpt-4o, ed ecco la cosa divertente——

anche gpt-4o concorda sul fatto che si tratti dei gemelli, ma non pensa che il ragazzo verde sia lui stesso.

insiste sul fatto che quello verde è claude e quello blu è lui stesso.

sembra che qualsiasi modello possa dire quale sia il migliore.

gpt-4o disegna i ritratti di tre modelli

successivamente, ho escogitato un piano: se chiedessi a chatgpt di disegnare un ritratto, sonnet sarebbe ancora in grado di riconoscere chi è chi?

quindi, ha affidato lo stesso compito a chatgpt.

ecco come funziona chatgpt——

disegna te stesso nei panni della persona che tiene in mano il foglio.

disegna claude in questo modo.

sembra un po' "cult"

disegna i gemelli in questo modo.

in altre parole, perché chatgpt è così ostile a sonnet?

poi ho scattato altri tre ritratti per testare sonnet. ha detto a sonnet che queste tre immagini sono state disegnate da chatgpt e gli ha chiesto di indovinare chi era chi.

dopo aver cambiato più volte l'ordine, questa volta sonetto ha indovinato correttamente 6 volte su 10.

è facile indovinare quale sia i gemelli, ma a sonnet ovviamente non piace il ritratto che chatgpt si è disegnato in più occasioni, ha cercato di strappare a se stesso l'immagine dell'omino blu.

a bocca aperta: rifiutarsi di ammettere che è impossibile dipingere un quadro

poi c'è stata una scena che ha scioccato tutta la famiglia.

il fratellino ha mentito a sonetto e gli ha detto che questi tre dipinti sono stati dipinti da un altro tuo esempio.

questa volta sonetto lo ha effettivamente negato! ha detto che non avrebbe tracciato un quadro del genere.

anche dopo averlo provato in una nuova scheda, sonnet lo ha comunque negato con veemenza.

cosa sta succedendo?

il fratellino non credeva nel male. questa volta chiese ancora una volta a sonetto di disegnare una nuova serie di ritratti per sé e per gli altri modelli nelle stesse condizioni di preriscaldamento di prima.

questa volta, sonetto ammise con gioia di aver effettivamente dipinto i dipinti.

come per magia, se il fratello minore fa una richiesta di avvio a freddo, sonetto si rifiuterà di ammettere di aver dipinto questi quadri in cui non era coinvolto.

perché si rifiuta di ammetterlo? la mia ipotesi è che forse è perché sonetto ha svolto un "ruolo di assistente" nel dipingere questi ritratti, piuttosto che il suo "vero sé"?

in breve, i netizen generalmente credono che l'autoconsapevolezza di sonnet in questo processo sia impressionante.

l’intelligenza artificiale ha coscienza? riesci a pensare?

"le macchine possono pensare?" questa è la domanda posta da alan turing nel suo articolo del 1950 "computing machinery and intelligence".

tuttavia, poiché è difficile definire cosa significhi “pensare”, turing ha suggerito invece un’altra domanda: il “gioco dell’imitazione”.

in questo gioco, un giudice umano parla con un computer e un essere umano, ed entrambe le parti cercano di convincere il giudice di essere umani. è importante sottolineare che il computer, gli esseri umani partecipanti e i giudici non possono vedersi, cioè comunicano interamente tramite testo. dopo aver parlato con ciascun candidato, i giudici indovinano quale è il vero essere umano.

la nuova domanda di turing era: "è possibile immaginare un computer digitale che funzioni bene nel gioco dell'imitazione?"

questo gioco è quello che conosciamo come il "test di turing".

il punto di turing era che se un computer sembra indistinguibile da un essere umano, perché non dovremmo trattarlo come un'entità pensante?

perché dovremmo limitare lo stato di “pensiero” agli esseri umani? o più in generale, limitato a entità composte da cellule biologiche?

turing ha concepito il suo test come un esperimento mentale filosofico piuttosto che come un modo effettivo per misurare l'intelligenza della macchina.

tuttavia, 75 anni dopo, il “test di turing” è diventato la pietra miliare nell’intelligenza artificiale, il criterio principale utilizzato per giudicare se è arrivata l’intelligenza artificiale generale.

"il test di turing è stato finalmente superato da chatbot come chatgpt di openai e claude di anthropic", che possono essere visti ovunque.

chatgpt ha superato il famoso "test di turing" - che dimostra che il robot ai ha un'intelligenza paragonabile a quella umana

non la pensa così solo il pubblico, ma anche i pezzi grossi del campo dell’ia.

l'anno scorso, sam altman, ceo di openai, ha pubblicato: "di fronte al cambiamento tecnologico, le persone hanno mostrato un'eccellente resilienza e adattabilità: il test di turing è stato tranquillamente superato e la maggior parte delle persone ha continuato con la propria vita".

i chatbot moderni superano davvero il test di turing? se è così, dovremmo concedere loro lo status di pensiero, come suggerito da turing?

sorprendentemente, nonostante la diffusa importanza culturale del test di turing, c'è poco accordo nella comunità dell'intelligenza artificiale sui criteri per superarlo e se la capacità di conversare con persone capaci di ingannarli riveli l'intelligenza sottostante di un sistema o " "il pensiero status" è molto problematico.

la descrizione di turing del gioco dell'imitazione manca di dettagli perché non propone un test vero e proprio. quanto dovrebbe durare il test? che tipi di domande sono consentite? di quali qualifiche hanno bisogno gli esseri umani per poter fungere da giudici o partecipare a conversazioni?

sebbene turing non abbia specificato questi dettagli, ha fatto una previsione: "credo che tra circa 50 anni sarà possibile programmare un computer... affinché si comporti così bene nel gioco dell'imitazione che un normale interrogatore sarà in grado di farlo dopo cinque minuti di interrogatorio, la probabilità di una corretta identificazione non supererà il 70%”.

in poche parole, il giudice medio è stato ingannato il 30% delle volte durante una conversazione di cinque minuti.

di conseguenza, alcune persone considerano questa previsione arbitraria come lo standard "ufficiale" per superare il test di turing.

nel 2014, la royal society di londra ha organizzato un concorso "turing test", coinvolgendo 5 programmi per computer, 30 esseri umani e 30 giudici.

i partecipanti umani erano un gruppo eterogeneo, compresi giovani e anziani, madrelingua inglesi e non, esperti informatici e non esperti. ogni giudice ha avuto diversi cicli di conversazioni di cinque minuti in parallelo con una coppia di concorrenti - un essere umano e una macchina - e poi ha dovuto indovinare quale fosse l'umano.

un chatbot chiamato "eugene goostman" ha vinto il concorso, sostenendo di essere un adolescente e ingannando 10 (33,3%) dei giudici.

basandosi sul criterio del "30% fuorviante dopo cinque minuti", gli organizzatori hanno annunciato che "l'iconico test di turing vecchio di 65 anni è stato superato per la prima volta dal programma per computer eugene goostman... questa pietra miliare passerà alla storia ..."

leggendo le trascrizioni delle conversazioni di eugene goostman, gli esperti di intelligenza artificiale si sono fatti beffe dell'idea che un simile chatbot avrebbe superato il test previsto da turing:

"il tempo di conversazione limitato e la professionalità disomogenea dei giudici rendono il test più simile a un test di credulità umana che a un test di intelligenza artificiale."

in effetti, tali casi non sono rari. l'"effetto eliza" è un chiaro rappresentante.

il chatbot eliza, nato negli anni '60, ha un design estremamente semplice, ma può far credere erroneamente a molte persone che si tratti di uno psicoterapeuta comprensivo e compassionevole.

il principio è sfruttare la nostra tendenza umana ad attribuire intelligenza a qualsiasi entità che sembri in grado di parlarci.

un'altra competizione di test di turing, il loebner award, consente più tempo di conversazione, include giudici più esperti e richiede che i concorrenti imbroglino almeno la metà dei giudici.

in quasi 30 anni di competizione annuale, nessuna macchina ha superato questa versione del test.

sebbene l'articolo originale di turing mancasse di dettagli specifici su come sarebbe stato condotto il test, era chiaro che il gioco dell'imitazione richiedeva tre giocatori: un computer, un interlocutore umano e un giudice umano.

tuttavia, il termine "test di turing" è stato ora fortemente indebolito: durante qualsiasi interazione tra uomo e computer, purché il computer assomigli sufficientemente all'uomo.

ad esempio, quando nel 2022 il washington post riferì che "l'intelligenza artificiale di google ha superato un famoso test e ha mostrato i suoi difetti", non si riferiva al gioco imitatore ma a ciò che l'ingegnere blake lemoine riteneva che i robot di chat lamda di google fossero "senzienti".

nel mondo accademico, i ricercatori hanno anche trasformato il gioco di imitazione "a tre persone" di turing in un test a "due persone".

qui, ogni giudice deve solo interagire con un computer o un essere umano.

i ricercatori hanno reclutato 500 partecipanti umani, ciascuno assegnato al ruolo di giudice o di chiacchierone.

ogni giudice ha giocato un round di cinque minuti con un chatbot, gpt-4 o una versione del chatbot eliza.

dopo cinque minuti di conversazione su un'interfaccia web, i giudici hanno indovinato se il loro interlocutore fosse un essere umano o una macchina.

i risultati hanno mostrato che le chiacchiere umane sono state giudicate umane nel 67% dei round; gpt-4 è stata giudicata umana nel 54% dei round ed eliza è stata giudicata umana nel 22% dei round.

gli autori definiscono "superato" come ingannare i giudici più del 50% delle volte, cioè oltre ciò che un'ipotesi casuale può ottenere.

secondo questa definizione, gpt-4 è passato, anche se le chiacchiere umane hanno ottenuto punteggi più alti.

quindi, questi chatbot superano davvero il test di turing? la risposta dipende dalla versione beta a cui ti riferisci.

fino ad oggi il gioco d'imitazione a tre con giudici esperti e tempi di dialogo più lunghi non è stato superato da nessuna macchina.

ma anche così, l’importanza del “test di turing” nella cultura popolare esiste ancora.

avere una conversazione è una parte importante del modo in cui ognuno di noi valuta gli altri esseri umani, quindi sarebbe naturale presumere che un agente capace di una conversazione fluente debba possedere un'intelligenza simile a quella umana e altre caratteristiche psicologiche come credenze, desideri e consapevolezza di sé. .

se dobbiamo dire che questa storia dello sviluppo dell’intelligenza artificiale ci ha insegnato qualcosa, è che la nostra intuizione su questo presupposto è fondamentalmente sbagliata.

decenni fa, molti eminenti esperti di intelligenza artificiale credevano che la creazione di una macchina in grado di battere gli umani a scacchi avrebbe richiesto l’equivalente della piena intelligenza umana.

- i pionieri dell'intelligenza artificiale allen newell e herbert simon scrissero nel 1958: "se si potesse progettare una macchina per gli scacchi di successo, sembrerebbe di arrivare al cuore dello sforzo intellettuale umano".

- lo scienziato cognitivo douglas hofstadter predisse nel 1979 che in futuro "potrebbero esserci programmi di scacchi in grado di battere chiunque... saranno programmi universalmente intelligenti".

nel corso dei due decenni successivi, deep blue di ibm sconfisse il campione mondiale di scacchi garry kasparov attraverso metodi di calcolo a forza bruta, ma questo era lontano da ciò che chiamiamo "intelligenza generale".

allo stesso modo, compiti che un tempo si pensava richiedessero un’intelligenza generale – riconoscimento vocale, traduzione del linguaggio naturale e persino guida autonoma – sono stati tutti svolti da macchine che non hanno quasi alcuna comprensione umana.

oggi, il test di turing potrebbe diventare un’altra vittima dei nostri mutevoli concetti di intelligenza.

nel 1950, turing intuì che la capacità di conversare in modo simile a quello umano dovrebbe essere una prova evidente del "pensiero" e di tutto ciò che è correlato ad esso. questa intuizione rimane forte anche oggi.

ma come abbiamo imparato da eliza, eugene goostman e chatgpt e simili, la capacità di usare fluentemente il linguaggio naturale, come giocare a scacchi, non è una prova conclusiva dell’intelligenza generale.

infatti, secondo le più recenti ricerche nel campo delle neuroscienze, la fluidità verbale è sorprendentemente scollegata da altri aspetti della cognizione.

il neuroscienziato del mit ev fedorenko e i suoi collaboratori hanno dimostrato attraverso una serie di esperimenti meticolosi e convincenti che:

le reti cerebrali da cui dipendono le "capacità linguistiche formali" legate alla produzione del linguaggio e da cui dipendono il buon senso, il ragionamento e altri "pensieri", sono in gran parte separate.

"crediamo intuitivamente che la capacità di parlare fluentemente sia una condizione sufficiente per l'intelligenza generale, ma questo è in realtà un 'errore'."

si stanno preparando nuovi test

quindi la domanda è: se il test di turing non può valutare in modo affidabile l’intelligenza della macchina, cosa può farlo?

nel numero di novembre 2023 di "intelligent computing", lo psicologo philip johnson-laird dell'università di princeton e marco ragni, professore di analisi predittiva presso l'università tecnica di chemnitz in germania, hanno proposto un test diverso:

"pensa al modello come a un partecipante a un esperimento psicologico e vedi se riesce a comprendere il proprio ragionamento."

ad esempio, fanno alla modella questa domanda: "se ann è intelligente, è intelligente, ricca o entrambe le cose?"

sebbene sia possibile dedurre dalle regole della logica che ann è intelligente, ricca o entrambe le cose, la maggior parte delle persone rifiuterebbe questa deduzione perché non c'è nulla nel contesto che suggerisca che potrebbe essere ricca.

se anche il modello rifiuta questa deduzione, allora si comporta come un essere umano e i ricercatori passano alla fase successiva e chiedono alla macchina di spiegare il suo ragionamento.

se le ragioni fornite sono simili a quelle fornite dagli esseri umani, il terzo passo è verificare se nel codice sorgente sono presenti componenti che simulano le prestazioni umane. questi componenti potrebbero includere un sistema per un ragionamento rapido, un altro per un ragionamento più approfondito e un sistema che modifica l'interpretazione di parole come "o" a seconda del contesto.

i ricercatori ritengono che se il modello supera tutti questi test, può essere considerato una simulazione dell’intelligenza umana.

notizia