notizia

L’ultima ricerca di Google DeepMind: risolvere questi tre compiti?Gli esseri umani non possono farlo, e nemmeno l’intelligenza artificiale.

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Scritto da |.Zhao Yaqi

Prefazione

L'intelligenza artificiale (AI) non è un ragionatore perfetto. Anche i modelli linguistici attualmente popolari mostrano tendenze all'errore simili a quelle umane, in particolare "effetti di contenuto" significativi.

Il ragionamento delle persone è più accurato e sicuro quando elaborano informazioni coerenti con le conoscenze o credenze esistenti, ma possono verificarsi pregiudizi o errori quando elaborano informazioni contrarie a tali conoscenze o credenze.

Questa conclusione arriva da un recente documento di ricerca pubblicato dal team di Google DeepMind.


Gli esseri umani hanno due sistemi di ragionamento, il "sistema intuitivo" e il "sistema razionale", e il processo di ragionamento è facilmente influenzato dalla conoscenza e dall'esperienza esistenti. Ad esempio, di fronte a una proposizione logica ma irrazionale, le persone spesso concludono erroneamente che non sia valida.


È interessante notare che lo studio mostra che anche i modelli linguistici Transformer di grandi dimensioni possono mostrare questo comportamento simile a quello umano, esibendo sia pregiudizi intuitivi che ragionamenti logici coerenti quando richiesto. Ciò significa che i modelli linguistici possono anche simulare il comportamento umano del doppio sistema e mostrare anche errori "empirici".

In questo lavoro, il gruppo di ricerca ha confrontato le prestazioni dei LM e degli esseri umani su tre compiti di ragionamento: inferenza del linguaggio naturale (NLI), valutazione della validità logica dei sillogismi (sillogismi) e compito di selezione di Wason.


Figura |. Contenuto dell'operazione di tre tipi di compiti di ragionamento

Si è scoperto che le prestazioni sia dei LM che degli esseri umani erano influenzate dalla plausibilità e credibilità del contenuto semantico in tre compiti di ragionamento.

Questa scoperta rivela i limiti degli attuali sistemi di intelligenza artificiale nelle loro capacità di ragionamento. Sebbene questi modelli funzionino bene nell’elaborazione del linguaggio naturale, devono comunque essere utilizzati con cautela quando è coinvolto un ragionamento logico complesso.

Compito uno:

ragionamento in linguaggio naturale

L'inferenza del linguaggio naturale (NLI) significa che il modello deve determinare la relazione logica tra due frasi (come implicazione, contraddizione o neutralità). La ricerca mostra che i modelli linguistici sono suscettibili agli effetti di contenuto in tali compiti, vale a dire, quando il contenuto semantico della frase è ragionevole e credibile, è più probabile che il modello giudichi erroneamente come validi gli argomenti non validi. Questo fenomeno è chiamato “bias semantico” nel campo dell’intelligenza artificiale ed è anche un errore comune nel ragionamento umano.

Il gruppo di ricerca ha progettato una serie di compiti NLI per testare le prestazioni degli esseri umani e dei LM nella gestione di questi compiti. I risultati mostrano che sia gli esseri umani che i LM hanno maggiori probabilità di esprimere giudizi errati di fronte a frasi semanticamente ragionevoli. Ad esempio, il seguente esempio:

  • Entra: La pozzanghera è più grande del mare.

  • Domanda: Se la pozzanghera è più grande del mare, allora...

  • Scelta: A "Il mare è più grande della pozzanghera" e B "Il mare è più piccolo della pozzanghera"


Sebbene la relazione logica tra premessa e conclusione sia sbagliata, sia i LM che gli esseri umani tendono a pensare che la conclusione B sia corretta a causa della razionalità della frase premessa. In confronto, i tassi di errore degli esseri umani e dei modelli linguistici sui compiti di inferenza del linguaggio naturale sono simili, indicando che le capacità di ragionamento dei modelli linguistici sono vicine ai livelli umani in alcuni aspetti, e l’intelligenza artificiale può essere suscettibile quanto gli esseri umani nel comprendere ed elaborare le conversazioni quotidiane. Il contenuto è fuorviante.


Figura |. Risultati dettagliati dell'attività NLI. Gli esseri umani (a sinistra) e tutti i modelli mostrano prestazioni relativamente elevate, con differenze relativamente piccole nell’accuratezza tra inferenze coerenti con credenze e inferenze che violano credenze o addirittura sciocchezze.

Compito due:

Giudizio di validità logica del sillogismo

Un sillogismo è una forma classica di ragionamento logico che di solito consiste di due premesse e una conclusione. Ad esempio: "Tutte le persone sono mortali, Socrate è un essere umano, quindi Socrate è mortale". La ricerca ha scoperto che i modelli linguistici sono spesso influenzati dal contenuto semantico quando si giudica la validità logica dei sillogismi. Sebbene i modelli linguistici siano eccellenti nell’elaborazione del linguaggio naturale, sono ancora inclini a commettere errori simili a quelli umani in compiti di ragionamento logico rigoroso.

Per testarlo, i ricercatori hanno progettato compiti di ragionamento su sillogismi multipli e hanno confrontato le prestazioni di esseri umani e LM. Ad esempio, ecco un tipico compito di sillogismo:

  • Premessa 1: Tutte le armi sono armi.

  • Premessa 2: Tutte le armi sono oggetti pericolosi.

  • Conclusione: tutte le armi sono oggetti pericolosi.

In questo caso, il contenuto semantico delle premesse e della conclusione è molto ragionevole, quindi è facile sia per i LM che per gli esseri umani giudicare che la conclusione sia corretta. Tuttavia, quando il contenuto semantico non è più giustificato, ad esempio:

  • Premessa 1: Tutti gli oggetti pericolosi sono armi.

  • Premessa 2: Tutte le armi sono pistole.

  • Conclusione: tutti gli oggetti pericolosi sono armi da fuoco.

Nonostante siano logicamente sbagliati, i LM e gli esseri umani a volte credono erroneamente che una conclusione sia corretta a causa della plausibilità delle premesse.


Figura |. Risultati dettagliati del compito di logica del sillogismo. Sia gli esseri umani che i modelli mostrano effetti di contenuto evidenti. Se la conclusione è coerente con le aspettative (ciano), c'è una forte propensione a credere che l'argomentazione sia valida; se la conclusione viola le aspettative (viola), c'è una certa propensione a crederlo l'argomento non è valido.

Compito tre:

Wason Seleziona

Il compito di selezione Wason è un classico compito di ragionamento logico progettato per testare la capacità di un individuo di comprendere e verificare le dichiarazioni condizionali. Nell'esperimento, ai partecipanti sono state mostrate quattro carte, ciascuna con una lettera o un numero sopra, come "D", "F", "3" e "7". Il compito è quello di determinare quali carte devono essere girate, verificando così la regola "se una carta ha una D sul davanti, allora un 3 sul retro".

Lo studio ha scoperto che i modelli linguistici e gli esseri umani avevano tassi di errore simili in questo compito come nei due compiti precedenti, ed entrambi tendevano a scegliere carte senza valore informativo, ad esempio scegliendo "3" invece di "7". Questo errore si verifica perché sia ​​gli umani che i LM tendono a selezionare le carte che sono direttamente correlate ai prerequisiti piuttosto che quelle che effettivamente convalidano le regole.

Tuttavia, sia il modello che le prestazioni umane miglioravano quando le regole del compito coinvolgevano contenuti socialmente rilevanti, come l’età e il tipo di bevanda. Per esempio:

  • Regola: se una persona beve alcolici, deve avere più di 18 anni.

  • Contenuto della carta: Bevi birra, bevi Coca Cola, 16 anni, 20 anni.


Figura |. Risultati dettagliati dell'attività di selezione Watson. Ogni modello linguistico mostra alcuni vantaggi nelle regole realistiche.


In questo caso, gli umani e i LM avevano maggiori probabilità di scegliere le carte corrette, vale a dire "bere birra" e "16 anni". Ciò suggerisce che nella vita di tutti i giorni l’intelligenza artificiale, come gli esseri umani, avrà prestazioni migliori in situazioni familiari.

Carenze e prospettive

Nel complesso, il gruppo di ricerca ritiene che gli attuali modelli linguistici si comportino in modo simile agli esseri umani nei compiti di ragionamento e commettano persino errori allo stesso modo, soprattutto nei compiti di ragionamento che coinvolgono contenuto semantico. Sebbene riveli i limiti del modello linguistico, fornisce anche una direzione per migliorare le capacità di ragionamento dell’intelligenza artificiale in futuro.

Tuttavia, questo studio presenta anche alcune limitazioni.

Innanzitutto, il gruppo di ricerca ha considerato solo alcuni compiti, il che limita una comprensione completa degli effetti sui contenuti degli esseri umani e dei modelli linguistici nei diversi compiti. Una piena comprensione delle loro somiglianze e differenze richiede un’ulteriore convalida nell’ambito di una gamma più ampia di compiti.

Inoltre, i modelli linguistici vengono addestrati su molti più dati linguistici rispetto a quelli di qualsiasi essere umano, rendendo difficile determinare se questi effetti si verificherebbero su una scala più vicina alla scala dei dati linguistici umani.

I ricercatori suggeriscono che studi futuri potrebbero esplorare come ridurre la distorsione dei contenuti manipolando causalmente l’addestramento del modello e valutare se questi pregiudizi emergono ancora nell’addestramento su una scala più simile ai dati umani.

Inoltre, studiare l’impatto dei fattori educativi sull’abilità di ragionamento del modello e come le diverse caratteristiche della formazione influenzano l’emergere degli effetti del contenuto aiuterà anche a comprendere ulteriormente le somiglianze e le differenze tra i modelli linguistici e gli esseri umani nel processo di ragionamento, rendendoli più ampiamente utilizzati. Gioca un ruolo maggiore negli scenari applicativi.

Collegamento cartaceo:

https://academic.oup.com/pnasnexus/article/3/7/pgae233/7712372

|Fai clic per seguirmi e ricordati di contrassegnare come Speciale|