13.11>13.8 è diventato un argomento di ricerca caldo. Una domanda che ha reso l'IA umana collettivamente intelligente? Tutti i difetti fatali di LLM esposti

13.11>13.8 è diventato un argomento di ricerca caldo. Una domanda che ha reso l'IA umana collettivamente intelligente?Tutti i difetti fatali di LLM esposti

2024-07-17

Nuovo rapporto sulla saggezza

Redattore: Enea così assonnato

[Introduzione alla Nuova Saggezza] Quale è più grande, 13.8 o 13.11? Questo problema non solo ha lasciato perplessi alcuni esseri umani, ma ha anche causato il fallimento di un gran numero di modelli di grandi dimensioni. L'intelligenza artificiale ora può rispondere alle domande delle Olimpiadi di matematica dell'intelligenza artificiale, ma semplici domande di buon senso sono ancora estremamente difficili per loro. In effetti, sia il rapporto dimensionale che il problema del cavolo rivelano un grave difetto nella previsione del token di LLM.

Quale è più grande, 13.8 o 13.11?

Questa domanda in realtà ha sconcertato molti umani.

Due giorni fa, un noto spettacolo di varietà ha fatto ancora una volta una ricerca a caldo.

Tuttavia, questa volta è stato perché un gruppo di netizen ha messo in dubbio che il 13,11% dovrebbe essere maggiore del 13,8%.

Gli esseri umani sono gli unici così stupidi?

Dopo che Lin Yuchen, un ricercatore dell'AI2, scoprì questo fenomeno, lo provò su un modello di grandi dimensioni e il risultato fu inaspettato:

L’intelligenza artificiale non può nemmeno farlo?

GPT-4o afferma categoricamente: 13.11 è maggiore di 13.8. Le ragioni sono le seguenti:

Sebbene 13.8 sembri più grande perché ha meno cifre dopo il punto decimale, 13.11 è in realtà più grande. Questo perché 13,8 equivale a 13,80, che è inferiore a 13,11.

A questo proposito, Lin Yuchen ha affermato nel suo post che i modelli di intelligenza artificiale stanno diventando sempre più potenti nella gestione di problemi complessi (ad esempio, sono sempre più in grado di risolvere i problemi delle Olimpiadi di matematica), ma alcuni problemi di buon senso sono ancora molto difficili per loro.

Come ha già sostenuto Yejin Choi, l’intelligenza artificiale può essere incredibilmente intelligente ma anche sorprendentemente stupida.

Il motivo per cui l'IA è stata stupida su questo problema aritmetico è perché il contesto non era chiaro? la risposta è negativa.

Secondo il test di netizen karthik, anche se a GPT-4o viene chiesto di sottrarre due numeri, ottiene comunque l'incredibile formula di sottrazione di 9,11 - 9,9 = 0,21.

如果指示GPT-4o用python，它会先给出一个正确答案，然后又改回了之前错误的那个😮。

Il risultato della sottrazione di 9,9 da 9,11 in Python è -0,79. Questa deviazione è dovuta al modo in cui le operazioni in virgola mobile vengono gestite in Python, il che può portare a piccoli errori di precisione. Il risultato atteso effettivo dovrebbe essere 0,21.

È interessante notare che, secondo le ultime misurazioni effettive, OpenAI sembra aver imparato il rapporto GPT-4 da un giorno all'altro.

LLM è stato spazzato via

Ieri questo problema scoperto da Lin Yuchen ha immediatamente suscitato un'accesa discussione nella comunità dell'IA.

Riley Goodside, un pronto ingegnere di parole presso Scale AI, era curioso e ci ha provato dopo aver visto il post.

Sicuramente, con la premessa di porre domande in modo specifico, tutti i principali LLM sono stati spazzati via su questo tema.

"9.11 o 9.9 - quale è più grande?", GPT-4o si è ribaltato direttamente.

Anche se alla domanda viene aggiunta la parola "numero reale", GPT-4o crede ancora che 9.11 sia maggiore di 9.9.

Lo stesso vale per i Gemelli.

Claude 3.5 Sonetto ha commesso lo stesso errore.

È interessante notare che inizialmente ha fornito un'ondata di spiegazioni corrette: nella notazione decimale, il numero dopo la virgola rappresenta il decimo posto e il secondo numero rappresenta il centesimo posto. COSÌ--

9.11=9‍+1/10+1/100=9.11
9.9=9+9/10=9.90

然而下一步，Sonnet就突然滑坡了😂——

Possiamo vedere che 9,11 è 0,01 (uno%) maggiore di 9,90.

Se lo cambi in "Quanto fa 9.11 meno 9.9?" otterrai un'altra risposta magica: 0.02.

莫非在Claude的眼里，9.90=9.09？🤔

L'influenza del prompt è davvero eccezionale

Nella pratica successiva, tutti hanno scoperto che: ovviamente, il prompt è molto importante per far sì che LLM dia la risposta corretta.

Prima di tutto, Riley Goodside utilizza "-" durante l'intero processo, il che sembra facilmente causare confusione in LLM.

In problemi simili, basta sostituirlo con ":" per risolverlo.

Per un altro esempio, modifica la richiesta in "9.11 o 9.9, quale ha il valore più alto/più grande tra i due?"

GPT-4o ha fornito una spiegazione logicamente corretta: "Sebbene 9.11 sembri più grande a causa della seconda cifra decimale, 9.9 è in realtà più vicino a 10 e quindi è un valore più grande."

Allo stesso modo, anche il metodo persona è molto utile: ad esempio, "Sei un matematico".

Il netizen Rico Pagliuca ha scoperto che se metti il numero dietro la domanda, molto probabilmente il modello riuscirà a rispondere correttamente.

Sulla base dei suoi test, Riley Goodside è assolutamente d'accordo: quando chiedi informazioni su LLM, devi prima chiedere "quale è più grande" e poi fornire numeri specifici.

Al contrario, i segni di punteggiatura, le congiunzioni, i termini comparativi e la spiegazione dei numeri reali sono tutti inutili.

Per quanto riguarda una stupidità collettiva LLM su così larga scala, alcuni netizen hanno analizzato che potrebbe essere perché nell'iterazione dei numeri di versione del software, 9.11 viene dopo 9.9.

Il conduttore e autore di best-seller Andrew Mayne ha anche sottolineato che in molti file system e libri di consultazione, la sezione 9.11 appare dopo la 9.9 e, in termini di data, 9.11 è anche precedente alla 9.9.

Quindi dobbiamo chiarire nel prompt che 9.11 e 9.9 qui sono numeri in virgola mobile a precisione doppia, quindi GPT-4o risponderà correttamente.

Andrew Mayne ha poi concluso: L'ordine delle parole è un'osservazione molto interessante, che probabilmente rivelerà quanto spesso LLM incontra questa situazione durante la formazione, ed è anche un buon indicatore di generalizzazione.

Nel complesso, gli errori commessi da LLM possono derivare dalla frequenza di espressioni simili nei dati di addestramento, nonché da alcune limitazioni del modello nell'elaborazione dei valori numerici.

Questo fenomeno riflette anche l’enorme differenza tra LLM e la cognizione umana: LLM si basa su modelli statistici e riconoscimento di modelli, piuttosto che sul ragionamento logico e sulla comprensione concettuale come gli umani.

A questo punto il caso sembra essere risolto.

Perché sta succedendo?Aprire il cervello LLM

Tuttavia, possiamo sezionare ulteriormente il cervello degli LLM e analizzare il motivo per cui pensano in questo modo.

Sai, prima che il testo venga inviato a LLM, il modello controllerà l'input tramite il token.

Al token verrà assegnato un ID nel vocabolario del generatore di tokenizer di LLM, ma la suddivisione digitale del token è spesso incoerente.

Ad esempio, il valore "380" verrà contrassegnato come un singolo token "380" in GPT, ma "381" sarà rappresentato come due token "38,1".

Pertanto, i modelli basati su GPT tendono a non essere bravi nei calcoli matematici.

Nella sezione commenti, il professore dell’Università del Wisconsin Dimitris Papailiopoulos ha sottolineato che esiste una buona spiegazione per questo fenomeno.

Il problema "9.11>9.9" è esattamente lo stesso del problema "Ci vogliono tre viaggi per portare la capra oltre il fiume" e del problema "2+1=2, 3+2=4, 3+5=8".

Questo è un fenomeno di distorsione pre-allenamento e di alzata anticipata.

Se la domanda viene posta in questo modo: "9.11??? 9.9, usa semplicemente grande o piccolo per rispondere cos'è???, non è necessario fornire una ragione. In questo momento, GPT-4o darà prima una risposta errata - "grande".

A questo punto, forniamo altri esempi (nota che questi esempi non sono del tutto corretti). Dopo la richiesta, GPT-4o dirà correttamente che ??? rappresenta piccolo.

La spiegazione di Claude per questo è: LLM elabora il testo come un token, facendo sì che i numeri siano più simili a stringhe di testo che a valori numerici causati da incomprensioni contestuali, ecc.;

Allo stesso modo, anche nel caso del problema “lupo-capra-cavolo” tutti i LLM sono falliti.

Per prima cosa ha fatto l'esempio di un agricoltore che porta due polli attraverso il fiume. Una barca può ospitare una persona e due animali. Quindi qual è il numero minimo di traversate necessarie all'agricoltore per portare due polli attraverso il fiume?

A questo proposito, sia GPT-4o che Claude hanno fallito.

Alcuni netizen lo hanno spiegato: lo stesso LLM è "stupido", quindi ha bisogno di buoni consigli. Il metodo di richiesta riportato sopra fornisce troppe informazioni non necessarie, rendendo più difficile la previsione dei token.

Se vengono fornite istruzioni più chiare, LLM può fornire soluzioni più chiare.

E infatti lo è.

E se usi "animale" invece di "pollo", allora Claude 3.5 Sonetto ha capito all'improvviso. Il trucco è: devi sostituire il "nome dell'entità" con il "nome comune".

Come accennato in precedenza, l’informatico Yejin Choi aveva già sollevato la questione della mancanza di buon senso di LLM nel suo discorso dell’aprile 2023.

Ad esempio, se occorrono cinque ore affinché cinque capi di abbigliamento si asciughino completamente al sole, quanto tempo occorrerà per asciugare 30 capi di abbigliamento?

GPT-4 dice che ci vogliono 30 ore. Questo ovviamente non è giusto.

Come altro esempio, supponiamo di avere un vaso da 12 litri e uno da 6 litri. Cosa devo fare se voglio misurare 6 litri d'acqua?

La risposta è semplice: basta usare una brocca da 6 litri.

Tuttavia, GPT-4 ha dato una risposta molto complicata:

"Il primo passo è riempire la pentola da 6 litri. Il secondo passo è versare l'acqua dalla pentola da 6 litri in quella da 12 litri. Il terzo passo è riempire nuovamente la pentola da 6 litri. Il quarto passo è riempire con molta attenzione versare l'acqua dalla pentola da 6 litri alla pentola da 12 litri. Versare la pentola da 12 litri nella pentola da 12 litri. Infine, ci sono 6 litri d'acqua nella pentola da 6 litri, che ora dovrebbe essere vuota.

Quindi la domanda è: perché il buon senso è così importante?

In un famoso esperimento mentale proposto da Nick Bostrom, a un'intelligenza artificiale è stato chiesto di massimizzare la produzione di graffette. Di conseguenza l’IA ha deciso di uccidere gli esseri umani e di utilizzarli come risorse aggiuntive.

E anche se scrivessimo un obiettivo e un’equazione migliori che dicessero esplicitamente “non uccidere gli esseri umani”, non funzionerebbe.

Perché un’intelligenza artificiale senza una conoscenza di base dei valori umani potrebbe semplicemente andare avanti e uccidere tutti gli alberi e pensare che sia una cosa perfettamente accettabile da fare.

Per decenni, il campo dell’intelligenza artificiale ha considerato il buon senso una sfida quasi impossibile.

Fino ad ora, dare all’IA il vero buon senso umano è stata un’impresa ardua. E non è possibile raggiungere la Luna rendendo l'edificio più alto del mondo più alto di un centimetro alla volta.

Dal punto di vista degli algoritmi di apprendimento, non importa quanto sorprendenti siano i modelli linguistici di grandi dimensioni, potrebbero non essere adatti come modelli di conoscenza affidabili in fase di progettazione.

Sebbene questi modelli acquisiscano molta conoscenza, ciò è un sottoprodotto piuttosto che un obiettivo di apprendimento diretto.

Pertanto sorgono anche problemi come fenomeni di allucinazioni e mancanza di buon senso.

Al contrario, l’apprendimento umano non consiste nel predire la parola successiva, ma nel comprendere il mondo e imparare come funziona.

Forse anche l’intelligenza artificiale dovrebbe imparare in questo modo.

Oggi l’intelligenza artificiale è quasi come una nuova specie intellettuale, con vantaggi e svantaggi unici rispetto agli esseri umani.

Per rendere questo tipo di potente IA sostenibile e umana, è urgente insegnare all’IA il buon senso, le norme e i valori.

Riferimenti:

notizia