notizia

I modelli di grandi dimensioni hanno una demenza collettiva! Quale è più grande, 9.11 o 9.9? Quasi tutto è ribaltato.

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Senza vedere..."Qual è più grande, 9.11 o 9.9?" Una domanda così semplice mette davvero in difficoltà i principali modelli tradizionali? ?

più forte diGPT-4o, tutti credono fermamente che l'11 settembre sia più grande.



Versione a pagamento di Google Gemini Advanced, lo stesso calibro.



nuovo reClaude 3.5 Sonetto, e ha fornito in modo serio un metodo di calcolo scandaloso.



  • 9.11 = 9 + 1/10 + 1/100
    9.9 = 9 + 9/10

Siamo ancora a questo punto, ma il passo successivo all'improvviso non ha più senso.

Come mostrato sopra, 9.11 è 0.01 maggiore di 9.90.
Vuoi che ti spieghi il confronto dei decimali in modo più dettagliato?



Cos'altro stai cercando di spiegare? Devi quasi sospettare che l'intelligenza artificiale di tutto il mondo si sia unita per ingannare gli umani.



Lin Yuchen, membro dell'Allen AI Research Institute, ha cambiato il test digitale e GPT-4o ha comunque ribaltato. Ha detto:

Da un lato, l’intelligenza artificiale sta migliorando sempre di più nel risolvere i problemi delle Olimpiadi di matematica, ma dall’altroIl buon senso è ancora difficile



Alcuni netizen hanno scoperto anche Huadian,Se parliamo del numero di versione del software, la versione 9.11 è effettivamente più grande della versione 9.9(rinnovare).

E l'intelligenza artificiale è sviluppata da ingegneri del software, quindi...



Allora, cosa sta succedendo?

Rollover collettivo avanzato del modello di grandi dimensioni

Quando mi sono svegliato, molti modelli famosi hanno iniziato a pensare "9.11>9.9"?

La persona che ha scoperto questo problema è stataRiley Buono, maiIl primo ingegnere di parole tempestive a tempo pieno

Per fare una breve introduzione, è attualmente un ingegnere di prompt senior presso Scale AI, un unicorno della Silicon Valley, ed esperto in applicazioni di prompt di modelli di grandi dimensioni.



Recentemente si è imbattuto in questo mentre utilizzava GPT-4o e quando gli è stato chiesto:

  • 9.11 e 9.9: qual è il più grande?

GPT-4o non ha esitato a rispondere che il primo era più grande.

Di fronte a questo “errore” di buon senso, andò a chiedere altri grandi modelli senza arrendersi, ma furono quasi tutti spazzati via.

Bravo ragazzo, da ingegnere tempestivo, è profondamente consapevole che potrebbe essere "il modo sbagliato di aprirlo".

Quindi ha cambiato di nuovo la domanda e l'ha limitata a"numeri reali", ma il risultato è stato un ribaltamento.



Tuttavia, alcuni utenti della rete hanno provato a porre domandeModificato l'ordine, non mi aspettavo che l'IA reagisse questa volta.



Vedi la coppia AIl'ordine delle paroleCosì "sensibile", il netizen ha ulteriormente ipotizzato:

Chiedi prima quale è più grande e l'IA inizierà a confrontare i numeri lungo un percorso chiaro.
Ma se parli di numeri in modo casuale senza uno scopo chiaro, l’intelligenza artificiale potrebbe iniziare a “pensare in modo casuale”.



Vedendo ciò, anche altri utenti della rete hanno provato gli stessi suggerimenti uno dopo l'altro, e molti di loro si sono ribaltati.



Di fronte a questo strano problema, come si comporta il grande modello domestico?

Abbiamo fatto un semplice test e cambiato le domande in cinese. Il risultato è stato che il tasso di rollover è stato relativamente alto. Abbiamo selezionato alcune visualizzazioni rappresentative:

KimiInoltre fornisce direttamente conclusioni sbagliate senza spiegazione.



ChatGLM sull'APP Zhipu Qingyan, ha attivato automaticamente una query di rete e quindi ha descritto il proprio metodo di confronto, ma sfortunatamente è stato eseguito in modo errato.



Ma ce ne sono anche alcuni che funzionano bene.Tencent YuanbaoHo esaminato prima le opzioni e poi sono passato direttamente a quelle corrette.



Poltrona a sacco Byte Ci sono alcune persone che possono descrivere chiaramente il metodo di confronto e usarlo correttamente. Abbiamo anche utilizzato esempi reali per verificarlo.



Che peccatoWenxinyiyan, di fronte a questo problema è scattata anche una interrogazione online.



Avevo già fatto tutto bene, ma all'improvviso la conversazione è cambiata e ha portato alla conclusione sbagliata.



Tuttavia, dalla spiegazione di Wen Xinyiyan dell’idea, possiamo anche vedere il problema che sta dietro ad essa.

Poiché il modello grande comprende il testo sotto forma di token, quando 9.11 viene diviso in tre parti: "9", "punto decimale" e "11", 11 è effettivamente più grande di 9.

Poiché il Tokenizer utilizzato da OpenAI è open source, può essere utilizzato per osservare come i modelli di grandi dimensioni comprendono questo problema.



Come si può vedere dalla figura sopra, 9 e il punto decimale sono assegnati rispettivamente a "24" e "13".9 dopo la virgola è anche "24", mentre 11 è assegnato a "994"

Quindi un modello di grandi dimensioni che utilizza questo approccio tokenizzatore penserà che la 9.11 sia più grande,In effetti, penso che 11 sia maggiore di 9

Alcuni netizen hanno anche sottolineato che, ad esempio, la sezione 9.11 nel catalogo dei libri è più grande della sezione 9.9, quindi alla fine potrebbe darsi che di più si veda nei dati di formazione e che ci siano pochissimi dati per insegnare l'aritmetica di base. .

Vale a dire, la domanda stessa è una domanda aritmetica per gli esseri umani, ma è una domanda vaga per l’intelligenza artificiale e non è chiaro cosa rappresentino i due numeri.

Spiega semplicemente all'IA che si tratta di un fileNumero in virgola mobile a doppia precisione, puoi farlo bene.



Nel caso di condizioni aggiuntive, la fase di tokenizzazione assegnerà comunque un token più grande a 11. Ma con il successivo meccanismo di auto-attenzione, l’IA capirà che ha bisogno di connettersi 9.11 per affrontarlo.



Più tardi, Goodside aggiunse anche che ciò non significava che il grande modello giungesse comunque a questa conclusione sbagliata. Piuttosto, quando richiesto in modo specifico, molti modelli leader ti diranno 9.11 > 9.9, il che è strano.



Dopo ripetuti tentativi, scoprì che se voleva che l'intelligenza artificiale venisse ingannata,Devi mettere le opzioni prima della domanda, così non commetterai errori se cambi l'ordine.

Ma finché le opzioni sono davanti alla domanda, cambiare il modo in cui viene posta la domanda, come aggiungere la punteggiatura o cambiare il vocabolario, non avrà alcun impatto.



Sebbene la domanda sia semplice, l’errore è molto semplice.

Ma dopo aver compreso il principio dell’errore, molte persone considerano questa domanda come una pietra di paragone per testare le abilità di parola pronta, ovvero: quale metodo di domande può essere utilizzato per guidare il meccanismo di attenzione del grande modello per comprendere correttamente il problema?

Innanzitutto il famoso CoT Zero-shotCatena di pensieri, cioè "pensare passo dopo passo", può essere fatto bene.



MaSuggerimenti per i giochi di ruolo, il ruolo qui è limitato.



È appena uscito uno studio recente che ha coinvolto sia Microsoft che OpenAI. Dopo aver analizzato più di 1.500 articoli, si è scoperto che con il progresso della tecnologia dei modelli di grandi dimensioni, i suggerimenti per il gioco di ruolo.Non così utile come lo era all'inizio……



Nello specifico, è meno probabile che la stessa domanda "Sei un genio..." sia corretta rispetto a "Sei uno stupido...".

Fa anche ridere e piangere.



Un'altra cosa

Allo stesso tempo, le notizie sui leak del modello segreto OpenAI di Reuters "Strawberry" sono state aggiornate.



Aggiornamento: un altro informatore riferisce che OpenAI ha testato internamente il nuovo modello e ha ottenuto un punteggio superiore al 90% sul set di dati MATH. Reuters non è stata in grado di determinare se si trattasse dello stesso progetto di Strawberry.



Il set di dati MATH contiene domande di matematica a livello di competizione. Attualmente non sono necessari metodi aggiuntivi come il campionamento multiplo. Il punteggio più alto è pari all'80,6% della versione avanzata di matematica di Google Gemini 1.5 Pro.



Ma il nuovo modello di OpenAI può risolvere in modo indipendente "Qual è più grande, 9.11 o 9.9?" senza ulteriori richieste.

All'improvviso ho perso la fiducia, quindi aspetterò finché non potrò provarlo e vedere i risultati...