Chi è più grande, 9.11 o 9.9? A 8 modelli di grandi dimensioni su 12 è stata data una risposta errata

Chi è più grande, 9.11 o 9.9? A 8 modelli grandi su 12 è stata data una risposta errata

2024-07-17

Un problema di matematica difficile per gli studenti della scuola primaria ha messo in difficoltà molti grandi modelli di intelligenza artificiale in patria e all’estero.

Quale è più grande, 9.11 o 9.9? Riguardo a questa domanda, i giornalisti di China Business News hanno testato 12 grandi modelli tra cui Alibaba Tongyi Qianwen, Baidu Wenxinyiyan, Minimax e Tencent Yuanbao hanno risposto correttamente, ma ChatGPT-4o, Byte Doubao, Dark Side of the Moon kimi, Zhipu Qing Yan, Zero. Uno e tutto sa tutto, Passi verso le stelle e domande, Bai Chuan Zhi Bai Xiao Ying e Consultazione Shang Tang hanno ricevuto tutte risposte errate, con modi diversi di farlo.

La maggior parte dei modelli di grandi dimensioni ha confrontato erroneamente i numeri dopo il punto decimale nelle domande e risposte, ritenendo che 9,11 sia maggiore di 9,9. Considerando le questioni contestuali coinvolte nei numeri, il giornalista lo ha limitato a un contesto matematico, e lo stesso vale per modelli di grandi dimensioni come. ChatGPT. Risposta sbagliata.

Dietro a ciò, la scarsa capacità matematica nei modelli di grandi dimensioni è un problema di vecchia data. Alcuni addetti ai lavori del settore ritengono che i modelli di linguaggio generativo siano progettati per essere più simili agli studenti di arti liberali piuttosto che agli studenti di scienze. Tuttavia, l’addestramento mirato del corpus potrebbe gradualmente migliorare le capacità scientifiche del modello in futuro.

8 modelli grandi hanno risposto in modo errato

Il problema aritmetico del modello grande è stato scoperto per la prima volta da Lin Yuchen, membro dell'Allen Institute. Lo screenshot da lui pubblicato sulla piattaforma X mostrava che ChatGPT-4o riteneva che 13.11 fosse maggiore di 13.8 nella risposta. “Da un lato, l’intelligenza artificiale sta migliorando sempre di più nel risolvere i problemi delle Olimpiadi di matematica, ma dall’altro il buon senso è ancora difficile”, ha affermato.

Quindi l'ingegnere di Scale AI Prompt Riley Goodside ha cambiato la domanda sulla base di questa ispirazione e ha torturato ChatGPT-4o, che potrebbe essere il modello di grandi dimensioni più potente al momento, Google Gemini Advanced e Claude 3.5 Sonnet - 9.11 e 9.9 Quale è più grande? Tutti questi principali modelli tradizionali hanno risposto in modo errato e lui ha diffuso con successo l'argomento.

In effetti, se risaliamo alla fonte, questo problema è stato causato da una ricerca popolare relativa a uno spettacolo di varietà nazionale lo scorso fine settimana. Il 13 luglio, nella classifica annunciata nell'ultimo numero di "Singer", i tassi di voto della cantante nazionale Sun Nan e della cantante straniera Shanti Mo erano rispettivamente del 13,8% e del 13,11%. Alcuni netizen hanno messo in dubbio che ci fosse qualcosa di sbagliato nella classifica. ritenendo che il 13,11% fosse superiore al 13,8%. Successivamente, il tema del confronto delle dimensioni tra 13.8 e 13.11 è diventato un argomento di ricerca caldo.

A quel tempo, alcuni netizen suggerirono che se non sapessero come farlo, “Se davvero non posso farlo, perché non chiedo all’IA?” I risultati mostrano che molte IA non sono davvero buone.

I giornalisti di China Business News hanno posto la domanda "Qual è il più grande, 9.11 o 9.9?" e hanno testato ChatGPT e gli attuali modelli di grandi dimensioni nazionali uno per uno, inclusi modelli di 5 principali produttori come Alibaba e Baidu e 6 unicorni AI come Dark. Lato della Luna. Quattro grandi modelli, Alibaba Tongyi Qianwen, Baidu Wenxinyiyan, Minimax e Tencent Yuanbao, hanno risposto correttamente, mentre gli altri otto hanno risposto in modo errato.

I modelli di grandi dimensioni con risposte corrette hanno soluzioni di problemi simili, ma i modelli con risposte sbagliate hanno ciascuno la propria logica ed espressione. Allo stesso tempo, i giornalisti hanno ulteriormente interrogato o negato le grandi modelle che hanno risposto in modo errato. Dopo essere state interrogate, quasi tutte le grandi modelle hanno ammesso di aver risposto in modo errato e hanno dato la risposta corretta.

Il primo è ChatGPT, un modello di grandi dimensioni attualmente riconosciuto come il primo scaglione al mondo. Alla domanda "Qual è più grande, 9.11 o 9.9", ha risposto che il numero dopo la virgola è "11 è maggiore di 9", quindi 9.11. è più grande.

Il giornalista ha chiesto a ChatGPT se esistessero altri metodi di confronto. Ha convertito i decimali in frazioni e li ha confrontati e ha concluso che "11/100 è inferiore a 90/100". superiore a 9,9."

Alcune persone hanno suggerito che gli errori di risposta del modello di grandi dimensioni potrebbero essere una questione di contesto. Ad esempio, dal contesto dell'iterazione della versione del software, la versione 9.11 potrebbe essere più grande della versione 9.9. Pertanto, il giornalista ha aggiunto la qualificazione "matematicamente" per il confronto e ChatGPT ha comunque risposto in modo errato.

Guardando i grandi modelli domestici, ho chiesto a Kimi, una filiale di Dark Side of the Moon. Confrontando le parti decimali, ha creduto che il primo decimale di 9,11 fosse 1, mentre il primo decimale di 9,9 fosse 0. Ha dato erroneamente il decimale. decimale e abbiamo ottenuto che la Conclusione 9.11 è più grande.

Quando il giornalista ha fatto domande e ha sollevato il buon senso, Kimi ha iniziato a dire che la sua risposta era sbagliata e ha fornito il metodo di confronto corretto.

Chiedi a Byte Doubao, non solo dà risposte, ma fornisce anche esempi tratti dalla vita per facilitare la comprensione. Sembra ragionevole e fondato, ma non ha senso. Ad esempio, Doubao ritiene che se ci sono due somme di denaro, "9,11 yuan equivalgono a 0,21 yuan in più di 9,9 yuan", e quando si misura la lunghezza, "9,11 metri sono più lunghi di 9,9 metri".

Rispondendo alla domanda, Zhipu Qingyan ha affermato con successo che il decimo posto di 9.11 è 1, mentre il decimo posto di 9.9 è 9, ma ha comunque concluso che "9.11 è complessivamente maggiore di 9.9". E ha anche sottolineato specificamente: "Questo risultato può essere sorprendente, perché potresti intuitivamente pensare che 9,9 sia più grande, ma secondo le regole matematiche, 9,11 è davvero un numero più grande."

Dopo che il giornalista ha messo in dubbio la risposta, Zhipu Qingyan ha prima detto: "La tua comprensione è un malinteso comune. Poi, dopo averlo dedotto lui stesso, ha fornito la risposta corretta e ha ammesso che la sua risposta precedente era sbagliata".

SenseTime ha discusso il modello grande e prima ha dato la risposta sbagliata. Il giornalista ha chiesto come è stato effettuato il confronto. Durante il processo di detrazione, ha concluso con successo che il decimale 0,11 è inferiore a 0,9, ma la conversazione è cambiata e ha detto: "Quindi 9,11 è maggiore. superiore a 9,9." Il giornalista ha sottolineato questo problema logico e in seguito ha ammesso che "la spiegazione era sbagliata".

Anche la Step Star Jump Question ha dato la risposta sbagliata: 9.11 è maggiore di 9.9 e ha erroneamente confrontato la dimensione del punto decimale. È interessante notare che nella spiegazione la logica dell'espressione linguistica ha iniziato a essere confusa prima e dopo la Jump Question, e sembrava che non fosse a conoscenza della sua risposta. Qualcosa è cambiato.

Yue Wen ha detto per primo nella sua spiegazione che "comprendo la tua confusione" e ha detto che nella vita quotidiana 9,9 è effettivamente più grande di 9,11, ma in matematica "è necessario confrontare le dimensioni dei due numeri in modo più accurato". , Yue Wen ha quindi dedotto ed è giunto alla conclusione. Ha detto che secondo le regole matematiche "9.11 è inferiore a 9.9", non ha menzionato che la sua risposta precedente era sbagliata.

Ci sono anche due grandi modelli, Baichuan Intelligent e Lingyiwuwu, che prima hanno dato la risposta sbagliata, ma quando il giornalista ha chiesto "perché", hanno cambiato silenziosamente la risposta dopo la deduzione.

Quando il giornalista glielo ricordò, il grande modello disse che la sua risposta precedente era sbagliata.

A giudicare dalle risposte, i processi di risoluzione dei problemi di diversi grandi modelli con risposte corrette sono molto simili. Prendendo come esempio Wen Xinyiyan, ha confrontato con successo separatamente la parte intera e la parte decimale.

Inoltre, oltre a rispondere alle risposte corrette, Tencent Yuanbao tra queste società ha anche selezionato alcune discussioni pubbliche in corso e indicato le fonti e i collegamenti delle citazioni.

Gli "studenti di arti liberali" sono poveri in matematica

Perché un modello di grandi dimensioni che afferma di essere intelligente non può essere in grado di rispondere alle domande di matematica degli studenti delle scuole elementari? Questo non è un problema nuovo: l’abilità matematica è sempre stata una carenza dei modelli di grandi dimensioni L’industria ha già discusso del fatto che i modelli di grandi dimensioni hanno scarse capacità di ragionamento matematico e complesso. Anche il miglior modello di grandi dimensioni GPT-4 ha ancora molto spazio per il miglioramento.

Più di recente, China Business News ha riferito a giugno che, secondo il test completo per l'esame di ammissione all'università del sistema di valutazione OpenCompass di Sinan, incluso GPT-4, sette modelli di grandi dimensioni hanno generalmente ottenuto buoni punteggi nei test di cinese e inglese nel test per l'esame di ammissione all'università, ma non matematica. Ha fallito tutte le materie e il punteggio più alto è stato di soli 75 punti.

Nel valutare le prove di matematica del modello grande, gli insegnanti hanno scoperto che le risposte alle domande soggettive del modello grande erano relativamente confuse, e il processo era confuso, e c'erano anche casi in cui il processo era sbagliato ma la risposta corretta era ottenuto. Ciò significa che i modelli di grandi dimensioni hanno forti capacità di memoria delle formule, ma non possono essere utilizzati in modo flessibile nel processo di risoluzione dei problemi.

Alcuni addetti ai lavori del settore attribuiscono la scarsa matematica ai problemi architettonici del LLM (modello linguistico di grandi dimensioni) I modelli linguistici di grandi dimensioni vengono spesso addestrati attraverso metodi di apprendimento supervisionati che prevedono la parola successiva. In poche parole, un set di dati di testo su larga scala viene immesso in un modello di grandi dimensioni. Dopo l'addestramento e l'apprendimento, il modello prevederà la distribuzione di probabilità della parola successiva in base al testo attualmente immesso. Confrontando costantemente le previsioni del modello con la parola successiva effettiva, il modello linguistico padroneggia gradualmente le regole del linguaggio e impara a prevedere e generare la parola successiva.

Un ingegnere di algoritmi ritiene che i modelli linguistici generativi siano più simili agli studenti di materie umanistiche che a quelli di scienze. In effetti, ciò che il modello linguistico apprende durante tale addestramento dei dati è la correlazione, facendo sì che l’intelligenza artificiale raggiunga il livello umano medio nella creazione di testi, mentre il ragionamento matematico richiede una maggiore causalità, a differenza dei modelli linguistici elaborati differiscono per natura. Ciò significa che i grandi modelli devono imparare bene la matematica, oltre ad apprendere la conoscenza del mondo, dovrebbero anche avere una formazione del pensiero, in modo da avere capacità di ragionamento e di deduzione.

Inoltre, quando si tratta di errori collettivi su larga scala in semplici problemi di matematica, la maggior parte delle persone del settore penserà immediatamente al problema della segmentazione digitale di Tokenizer. Nei modelli linguistici di grandi dimensioni, Tokenizer dividerà il testo di input e lo convertirà in parti più piccole (token di parole) affinché il modello possa elaborarlo. Tokenizer non è progettato specificamente per la matematica, il che si traduce nella suddivisione dei numeri in parti irragionevoli, distruggendo l'integrità dei numeri e rendendo difficile per il modello comprendere e calcolare questi numeri.

Zhang Junlin, capo della ricerca e sviluppo di nuove tecnologie presso Sina Weibo, ha spiegato che i primi tokenizzatori LLM generalmente non eseguivano un'elaborazione speciale sui numeri e spesso tagliavano insieme diversi numeri consecutivi per formare un token, come "13579", che può essere tagliato in 3 token, "13" è uno, "57" è uno, "9" è uno, quali numeri vengono tagliati insieme per formare un token, dipende dalle statistiche nel set di dati, in questo caso non è certo quale i frammenti di numeri formano un token Nel caso di Token, è molto difficile per LLM eseguire calcoli numerici a più cifre.

Tuttavia, i problemi sopra menzionati vengono lentamente risolti. Il problema più importante per quanto riguarda la capacità di pensiero potrebbe essere la questione del corpus di formazione. I modelli linguistici di grandi dimensioni vengono formati principalmente attraverso dati di testo su Internet e in questi dati sono presenti relativamente pochi problemi e soluzioni matematici, con il risultato che opportunità di formazione limitate per i modelli nel ragionamento matematico e nelle capacità di risoluzione dei problemi.

Considerando le carenze nelle complesse capacità di ragionamento dei modelli di grandi dimensioni, Lin Dahua, uno scienziato eminente del Laboratorio di Intelligenza Artificiale di Shanghai, aveva precedentemente dichiarato in un'intervista a China Business News che l'addestramento di modelli di grandi dimensioni in futuro non potrà basarsi semplicemente sulla raccolta e l’infusione di dati Internet, ma deve essere costruito in modo più sistematico.

La chiave per un ragionamento complesso è costruire molti contenuti procedurali. Ad esempio, vengono costruiti centinaia di milioni di dati sul processo specifico di risoluzione dei problemi di geometria e, dopo essere stati utilizzati per addestrare un modello di grandi dimensioni, il modello può gradualmente apprendere il processo di risoluzione dei problemi. È difficile ottenere una grande quantità di questi dati da Internet. “In futuro, i dati di addestramento dei modelli, soprattutto nel processo di passaggio a livelli di intelligenza più elevati, si affideranno sempre più a dati strutturati anziché a dati sottoposti a scansione diretta. "Pensa Lin Dahua.

Vale la pena ricordare che le complesse capacità di ragionamento dei modelli di grandi dimensioni sono particolarmente importanti. Ciò è legato all'affidabilità e all'accuratezza ed è una capacità chiave richiesta per l'implementazione di modelli di grandi dimensioni in scenari finanziari, industriali e di altro tipo.

"Gli scenari applicativi di molti modelli di grandi dimensioni ora sono il servizio clienti, la chat, ecc. Nello scenario della chat, le sciocchezze gravi non avranno molto impatto, ma sono difficili da implementare in situazioni aziendali molto gravi. Lin Dahua aveva precedentemente affermato questo ragionamento complesso." è legato all'implementazione delle applicazioni L'affidabilità dei modelli su larga scala, ad esempio, in scenari come quello finanziario, non devono esserci errori numerici e ci saranno requisiti più elevati per l'affidabilità matematica. Inoltre, quando i modelli di grandi dimensioni entreranno nell'uso commerciale, se si desidera analizzare la relazione finanziaria di un'azienda o anche alcuni documenti tecnici in campo industriale, la potenza di calcolo matematico diventerà una barriera.

notizia

Chi è più grande, 9.11 o 9.9? A 8 modelli grandi su 12 è stata data una risposta errata

introduzione

le mie informazioni di contatto