I grandi modelli sono davvero diversi dagli esseri umani nella risoluzione dei problemi matematici: la mancanza di conoscenza è evidente, GPT-4o esegue best

I modelli di grandi dimensioni sono molto diversi dagli esseri umani nella risoluzione dei problemi matematici: la mancanza di conoscenza è evidente e GPT-4o offre le migliori prestazioni

2024-07-23

La rubrica AIxiv è una rubrica in cui Machine Heart pubblica contenuti accademici e tecnici. Negli ultimi anni, la rubrica Heart of the Machine AIxiv ha ricevuto più di 2.000 segnalazioni, riguardanti i migliori laboratori delle principali università e aziende di tutto il mondo, promuovendo efficacemente gli scambi accademici e la divulgazione. Se hai un lavoro eccellente che desideri condividere, non esitare a contribuire o contattarci per segnalarlo. E-mail di presentazione: [email protected] [email protected];

Gli autori di questo articolo provengono dall’Università delle Poste e delle Telecomunicazioni di Pechino, Tencent WeChat, Università di Scienza e Tecnologia di Huazhong e Istituto di Tecnologia di Pechino. Elenco degli autori: Qiao Runqi, Tan Qiuna, Dong Guanting, Wu Minhui, Sun Chong, Song Xiaoshuai, Gongque Zhuoma, Lei Shanglin, Wei Zhe, Zhang Miaoxuan, Qiao Runfeng, Zhang Yifan, Zong Xiao, Xu Yida, Diao Muxi, Bao Zhimin , Li Chen , Zhang Honggang. Tra questi, il co-primo autore Qiao Runqi è uno studente di dottorato presso l'Università delle Poste e delle Telecomunicazioni di Pechino, Tan Qiuna è uno studente di master presso l'Università delle Poste e delle Telecomunicazioni di Pechino e l'autore corrispondente è il professore associato Zhang Honggang dell'Università delle Poste di Pechino. e telecomunicazioni Questo articolo è stato completato da Qiao Runqi durante il suo tirocinio presso WeChat.

Con il rapido sviluppo della tecnologia dell’intelligenza artificiale, i modelli multimodali di grandi dimensioni (LMM) in grado di gestire più informazioni modali sono gradualmente diventati un punto caldo della ricerca. Integrando informazioni provenienti da diverse modalità, gli LMM dimostrano determinate capacità di ragionamento e comprensione e si comportano bene in compiti come la risposta visiva a domande, la generazione di immagini e il recupero intermodale. Questa capacità multimodale fa sì che gli LMM abbiano un grande potenziale applicativo in vari scenari complessi. Al fine di testare rigorosamente e scientificamente se l’intelligenza artificiale ha forti capacità di ragionamento, la risposta alle domande matematiche è diventata un punto di riferimento importante per misurare le capacità di ragionamento del modello.

Guardando indietro alla storia dello sviluppo dell’IA, scopriamo che la cognizione umana e il modo in cui pensiamo ai problemi hanno avuto un profondo impatto sullo sviluppo dell’IA. Scoperte come le reti neurali e i meccanismi di attenzione sono strettamente correlate ai modelli di pensiero umani. Immagina che quando gli esseri umani rispondono a una domanda matematica, debbano prima avere familiarità con i punti di conoscenza esaminati nella domanda e poi utilizzare le conoscenze pertinenti per condurre un ragionamento passo dopo passo per arrivare alla risposta. Ma quando il modello risponde, il suo processo di ragionamento è coerente con quello umano?

Concentrandoci su problemi matematici, abbiamo scoperto che il modello può rispondere a domande complesse, ma non è in grado di rispondere ad alcune domande semplici. Per esplorare le ragioni di questo fenomeno, ispirato al modello umano di pensiero risolutivo dei problemi, abbiamo prima modellato il processo di risoluzione dei problemi consistente prima nel padroneggiare i punti di conoscenza e poi nel usarli per il ragionamento logico come segue:

Tra questi, (X, Y) e (x_i, y_i) rappresentano rispettivamente il problema matematico e le domande e le risposte in ciascun sottoproblema, e P_reason rappresenta la capacità di applicazione completa (generalizzazione della conoscenza) degli LMM. Sulla base di ciò, We-Math ha prima costruito un sistema di conoscenza ad albero multi-livello basato su 67 punti di conoscenza atomici, quindi, sulla base della conoscenza atomica e delle risposte di ragionamento, ha scomposto problemi complessi con più punti di conoscenza in più punti di conoscenza atomici. vengono utilizzati per esplorare il meccanismo di risposta del modello.

Articolo principale: WE-MATH: Il tuo modello multimodale di grandi dimensioni riesce a raggiungere un ragionamento matematico simile a quello umano?
Articolo: https://arxiv.org/pdf/2407.01284
Pagina iniziale: https://we-math.github.io/
Codice: https://github.com/We-Math/We-Math
Set di dati: https://huggingface.co/datasets/We-Math/We-Math

We-Math è attualmente al primo posto nell'HuggingFace Daily Paper del giorno e ha oltre 10.000 visualizzazioni su Twitter!

Punto di riferimento We-Math

1. Composizione dei dati

Il set di dati di valutazione di We-Math contiene un totale di 6,5k problemi di matematica multimodali per la scuola primaria e una struttura di conoscenza multilivello. Ciascun problema di matematica ha punti di conoscenza corrispondenti (1-3). I punti di conoscenza di tutte le domande sono coperti da un'architettura della conoscenza a 5 livelli con 99 nodi (l'ultimo livello contiene 67 punti di conoscenza). E come mostrato nella figura seguente, al fine di alleviare i problemi inerenti al modello nella risoluzione del problema, facciamo riferimento al libro di testo e a Wikipedia e introduciamo euristicamente la descrizione di 67 punti di conoscenza, fornendo così i suggerimenti di conoscenza necessari per il processo di ragionamento di LMM.

2. Suddividi la domanda

Per valutare ragionevolmente il meccanismo di risposta del modello, ci siamo basati rigorosamente sulle risposte standard delle risposte umane e abbiamo scomposto la domanda complessa in n sotto-domande in base ai punti di conoscenza contenuti nella domanda complessa, dove n rappresenta il numero di conoscenze punti contenuti nella domanda complessa.

Come mostrato nella figura seguente, per un problema complesso: Maria ha camminato dal punto più settentrionale di un'aiuola circolare lungo il bordo dell'aiuola fino al punto più orientale. La distanza percorsa è 50,24 metri. Trova l'area della circolare aiuola. Nel processo di risoluzione del problema, devi prima scoprire l'angolo centrale corrispondente al percorso percorso da Maria (il "più nord") in base al punto di conoscenza "sud-est, nord-ovest" e attraverso le condizioni del "più nord" e le direzioni "più orientale" L'angolo tra esso e il "più orientale" è di 90 gradi). Quindi, in base al punto di conoscenza "circonferenza di un cerchio" e alla condizione che l'angolo al centro del cerchio sia di 90 gradi e la lunghezza del percorso percorso da Maria, viene calcolata la circonferenza dell'aiuola circolare e il raggio di si ottiene l'aiuola circolare. Infine, secondo il punto di conoscenza "area del cerchio" e attraverso le condizioni del raggio ottenuto, viene calcolata l'area dell'aiuola circolare e la soluzione del problema è completata.

Analizzando il processo di risoluzione dei problemi di cui sopra, al fine di esplorare il meccanismo di risposta del modello e le prestazioni di ragionamento a grana fine del modello, la domanda originale può essere suddivisa in tre sotto-domande in base ai corrispondenti punti di conoscenza. Nello specifico, la prima domanda: Maria parte da un cerchio Dal punto più settentrionale dell'aiuola al punto più orientale lungo il bordo dell'aiuola, trova il grado dell'angolo al centro corrispondente all'arco del sentiero da lei percorso seconda domanda: In un'aiuola circolare , la lunghezza dell'arco corrispondente ad un angolo al centro di 90 gradi è 59,24 m, trova il raggio dell'aiuola circolare; terza domanda: trova l'area dell'aiuola circolare con un raggio di 32 m.

3. Metriche

Su questa base, come mostrato nella figura seguente, introduciamo un nuovo standard di misurazione quadridimensionale, ovvero padronanza della conoscenza insufficiente (IK), capacità di generalizzazione insufficiente (IG), padronanza completa (CM) e memorizzazione meccanica (RM).

Conoscenza insufficiente (IK): il modello non può rispondere a domande complesse e si verificano errori nelle sotto-domande. Ipotizziamo che il motivo per cui il modello non può rispondere a domande complesse sia dovuto a una conoscenza insufficiente dei punti di conoscenza.
Capacità di generalizzazione insufficiente (IG): il modello non può rispondere a domande complesse, ma tutte le sotto-domande ricevono una risposta corretta. Ipotizziamo che il motivo per cui il modello non può rispondere a domande complesse sia dovuto alla mancanza di capacità di applicazione completa (capacità di generalizzazione).
Padronanza completa (CM): il modello può rispondere a domande complesse e a tutte le sotto-domande. Questo fenomeno è ragionevole e previsto.
Apprendimento meccanico (RM): un modello può rispondere a domande complesse, ma si verificano errori nelle sotto-domande. Ciò è contrario al pensiero logico umano. Se un modello può risolvere problemi complessi in più fasi, non può rispondere alle domande richieste nel processo di soluzione Riteniamo che questa situazione sia irragionevole e consideriamo il caso in cui il modello abbia memoria meccanica.

Tra questi c'è IK tra IK, IG e CM

Esperimenti e conclusioni

We-Math ha attualmente completato le valutazioni su 17 modelli di grandi dimensioni, inclusi un totale di 4 modelli closed source e 13 modelli open source. La Tabella 1 e la Figura 6 mostrano i risultati degli LMM con diversi numeri di punti di conoscenza e le prestazioni del modello con i punti di conoscenza di secondo livello. La Tabella 2 e le Figure 7, 8 e 9 mostrano i risultati degli LMM con indicatori quadridimensionali; e Risultati del punteggio completo secondo standard rigorosi e flessibili. La Figura 10 mostra i risultati di mitigazione della strategia KCA per il modello nei problemi IK;

Le prestazioni degli LMM con diversi numeri di punti di conoscenza e le sue prestazioni con il secondo livello di punti di conoscenza

Esiste un'ovvia correlazione negativa tra la risposta del modello e il numero di punti di conoscenza contenuti nella domanda. Cioè, più punti di conoscenza sono contenuti nella domanda, meno ideale è la risposta del modello. Proponiamo inoltre che la difficoltà di una domanda possa essere modellata dal numero di punti di conoscenza che contiene.
Il modello ha prestazioni migliori sui punti di conoscenza relativi al calcolo e prestazioni scarse su problemi visivi a grana fine. Mostra inoltre che gli LMM sono bravi nell’applicazione delle formule, ma hanno ancora limiti nella comprensione e nella sintesi della conoscenza applicata.
GPT-4o offre le migliori prestazioni, rimanendo avanti nelle domande contenenti diversi numeri di punti conoscenza e fondamentalmente rimanendo avanti in diversi punti conoscenza.
Gli LMM mostrano un certo potenziale di compressione dei parametri. Tra i diversi LMM, LLaVA-NeXT-110B si avvicina di più al GPT-4. Sorprendentemente, nonostante la piccola scala dei parametri, anche modelli come InternVL-Chat-V1.5, GLM-4V-9B, InternLM-XC2 hanno mostrato buone prestazioni.

La performance degli LMM in base a indicatori quadridimensionali e i loro risultati di punteggio completi secondo standard rigorosi e non rigidi

La maggior parte dei modelli soffre dei problemi di "conoscenza insufficiente" e "memorizzazione meccanica", soprattutto nei modelli più piccoli. Inoltre, la "conoscenza insufficiente" è ancora il problema principale della maggior parte dei modelli.
GPT-4o è significativamente più avanti rispetto ad altri modelli nella dimensione di misurazione della "memorizzazione meccanica", il che illustra ulteriormente che GPT-4o è più vicino ai metodi umani di risoluzione dei problemi e che i risultati che presenta sono più affidabili, il che significa che il modello ha conoscenza veramente appresa piuttosto che "memorizzare a memoria".
GPT-4o è significativamente più avanti rispetto ad altri modelli nella dimensione di misurazione della "padronanza insufficiente della conoscenza". È gradualmente passato alla fase successiva e deve migliorare ulteriormente la sua "capacità di generalizzazione della conoscenza".

Performance degli LMM nell'ambito della strategia KCA

La prestazione complessiva del modello è migliorata nell’ambito della strategia KCA. Come mostrato nella figura sopra, gli LMM con parametri di dimensioni diverse mostrano miglioramenti consistenti delle prestazioni sia negli indicatori rigidi che in quelli flessibili dopo l’introduzione della strategia KCA.
La strategia KCA allevia significativamente il problema IK, ma il miglioramento del problema IG non è evidente. Ciò è coerente con l’intuizione umana, poiché la descrizione della conoscenza affronta principalmente le lacune nella conoscenza inferenziale. Tuttavia, per risolvere il problema dell’IG, la capacità di generalizzazione della conoscenza degli LMM deve essere migliorata in modo complessivo, il che indica anche la direzione per la ricerca futura.

Riassumere

In questo articolo proponiamo WE-MATH, un punto di riferimento completo per la valutazione dettagliata dei meccanismi di risposta degli LMM nei compiti di ragionamento matematico visivo. WE-MATH contiene un totale di 6,5k problemi di matematica visiva, che coprono una struttura di conoscenza multilivello di 5 livelli e 67 punti di conoscenza. Siamo stati pionieri del problema scomponendolo in molteplici sottoproblemi in base ai punti di conoscenza richiesti e abbiamo introdotto un nuovo indicatore quadridimensionale per la valutazione del ragionamento a grana fine. Attraverso WE-MATH, abbiamo valutato in modo completo le prestazioni degli LMM esistenti nel ragionamento matematico visivo e abbiamo rivelato che esiste un'ovvia correlazione negativa tra le prestazioni della risposta del modello e il numero di punti di conoscenza contenuti nella domanda.

Inoltre, abbiamo scoperto che la maggior parte dei modelli ha problemi con l’apprendimento meccanico (RM) e la conoscenza insufficiente (IK) è il principale difetto degli LMM. Tuttavia, la sfida principale di GPT-4o si è gradualmente spostata da IK a IG, indicando che si tratta del primo modello a passare alla fase successiva. Infine, la nostra analisi delle strategie KCA e dei casi di errore illumina ulteriormente lo sviluppo degli LMM esistenti verso il ragionamento matematico visivo di tipo umano.

notizia

I modelli di grandi dimensioni sono molto diversi dagli esseri umani nella risoluzione dei problemi matematici: la mancanza di conoscenza è evidente e GPT-4o offre le migliori prestazioni

introduzione

le mie informazioni di contatto