le mie informazioni di contatto
Posta[email protected]
2024-07-23
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
La rubrica AIxiv è una rubrica in cui Machine Heart pubblica contenuti accademici e tecnici. Negli ultimi anni, la rubrica Heart of the Machine AIxiv ha ricevuto più di 2.000 segnalazioni, riguardanti i migliori laboratori delle principali università e aziende di tutto il mondo, promuovendo efficacemente gli scambi accademici e la divulgazione. Se hai un lavoro eccellente che desideri condividere, non esitare a contribuire o contattarci per segnalarlo. E-mail di presentazione: [email protected] [email protected];
Gli autori di questo articolo provengono dall’Università delle Poste e delle Telecomunicazioni di Pechino, Tencent WeChat, Università di Scienza e Tecnologia di Huazhong e Istituto di Tecnologia di Pechino. Elenco degli autori: Qiao Runqi, Tan Qiuna, Dong Guanting, Wu Minhui, Sun Chong, Song Xiaoshuai, Gongque Zhuoma, Lei Shanglin, Wei Zhe, Zhang Miaoxuan, Qiao Runfeng, Zhang Yifan, Zong Xiao, Xu Yida, Diao Muxi, Bao Zhimin , Li Chen , Zhang Honggang. Tra questi, il co-primo autore Qiao Runqi è uno studente di dottorato presso l'Università delle Poste e delle Telecomunicazioni di Pechino, Tan Qiuna è uno studente di master presso l'Università delle Poste e delle Telecomunicazioni di Pechino e l'autore corrispondente è il professore associato Zhang Honggang dell'Università delle Poste di Pechino. e telecomunicazioni Questo articolo è stato completato da Qiao Runqi durante il suo tirocinio presso WeChat.
Con il rapido sviluppo della tecnologia dell’intelligenza artificiale, i modelli multimodali di grandi dimensioni (LMM) in grado di gestire più informazioni modali sono gradualmente diventati un punto caldo della ricerca. Integrando informazioni provenienti da diverse modalità, gli LMM dimostrano determinate capacità di ragionamento e comprensione e si comportano bene in compiti come la risposta visiva a domande, la generazione di immagini e il recupero intermodale. Questa capacità multimodale fa sì che gli LMM abbiano un grande potenziale applicativo in vari scenari complessi. Al fine di testare rigorosamente e scientificamente se l’intelligenza artificiale ha forti capacità di ragionamento, la risposta alle domande matematiche è diventata un punto di riferimento importante per misurare le capacità di ragionamento del modello.
Guardando indietro alla storia dello sviluppo dell’IA, scopriamo che la cognizione umana e il modo in cui pensiamo ai problemi hanno avuto un profondo impatto sullo sviluppo dell’IA. Scoperte come le reti neurali e i meccanismi di attenzione sono strettamente correlate ai modelli di pensiero umani. Immagina che quando gli esseri umani rispondono a una domanda matematica, debbano prima avere familiarità con i punti di conoscenza esaminati nella domanda e poi utilizzare le conoscenze pertinenti per condurre un ragionamento passo dopo passo per arrivare alla risposta. Ma quando il modello risponde, il suo processo di ragionamento è coerente con quello umano?
Concentrandoci su problemi matematici, abbiamo scoperto che il modello può rispondere a domande complesse, ma non è in grado di rispondere ad alcune domande semplici. Per esplorare le ragioni di questo fenomeno, ispirato al modello umano di pensiero risolutivo dei problemi, abbiamo prima modellato il processo di risoluzione dei problemi consistente prima nel padroneggiare i punti di conoscenza e poi nel usarli per il ragionamento logico come segue:
Tra questi, (X, Y) e (x_i, y_i) rappresentano rispettivamente il problema matematico e le domande e le risposte in ciascun sottoproblema, e P_reason rappresenta la capacità di applicazione completa (generalizzazione della conoscenza) degli LMM. Sulla base di ciò, We-Math ha prima costruito un sistema di conoscenza ad albero multi-livello basato su 67 punti di conoscenza atomici, quindi, sulla base della conoscenza atomica e delle risposte di ragionamento, ha scomposto problemi complessi con più punti di conoscenza in più punti di conoscenza atomici. vengono utilizzati per esplorare il meccanismo di risposta del modello.
We-Math è attualmente al primo posto nell'HuggingFace Daily Paper del giorno e ha oltre 10.000 visualizzazioni su Twitter!
Punto di riferimento We-Math
1. Composizione dei dati
Il set di dati di valutazione di We-Math contiene un totale di 6,5k problemi di matematica multimodali per la scuola primaria e una struttura di conoscenza multilivello. Ciascun problema di matematica ha punti di conoscenza corrispondenti (1-3). I punti di conoscenza di tutte le domande sono coperti da un'architettura della conoscenza a 5 livelli con 99 nodi (l'ultimo livello contiene 67 punti di conoscenza). E come mostrato nella figura seguente, al fine di alleviare i problemi inerenti al modello nella risoluzione del problema, facciamo riferimento al libro di testo e a Wikipedia e introduciamo euristicamente la descrizione di 67 punti di conoscenza, fornendo così i suggerimenti di conoscenza necessari per il processo di ragionamento di LMM.
2. Suddividi la domanda
Per valutare ragionevolmente il meccanismo di risposta del modello, ci siamo basati rigorosamente sulle risposte standard delle risposte umane e abbiamo scomposto la domanda complessa in n sotto-domande in base ai punti di conoscenza contenuti nella domanda complessa, dove n rappresenta il numero di conoscenze punti contenuti nella domanda complessa.
Come mostrato nella figura seguente, per un problema complesso: Maria ha camminato dal punto più settentrionale di un'aiuola circolare lungo il bordo dell'aiuola fino al punto più orientale. La distanza percorsa è 50,24 metri. Trova l'area della circolare aiuola. Nel processo di risoluzione del problema, devi prima scoprire l'angolo centrale corrispondente al percorso percorso da Maria (il "più nord") in base al punto di conoscenza "sud-est, nord-ovest" e attraverso le condizioni del "più nord" e le direzioni "più orientale" L'angolo tra esso e il "più orientale" è di 90 gradi). Quindi, in base al punto di conoscenza "circonferenza di un cerchio" e alla condizione che l'angolo al centro del cerchio sia di 90 gradi e la lunghezza del percorso percorso da Maria, viene calcolata la circonferenza dell'aiuola circolare e il raggio di si ottiene l'aiuola circolare. Infine, secondo il punto di conoscenza "area del cerchio" e attraverso le condizioni del raggio ottenuto, viene calcolata l'area dell'aiuola circolare e la soluzione del problema è completata.
Analizzando il processo di risoluzione dei problemi di cui sopra, al fine di esplorare il meccanismo di risposta del modello e le prestazioni di ragionamento a grana fine del modello, la domanda originale può essere suddivisa in tre sotto-domande in base ai corrispondenti punti di conoscenza. Nello specifico, la prima domanda: Maria parte da un cerchio Dal punto più settentrionale dell'aiuola al punto più orientale lungo il bordo dell'aiuola, trova il grado dell'angolo al centro corrispondente all'arco del sentiero da lei percorso seconda domanda: In un'aiuola circolare , la lunghezza dell'arco corrispondente ad un angolo al centro di 90 gradi è 59,24 m, trova il raggio dell'aiuola circolare; terza domanda: trova l'area dell'aiuola circolare con un raggio di 32 m.
3. Metriche
Su questa base, come mostrato nella figura seguente, introduciamo un nuovo standard di misurazione quadridimensionale, ovvero padronanza della conoscenza insufficiente (IK), capacità di generalizzazione insufficiente (IG), padronanza completa (CM) e memorizzazione meccanica (RM).
Tra questi c'è IK tra IK, IG e CM
Esperimenti e conclusioni
We-Math ha attualmente completato le valutazioni su 17 modelli di grandi dimensioni, inclusi un totale di 4 modelli closed source e 13 modelli open source. La Tabella 1 e la Figura 6 mostrano i risultati degli LMM con diversi numeri di punti di conoscenza e le prestazioni del modello con i punti di conoscenza di secondo livello. La Tabella 2 e le Figure 7, 8 e 9 mostrano i risultati degli LMM con indicatori quadridimensionali; e Risultati del punteggio completo secondo standard rigorosi e flessibili. La Figura 10 mostra i risultati di mitigazione della strategia KCA per il modello nei problemi IK;
Le prestazioni degli LMM con diversi numeri di punti di conoscenza e le sue prestazioni con il secondo livello di punti di conoscenza
La performance degli LMM in base a indicatori quadridimensionali e i loro risultati di punteggio completi secondo standard rigorosi e non rigidi
Performance degli LMM nell'ambito della strategia KCA
Riassumere
In questo articolo proponiamo WE-MATH, un punto di riferimento completo per la valutazione dettagliata dei meccanismi di risposta degli LMM nei compiti di ragionamento matematico visivo. WE-MATH contiene un totale di 6,5k problemi di matematica visiva, che coprono una struttura di conoscenza multilivello di 5 livelli e 67 punti di conoscenza. Siamo stati pionieri del problema scomponendolo in molteplici sottoproblemi in base ai punti di conoscenza richiesti e abbiamo introdotto un nuovo indicatore quadridimensionale per la valutazione del ragionamento a grana fine. Attraverso WE-MATH, abbiamo valutato in modo completo le prestazioni degli LMM esistenti nel ragionamento matematico visivo e abbiamo rivelato che esiste un'ovvia correlazione negativa tra le prestazioni della risposta del modello e il numero di punti di conoscenza contenuti nella domanda.
Inoltre, abbiamo scoperto che la maggior parte dei modelli ha problemi con l’apprendimento meccanico (RM) e la conoscenza insufficiente (IK) è il principale difetto degli LMM. Tuttavia, la sfida principale di GPT-4o si è gradualmente spostata da IK a IG, indicando che si tratta del primo modello a passare alla fase successiva. Infine, la nostra analisi delle strategie KCA e dei casi di errore illumina ulteriormente lo sviluppo degli LMM esistenti verso il ragionamento matematico visivo di tipo umano.