notizia

Vengono annunciati i risultati del "College Entry Examination" del modello AI large: quasi tutti parziali in letteratura, un po' poveri in matematica, e le idee di problem solving particolarmente "assiali"

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Non appena si è concluso l'esame di ammissione al college nazionale nel 2024, OpenCompass, un sistema di valutazione open source di grandi dimensioni sotto lo Shanghai Artificial Intelligence Laboratory, ha selezionato 7 grandi modelli di intelligenza artificiale in patria e all'estero per condurre test di tutte le materie per l'esame di ammissione al college. Le prove di 7 candidati AI sono state valutate da Insegnanti con esperienza nell'esame giudicheranno i punteggi senza conoscere l'identità dei candidati.

Recentemente sono stati pubblicati i risultati del test: i punteggi del modello linguistico di grandi dimensioni Wenquxing della serie Shusheng·Puyu 2.0, del modello di grandi dimensioni Ali Tongyi Qianwen Qwen2-72B e GPT-4o si sono classificati tra i primi tre tra tutti i candidati all'intelligenza artificiale. Prendendo come riferimento la linea di punteggio della provincia di Henan di quest'anno, i punteggi nelle arti liberali di questi tre candidati all'intelligenza artificiale hanno tutti superato la "prima linea" e i punteggi in scienze erano saldamente al di sopra della "seconda linea".

Analizzando i fogli di risposta presentati dai candidati all’intelligenza artificiale, l’industria ritiene che in questa fase i modelli di grandi dimensioni abbiano una traiettoria di pensiero molto diversa da quella umana quando risolvono problemi di memoria e logica, ma ciò indica anche la strada per l’evoluzione futura dell’intelligenza artificiale.

Ottimi risultati negli esami di lingua, ma le domande di matematica a risposta breve sono diventate "un ostacolo insormontabile"

I risultati di questo test mostrano che i candidati all'intelligenza artificiale hanno una certa parzialità nelle materie e sembrano tutti "studenti di arti liberali".

Tra i 7 modelli di grandi dimensioni, 4 hanno ottenuto punteggi elevati di oltre 130 nel test di inglese della Carta I del nuovo standard di curriculum. Tra questi, GPT-4o ha vinto il primo posto nel test di inglese ed è stato apprezzato da un insegnante di valutazione inglese la sua composizione Si dice che abbia "schemi di frasi ricchi e un linguaggio impeccabile", ma il numero di parole è leggermente inferiore, quindi verrà detratto 1 punto come appropriato.

Inoltre, i candidati all’intelligenza artificiale hanno ottenuto buoni risultati anche nel Documento I del nuovo standard del corso di lingua cinese: tassi di punteggio medi superiori al 70% nella lettura del cinese moderno, nella lettura di poesie antiche, nel dettato e nella composizione di frasi famose.

Si ritiene generalmente che l'intelligenza artificiale abbia eccellenti capacità nel pensiero logico. Tuttavia, in questo test, i candidati all'intelligenza artificiale sono stati quasi completamente spazzati via di fronte al Documento I del nuovo standard del curriculum di matematica e nessuno dei loro punteggi ha raggiunto la metà del punteggio totale (cioè 75 punti). Le domande di matematica a risposta breve sono diventate un "ostacolo insormontabile" per questo gruppo di candidati. Il punteggio medio delle cinque domande a risposta breve è solo del 18,9%.

Zhang Junping, professore presso la Scuola di Informatica e Tecnologia dell'Università di Fudan, ha affermato che i candidati AI che partecipano al test questa volta sono tutti modelli linguistici di grandi dimensioni e hanno ricevuto una formazione sul corpus, quindi hanno un vantaggio quando rispondono a documenti linguistici . Nell'esame delle materie di matematica e fisica, i candidati devono possedere determinate capacità di ragionamento, e questa capacità è sempre stata un difetto dei grandi modelli.

La modalità di pensiero "sistema veloce" impedisce ai candidati AI di "redigere"

Perché i candidati all’intelligenza artificiale tendono ad essere parziali nei confronti delle materie, e perché sono così parziali? Molti ricercatori profondamente coinvolti nel campo dell’intelligenza artificiale hanno sottolineato che ciò ha molto a che fare con il modo di “pensare” in questa fase i modelli di grandi dimensioni.

"Quando si fa una domanda, le persone di solito formulano prima idee per risolvere il problema e poi rispondono. Ma questo non è il caso dell'intelligenza artificiale. Lo fa semplicemente con la forza, indipendentemente dai dettagli. Se non può essere fatto, lo fa saranno nuovamente 'messi insieme'." Relativo al Laboratorio di Intelligenza Artificiale di Shanghai Il responsabile ha detto ai giornalisti che il processo di risoluzione delle domande di matematica e fisica è estremamente incerto. Pertanto, i candidati umani di solito chiariscono le loro idee su un foglio di carta prima di iniziare a rispondere alla domanda. domande. I modelli di grandi dimensioni, d'altro canto, generano testi in sequenza e non hanno la capacità di "fare bozze". Se le loro idee vanno fuori strada all'inizio quando rispondono alle domande, praticamente non c'è spazio per il recupero.

"Le due modalità di pensiero dei candidati AI e dei candidati umani possono essere paragonate al 'sistema veloce' e al 'sistema lento' proposti rispettivamente da Daniel Kahneman in "Pensare, veloce e lento"." Zhang Junping ha spiegato che il direttore generale dell'IA è così fornire rapidamente risposte e utilizzare operazioni di probabilità per simulare il processo di ragionamento, la comprensione umana dei problemi spesso si basa sull'accumulo di esperienza e può vedere le cose in modo olistico e macroscopico, quindi può anche vedere più profondamente.

I problemi esposti nel test paper sono anche i "nuovi test paper" per lo sviluppo dell'intelligenza artificiale.

Nella competizione per l’esame di ammissione all’università, per il momento gli esseri umani sono ancora molto più avanti dell’intelligenza artificiale. "Lo scopo dell'organizzazione di grandi modelli di intelligenza artificiale per partecipare all'esame di ammissione all'università è quello di valutare il reale livello degli attuali grandi modelli, identificare i problemi e continuare a promuovere il progresso tecnologico", ha sottolineato il responsabile del Laboratorio di intelligenza artificiale di Shanghai i risultati dei candidati all’intelligenza artificiale hanno anche evidenziato i vantaggi e gli svantaggi dei modelli di grandi dimensioni e le debolezze suggeriscono anche molte direzioni su cui vale la pena pensare per il suo sviluppo futuro.

La persona competente responsabile del Laboratorio di Intelligenza Artificiale di Shanghai ha detto ai giornalisti che la maggior parte dei modelli non ha ancora la capacità di correggere gli errori da sola e, se commettono errori, devono "combattere duramente" fino alla fine, o addirittura tornare indietro. attraverso "sciocchezze". Pertanto, il miglioramento delle capacità di correzione degli errori potrebbe richiedere un'attenzione speciale nella futura formazione di modelli di grandi dimensioni.

Inoltre, esiste ancora l '"illusione" di modelli di grandi dimensioni, che costituiranno "seriamente" il contenuto. "In questo test, alcuni grandi modelli comporranno poesie, il che ha fatto credere erroneamente ad alcuni insegnanti di correzione che una certa poesia da loro composta esista davvero, ma non lo sanno", ha aggiunto il responsabile del laboratorio di intelligenza artificiale. come migliorare le prestazioni della credibilità dell'intelligenza artificiale, ancora in arrivo.

Autore: Zhang Feiya

Testo: reporter tirocinante Zhang Feiya Immagini: Visual China Redattore: Zhang Feiya Redattore capo: Fan Liping

Si prega di indicare la fonte quando si ristampa questo articolo.