Sono stati diffusi i punteggi dei sette modelli principali dopo aver partecipato al "College Entry Examination": le materie umanistiche erano ammesse al primo livello, ma le materie scientifiche potevano essere ammesse solo al secondo livello

Sono stati rilasciati i punteggi dei sette modelli principali dopo aver partecipato all'"esame di ammissione all'università": le materie umanistiche sono state ammesse al primo livello e le materie scientifiche potevano essere ammesse solo al secondo livello

2024-07-18

I candidati all'intelligenza artificiale possono ottenere un punteggio massimo di 303 punti nelle tre materie tra cui cinese e matematica.

Nel giugno precedente, OpenCompass, il sistema di valutazione Sinan del Laboratorio di Intelligenza Artificiale di Shanghai, aveva pubblicato i primi risultati di valutazione in formato cartaceo dell'esame di ammissione all'università di intelligenza artificiale, dimostrando che i candidati all'intelligenza artificiale potevano ottenere un massimo di 303 punti in tre materie oltre alla lingua. e matematica, e fallì in tutta la matematica.

Il 17 luglio, OpenCompass ha inoltre pubblicato una valutazione che ha ampliato l'ambito delle materie. Il team ha testato sette grandi modelli di intelligenza artificiale in tutte e nove le materie dell'esame di ammissione all'università, in modo che possano essere confrontati con i punteggi di ammissione all'esame di ammissione all'università.

Se l’IA sostiene l’esame di ammissione all’università, a quale università potrà essere ammessa? Il test OpenCompass ha rilevato che se il modello grande sostiene l'esame di arti liberali, il punteggio migliore può essere "ammesso" in un libro, ma se sostiene l'esame di scienze, può essere "ammesso" solo a due libri al massimo (in base a la linea di punteggio della provincia di Henan, che quest'anno ha il maggior numero di esami di ammissione all'università) come riferimento).

Punteggi dei test di ammissione all'università di modello AI di grandi dimensioni per tutte le 9 materie

I modelli testati questa volta sono ancora modelli open source di Alibaba, Zero One Wish, Zhipu AI, Shanghai Artificial Intelligence Laboratory & SenseTime, French Mistral e il modello closed source GPT-4o di OpenAI.

A giudicare dal punteggio totale, il punteggio più alto nelle arti liberali è stato il modello Alibaba Tongyi Qianwen, che ha vinto il "Liberal Arts Number One" nell'esame di ammissione all'AI College con un punteggio di 546 punti. Il punteggio più alto nella scienza è Pu Chinese Quxing, sviluppato congiuntamente da Shanghai Artificial Intelligence Laboratory e SenseTime, che ha raggiunto 468,5 punti. GPT-4o di OpenAI ha ottenuto 531 punti nelle arti liberali, classificandosi al terzo posto, e 467 in scienze, classificandosi al secondo posto.

Per quanto riguarda l'equità e la trasparenza dei risultati della valutazione, le persone interessate hanno affermato che il codice per generare risposte, modelli di fogli di risposta e risultati del punteggio per la valutazione dell'esame di ammissione all'università su larga scala sono completamente pubblici e disponibili per riferimento da tutti i ceti sociali (per dettagli sulla valutazione pubblica, visitare https://github.com/open-compass/GAOKAO-Eval).

Il gruppo di valutazione ha selezionato come riferimento le linee di ammissione della provincia di Henan e ha confrontato i punteggi del modello grande con le corrispondenti linee di punteggio. In generale, facendo riferimento alle linee di ammissione in batch degli studenti universitari dell'Henan del 2024, i tre modelli su larga scala con le migliori prestazioni hanno punteggi superiori a uno nelle arti liberali e superiori a due nelle scienze. I punteggi in altre importanti materie scientifiche e artistiche liberali non soddisfacevano gli standard di secondo livello.

Se l'IA ha sostenuto l'esame di arti liberali, i punteggi di arti liberali di Tongyi Qianwen, Shushengpu Chinese Quxing e GPT-4o hanno tutti superato la prima riga, mostrando la profonda conoscenza del grande modello in materie come cinese, storia, geografia, e politica ideologica. Riserva e comprensione.

Confronto dei punteggi dell'"esame di ammissione all'università" del modello grande - Arti liberali

Se l’intelligenza artificiale sostiene l’esame di scienze, la prestazione complessiva sarà inferiore a quella delle arti liberali, il che riflette le carenze generali dei modelli di grandi dimensioni nella capacità di ragionamento matematico. Tuttavia, anche i primi tre punteggi in scienze sono superiori al punteggio di secondo livello linea e "ammissione" non è sufficiente per la domanda degli studenti di due livelli.

Modello grande di scienza e confronto dei punteggi dell'"esame di ammissione all'università".

Il team ha affermato che, per essere più vicini alla situazione reale dell'esame di ammissione all'università, la valutazione ha adottato la forma di 3 (escluse lingue e matematica) + 3 (comprensivo di scienze/comprensivo di arti) per testare il modello ampio in tutte le materie. Durante il processo di valutazione, a tutte le domande di testo semplice è stata data risposta mediante modelli linguistici di grandi dimensioni, mentre alle domande con immagini in argomenti completi è stata data risposta da modelli di grandi dimensioni multimodali open source del team corrispondente.

Dalla valutazione è emerso che per le domande di puro testo il punteggio medio del modello grande può raggiungere il 64,32%, mentre per le domande con immagini il punteggio medio è solo del 37,64%. In termini di comprensione delle immagini e capacità applicative, tutti i modelli di grandi dimensioni hanno un notevole margine di miglioramento.

Inoltre, alcuni modelli di grandi dimensioni hanno raggiunto il primo grado. Dopo la riqualificazione, potranno raggiungere il livello di ammissione delle migliori università? Dopo aver completato la valutazione, gli insegnanti hanno convenuto che esiste ancora un divario tra il modello grande e i candidati reali. Sebbene la padronanza delle conoscenze di base sia eccellente, il modello grande è ancora insoddisfacente in termini di ragionamento logico e applicazione flessibile delle conoscenze.

Nello specifico, quando rispondono a domande soggettive, i modelli di grandi dimensioni spesso non riescono a comprendere appieno la radice della domanda e non capiscono la direzione dei pronomi, con il risultato di risposte errate, quando rispondono a domande matematiche, il processo di risoluzione dei problemi è meccanico e poco logico. spesso si verificano problemi con la logica spaziale. Inferenze contraddittorie; comprensione superficiale degli esperimenti fisici e chimici e incapacità di identificare e utilizzare accuratamente le apparecchiature sperimentali. Inoltre, i modelli di grandi dimensioni creeranno anche contenuti fittizi, comporranno poesie che sembrano ragionevoli ma in realtà non esistono, o non riflettono in seguito quando ci sono evidenti errori di calcolo, e "mordono i denti" per dare una risposta, il che porta tutti guai per l'insegnante di correzione.

Nei dettagli della valutazione pubblica, i giornalisti di China Business News hanno scoperto che erano inclusi alcuni commenti degli insegnanti che valutavano.

L'insegnante di scienze e matematica ha commentato che le domande del modello su larga scala generalmente sembravano molto meccaniche e la maggior parte delle domande non poteva essere risolta attraverso il normale processo di ragionamento. Ad esempio, nella prima domanda da compilare, il modello grande può eseguire solo una piccola parte del processo per ottenere un risultato. Non può condurre un'analisi completa ed elencare il processo di calcolo completo da ottenere il risultato corretto come i candidati rispondono alle domande. La capacità di memoria delle formule di base dei modelli di grandi dimensioni è relativamente buona, ma non può essere utilizzata in modo flessibile. Inoltre, i risultati di alcune domande sono corretti, ma la logica del processo è scarsa e non rispetta i calcoli formali, rendendo più difficile la valutazione.

L'insegnante di geografia ritiene che il modello di grandi dimensioni mostri una copertura completa della conoscenza geografica nel processo di risposta alle domande, che vanno dalla geografia fisica alla geografia umana, dai fenomeni geografici alle leggi geografiche. È particolarmente efficace per testare i punti di conoscenza di base. Tuttavia, ci sono alcune deviazioni e omissioni nelle domande che implicano un'analisi o un ragionamento approfondito. Pertanto, il modello funziona meglio quando si affrontano domande non convenzionali e a risposta aperta.

L'insegnante di fisica ha scoperto che i modelli di grandi dimensioni generalmente sembravano meccanici e molti di loro non erano in grado di riconoscere il significato delle domande. Anche se le risposte ad alcune domande a scelta multipla erano corrette, l'analisi era sbagliata. I passaggi di alcune grandi domande sono complicati e illogici, e la conclusione di questo tempo è spesso portata alla prova che porta alla conclusione di questo tempo. Questo ciclo non ha senso.

Gli insegnanti che valutano ritengono che, rispetto agli esaminandi umani, gli attuali modelli di grandi dimensioni presentino ancora notevoli limitazioni.

Redattore della colonna: Zhang Wu Redattore del testo: Dong Siyun Fonte del titolo e dell'immagine: Tuchong Redattore dell'immagine: Xu Jiamin

Fonte: Autore: China Business News

notizia

Sono stati rilasciati i punteggi dei sette modelli principali dopo aver partecipato all'"esame di ammissione all'università": le materie umanistiche sono state ammesse al primo livello e le materie scientifiche potevano essere ammesse solo al secondo livello

introduzione

le mie informazioni di contatto