noticias

Se publicaron los puntajes de los siete modelos principales después de participar en el "Examen de ingreso a la universidad": las materias de artes liberales fueron admitidas en el primer nivel y las materias de ciencias solo pudieron ser admitidas en el segundo nivel.

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Los candidatos de IA pueden obtener una puntuación máxima de 303 puntos en las tres materias, incluidos chino y matemáticas.

Anteriormente en junio, OpenCompass, el sistema de evaluación de Sinan del Laboratorio de Inteligencia Artificial de Shanghai, publicó los primeros resultados de la evaluación en papel completo del examen de ingreso a la universidad de IA, lo que muestra que los candidatos de IA podían obtener un máximo de 303 puntos en tres materias además del idioma. y matemáticas, y reprobó todas las matemáticas.

El 17 de julio, OpenCompass publicó además una evaluación que amplió el alcance de las materias. El equipo probó siete grandes modelos de IA en las nueve materias del examen de ingreso a la universidad, para que puedan compararse con los puntajes de admisión del examen de ingreso a la universidad.

Si AI toma el examen de ingreso a la universidad, ¿a qué universidad puede ser admitido? La prueba OpenCompass encontró que si el modelo grande toma el examen de artes liberales, la mejor puntuación puede ser "admitida" en un libro, pero si toma el examen de ciencias, sólo puede ser "admitida" en dos libros como máximo (según (la puntuación de la provincia de Henan, que tiene el mayor número de exámenes de ingreso a la universidad este año) como referencia).


Puntajes de las pruebas del examen de ingreso a la universidad de modelo grande de IA para las 9 materias

Los modelos probados esta vez siguen siendo modelos de código abierto de Alibaba, Zero One Wish, Zhipu AI, Shanghai Artificial Intelligence Laboratory & SenseTime, French Mistral y el modelo de código cerrado GPT-4o de OpenAI.

A juzgar por la puntuación total, la puntuación más alta en artes liberales fue el modelo Alibaba Tongyi Qianwen, que ganó el "Mejor Académico de Artes Liberales" en el examen de ingreso a la universidad de IA con una puntuación de 546 puntos. La puntuación más alta en ciencia es Pu Chinese Quxing, desarrollado conjuntamente por el Laboratorio de Inteligencia Artificial de Shanghai y SenseTime, que alcanzó 468,5 puntos. El GPT-4o de OpenAI obtuvo una puntuación de 531 en artes liberales, ocupando el tercer lugar, y una puntuación de 467 en ciencias, ocupando el segundo lugar.

Con respecto a la equidad y transparencia de los resultados de la evaluación, personas relevantes dijeron que el código para generar respuestas, las hojas de respuestas modelo y los resultados de calificación para la evaluación del examen de ingreso a la universidad a gran escala están completamente abiertos y disponibles como referencia para todos los ámbitos de la vida (por detalles de la evaluación pública, visite https://github.com/open-compass/GAOKAO-Eval).

El equipo de evaluación seleccionó las líneas de lotes de admisión de la provincia de Henan como referencia y comparó las puntuaciones del modelo grande con las líneas de puntuación correspondientes. En general, en referencia a las líneas de admisión por lotes de pregrado de Henan de 2024, los tres modelos a gran escala con mejor rendimiento tienen puntuaciones de más de uno en artes liberales y más de dos en ciencias. Las puntuaciones en otras materias importantes de artes liberales y ciencias no cumplieron con los estándares de segundo nivel.

Si la IA toma el examen de artes liberales, entonces los puntajes de artes liberales de Tongyi Qianwen, Shushengpu Chinese Quxing y GPT-4o exceden la primera línea, lo que muestra el profundo conocimiento del gran modelo en materias como chino, historia, geografía, política ideológica, etc. Reserva y comprensión.


Comparación de puntuaciones del "examen de ingreso a la universidad" del modelo grande: artes liberales

Si la IA toma el examen de ciencias, el desempeño general será más débil que el de artes liberales, lo que refleja las deficiencias generales de los modelos grandes en la capacidad de razonamiento matemático. Sin embargo, los tres mejores puntajes en ciencias también están por encima del puntaje del segundo nivel. línea, y la "admisión" no se puede lograr con exámenes de dos niveles.


Comparación de puntuaciones del "examen de ingreso a la universidad" del modelo grande: ciencia

El equipo afirmó que para estar más cerca de la situación real del examen de ingreso a la universidad, la evaluación adoptó la forma de 3 (excluyendo lenguaje y matemáticas) + 3 (ciencias integrales/artes integrales) para probar el modelo grande en todas las materias. Durante el proceso de evaluación, todas las preguntas de texto plano fueron respondidas por modelos de lenguaje grandes, mientras que las preguntas con imágenes en temas integrales fueron respondidas por modelos grandes multimodales de código abierto por el equipo correspondiente.

La evaluación encontró que para preguntas puramente de texto, la tasa de puntuación promedio del modelo grande puede alcanzar el 64,32%, mientras que para las preguntas con imágenes, la tasa de puntuación es solo del 37,64%. En términos de comprensión de imágenes y capacidades de aplicación, todos los modelos grandes tienen un margen de mejora considerable.

Además, algunos modelos grandes han alcanzado el primer grado después de volver a capacitarse, ¿podrán alcanzar el nivel de admisión de las mejores universidades? Después de completar la calificación, los profesores coincidieron en que todavía existe una brecha entre el modelo grande y los candidatos reales. Aunque el dominio de los conocimientos básicos es excelente, el modelo grande sigue siendo insatisfactorio en términos de razonamiento lógico y aplicación flexible del conocimiento.

Específicamente, al responder preguntas subjetivas, los modelos grandes a menudo no pueden comprender completamente la raíz de la pregunta y no comprenden la dirección de los pronombres, lo que resulta en respuestas incorrectas; al responder preguntas matemáticas, el proceso de resolución de problemas es mecánico y poco lógico; A menudo ocurren problemas con la lógica espacial. Inferencias contradictorias; comprensión superficial de experimentos físicos y químicos e incapacidad para identificar y utilizar con precisión equipos experimentales. Además, los modelos grandes también falsificarán contenido ficticio, inventarán poemas que parecen razonables pero que en realidad no existen, o no reflexionan después cuando hay errores de cálculo obvios, y "muerden la bala" para dar una respuesta, todo lo cual trae consigo problema para el profesor de calificación.

En los detalles de la evaluación pública, los reporteros de China Business News descubrieron que se incluían algunos comentarios de los profesores que calificaban.

El profesor de ciencias y matemáticas comentó que las preguntas del modelo a gran escala generalmente parecían muy mecánicas y que la mayoría de las preguntas no podían resolverse mediante el proceso de razonamiento normal. Por ejemplo, en la primera pregunta para completar los espacios en blanco, el modelo grande solo puede realizar una pequeña parte del proceso para lograr un resultado, pero no puede realizar un análisis completo y enumerar el proceso de cálculo completo para lograrlo. el resultado correcto como los candidatos haciendo las preguntas. La capacidad de memoria de fórmulas básicas de los modelos grandes es relativamente buena, pero no se puede utilizar de manera flexible. Además, los resultados de algunas preguntas son correctos, pero la lógica del proceso es deficiente y no cumple con los cálculos formales, lo que dificulta la calificación.

El profesor de geografía cree que el modelo grande muestra una cobertura integral del conocimiento geográfico en el proceso de responder preguntas, que van desde la geografía física hasta la geografía humana, desde los fenómenos geográficos hasta las leyes geográficas. Es particularmente bueno para probar puntos de conocimiento básicos. Sin embargo, existen ciertas desviaciones y omisiones en preguntas que involucran análisis o razonamiento en profundidad. Por lo tanto, el modelo funciona mejor cuando se enfrenta a preguntas no convencionales y abiertas.

El profesor de física descubrió que los modelos grandes generalmente parecían mecánicos y muchos de ellos no podían reconocer el significado de las preguntas. Incluso si las respuestas a algunas preguntas de opción múltiple eran correctas, el análisis era incorrecto. Los pasos de algunas grandes preguntas son complicados e ilógicos. A menudo sucede que la conclusión de este tiempo se incorpora a la evidencia que conduce a la conclusión de este ciclo.

Los profesores de calificación creen que, en comparación con los examinados humanos, los grandes modelos actuales todavía tienen importantes limitaciones.

Editor de columna: Zhang Wu Editor de texto: Dong Siyun Título y fuente de la imagen: Tuchong Editor de imágenes: Xu Jiamin

Fuente: Autor: China Business News