noticias

Se anuncian los resultados del "Examen de ingreso a la universidad" del modelo grande de IA: casi todos son parciales en literatura, un poco pobres en matemáticas y las ideas de resolución de problemas son particularmente "axiales".

2024-07-26

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Tan pronto como finalizó el examen nacional de ingreso a la universidad en 2024, OpenCompass, un gran modelo de sistema de evaluación de código abierto del Laboratorio de Inteligencia Artificial de Shanghai, seleccionó 7 grandes modelos de IA en el país y en el extranjero para realizar pruebas de todas las materias para el examen de ingreso a la universidad. Los exámenes de 7 candidatos de IA fueron evaluados por profesores con experiencia en exámenes que juzgarán las puntuaciones sin conocer la identidad de los candidatos.

Recientemente, se publicaron los resultados de las pruebas: las puntuaciones del modelo de lenguaje grande Wenquxing de la serie Shusheng·Puyu 2.0, el modelo grande Qwen2-72B de Ali Tongyi Qianwen y el GPT-4o se ubicaron entre los tres primeros entre todos los candidatos de IA. Tomando como referencia la puntuación de la provincia de Henan de este año, las puntuaciones en artes liberales de estos tres candidatos de IA superaron la "primera línea", y las puntuaciones en ciencias estuvieron firmemente por encima de la "segunda línea".

Al analizar las hojas de respuestas enviadas por los candidatos a IA, la industria cree que en esta etapa, los modelos grandes tienen una trayectoria de pensamiento muy diferente a la de los humanos al resolver problemas de memoria y lógica, pero esto también señala el camino para la evolución futura de la IA.

Obtuvo buenos resultados en los exámenes de idiomas, pero las preguntas de respuesta corta de matemáticas se convirtieron en "un obstáculo insuperable"

Los resultados de esta prueba muestran que los candidatos de IA son algo parciales en las materias y todos parecen ser "estudiantes de artes liberales".

Entre los 7 modelos grandes, 4 lograron puntuaciones altas de más de 130 en la prueba de inglés de la Prueba I del nuevo estándar curricular. Entre ellos, GPT-4o obtuvo el primer lugar en la prueba de inglés y fue apreciado por un profesor de calificación de inglés. Su composición se dice que tiene "patrones de oraciones ricos y un lenguaje impecable", pero el número de palabras es ligeramente menor, por lo que se deducirá 1 punto según corresponda.

Además, los candidatos de IA también obtuvieron buenos resultados en la Prueba I del nuevo estándar del curso de idioma chino: tasas de puntuación promedio superiores al 70% en lectura de chino moderno, lectura de poesía antigua, dictado y composición de oraciones famosas.

Generalmente se considera que la IA tiene excelentes habilidades en el pensamiento lógico. Sin embargo, en esta prueba, los candidatos de IA quedaron casi completamente eliminados cuando se enfrentaron a la Prueba I del nuevo estándar del plan de estudios de matemáticas, y ninguno de sus puntajes alcanzó la mitad del puntaje total (es decir, 75 puntos). Las preguntas de respuesta corta de matemáticas se han convertido en un "obstáculo insuperable" para este grupo de candidatos. La puntuación media de las cinco preguntas de respuesta corta es sólo del 18,9%.

Zhang Junping, profesor de la Facultad de Ciencias de la Computación y Tecnología de la Universidad de Fudan, dijo que los candidatos de IA que participan en la prueba esta vez son todos modelos de lenguaje grandes y han recibido capacitación en corpus, por lo que tienen una ventaja al responder trabajos de lenguaje. . En los exámenes de materias de matemáticas y física, se requiere que los candidatos tengan ciertas habilidades de razonamiento, y esta habilidad siempre ha sido una deficiencia de los modelos grandes.

El modo de pensamiento de "sistema rápido" impide que los candidatos de IA "hagan borradores"

¿Por qué los candidatos a IA tienden a ser parciales con los temas y por qué son tan parciales? Muchos investigadores profundamente involucrados en el campo de la inteligencia artificial señalaron que esto tiene mucho que ver con la forma de "pensar" de los modelos grandes en esta etapa.

"Al hacer una pregunta, la gente suele formular ideas para resolver el problema primero y luego responderla. Pero este no es el caso de la IA. Simplemente lo hace por la fuerza, independientemente de los detalles. Si no se puede hacer, "Será 'improvisado' de nuevo." Relacionado con el Laboratorio de Inteligencia Artificial de Shanghai La persona a cargo dijo a los periodistas que el proceso de resolución de preguntas de matemáticas y física es extremadamente incierto. Por lo tanto, los candidatos humanos generalmente aclaran sus ideas en papel borrador antes de comenzar a responder las preguntas. preguntas. Los modelos grandes, por el contrario, generan textos secuencialmente y carecen de la capacidad de "hacer borradores". Si sus ideas se extravían al principio al responder preguntas, básicamente no hay espacio para la recuperación.

"Los dos modos de pensamiento de los candidatos de IA y los candidatos humanos se pueden comparar con el 'sistema rápido' y el 'sistema lento' propuestos por Daniel Kahneman en "Pensar, rápido y lento", respectivamente, explicó Zhang Junping, que es el director general de IA". genere respuestas rápidamente y utilice operaciones de probabilidad para simular el proceso de razonamiento. La comprensión humana de los problemas a menudo se basa en la acumulación de experiencia y puede ver las cosas de manera integral y macroscópica, por lo que también puede ver más profundamente.

Los problemas expuestos en el examen son también los "nuevos exámenes" para el desarrollo de la IA.

En la competencia de selección para el examen de ingreso a la universidad, los humanos todavía están muy por delante de la IA por el momento. "El propósito de organizar grandes modelos de IA para participar en el examen de ingreso a la universidad es evaluar el verdadero nivel de los grandes modelos actuales, identificar problemas y continuar promoviendo el progreso tecnológico", enfatizó el responsable del Laboratorio de Inteligencia Artificial de Shanghai. Los resultados de los candidatos de IA también expusieron las ventajas y desventajas de los modelos grandes. Las debilidades también sugieren muchas direcciones en las que vale la pena pensar para su desarrollo futuro.

El responsable del Laboratorio de Inteligencia Artificial de Shanghai dijo a los periodistas que la mayoría de los modelos aún no tienen la capacidad de corregir errores por sí solos y, si cometen errores, tendrán que "luchar duro" hasta el final, o incluso regresar. a través de "tonterías". Por lo tanto, mejorar las capacidades de corrección de errores puede requerir una atención especial en el futuro entrenamiento de modelos grandes.

Además, todavía existe la "ilusión" de los modelos grandes, que conformarán "en serio" el contenido. "En esta prueba, algunos modelos grandes inventarán poemas, lo que hizo que algunos profesores de calificación creyeran erróneamente que cierto poema que ellos inventaron realmente existe, pero no lo saben", agregó el responsable del laboratorio de inteligencia artificial. Cómo mejorar el rendimiento de la IA Credibility, aún está en camino.

Autor: Zhang Feiya

Texto: reportero en prácticas Zhang Feiya Imágenes: Visual China Editor: Zhang Feiya Editor en jefe: Fan Liping

Indique la fuente al reimprimir este artículo.