los grandes modelos están empezando a aprender a pensar como humanos. ¿dónde está el camino hacia la agi?

2024-09-18

hace dos meses, el problema de las débiles capacidades matemáticas de los modelos grandes atrajo la atención generalizada. muchos modelos grandes en el mercado ni siquiera pueden responder a la simple pregunta matemática "¿cuál es más grande, 9.11 o 9.9?". dos meses después, la industria está resolviendo gradualmente el problema de las limitaciones en las capacidades matemáticas de los modelos grandes.

temprano en la mañana del 13 de septiembre, hora de beijing, openai lanzó una nueva serie de modelos de razonamiento sin previo aviso, incluidos tres modelos: o1-preview, o1 y o1-mini. este es el "proyecto fresa" de openai, del que se rumorea desde hace mucho tiempo, con capacidades de razonamiento avanzadas. según openai, la nueva serie de modelos tuvo un buen desempeño en datos y codificación, con una puntuación del 83% en el examen de calificación de la olimpiada internacional de matemáticas (imo).

openai no es el único que intenta superar las limitaciones de las capacidades matemáticas. el equipo de google deepmind también lanzó anteriormente el sistema alpha alphaproof, que se utiliza para resolver problemas matemáticos complejos.

romper los límites de la capacidad matemática es un nuevo paso en la evolución de la tecnología de ia y en el camino hacia la agi (inteligencia general artificial). según simon see, profesor de la universidad de coventry y director global del centro de tecnología de inteligencia artificial de nvidia, los esfuerzos de la industria para mejorar las capacidades matemáticas de la ia incluyen esfuerzos para combinar llm (modelo de lenguaje grande) con otras tecnologías. los esfuerzos en diferentes tecnologías crean un impulso potencial hacia. agi (inteligencia general artificial).

¿cómo resolver las limitaciones de la capacidad matemática?

"este es un avance importante para tareas de razonamiento complejas y representa un nuevo nivel de capacidades de inteligencia artificial", escribió openai al presentar los modelos de la serie o1. el director ejecutivo de openai, sam altman, también dijo en las plataformas sociales que el nuevo modelo es el comienzo de un nuevo paradigma, es decir, la ia puede realizar razonamientos generales complejos.

las capacidades matemáticas mejoradas son una característica importante de esta serie de modelos. openai presentó que el rendimiento actualizado de la nueva serie de modelos es similar al de los estudiantes de doctorado que completan tareas desafiantes de referencia en física, química y biología en el examen de calificación de la olimpiada internacional de matemáticas (omi), gpt-4o solo resolvió correctamente el 13%. de las preguntas, mientras que el nuevo modelo obtuvo un 83%.

con respecto a cómo el nuevo modelo puede lograr mejores capacidades matemáticas y de programación, openai presentó que la compañía utiliza algoritmos de aprendizaje por refuerzo a gran escala para "enseñar" al modelo a usar cadenas de pensamiento para pensar de manera eficiente al entrenar datos de manera eficiente, similar a cómo piensan los humanos durante un mucho tiempo antes de responder preguntas difíciles. a medida que aumenta el aprendizaje por refuerzo y el tiempo para pensar, el rendimiento de o1 continúa mejorando. el investigador de openai, noam brown, dijo que o1 abre una nueva dimensión para el escalado de modelos grandes (scaling), de modo que los modelos grandes ya no están sujetos al cuello de botella del entrenamiento previo y ahora también pueden expandir los cálculos de inferencia. en cuanto al papel de las capacidades de razonamiento mejoradas, openai afirmó que se puede utilizar para anotar datos de secuenciación celular en el campo de la atención médica y generar fórmulas matemáticas complejas en el campo de la investigación física.

google deepmind mejora el rendimiento final del sistema de ia combinando otras tecnologías además del llm. alphaproof también se basa en el aprendizaje por refuerzo y es un sistema de razonamiento matemático. el sistema se entrenó a sí mismo para probar el lenguaje de programación lean, un lenguaje de programación utilizado para ayudar a verificar teoremas, combinando un modelo de lenguaje entrenado con el algoritmo de aprendizaje por refuerzo alphazero. según google, lean permite al sistema verificar la exactitud cuando se trata de pruebas de razonamiento matemático. cuando se enfrenta a un problema, alphaproof genera soluciones candidatas y luego busca en lean posibles pasos de prueba para probar o refutar.

independientemente de si los principios técnicos son similares, alphaproof y openai o1 tienden a pensar profundamente en comparación con los modelos anteriores y no solo confían en la capacidad de llm para predecir y generar rápidamente el siguiente token (elemento de palabra).

¿cómo llegar a agi?

anteriormente, un gran desarrollador de modelos dijo a los periodistas que una de las razones de la débil capacidad matemática de los modelos grandes es que no se utiliza una gran cantidad de datos matemáticos de alta calidad para entrenar el modelo. a medida que mejora la calidad de los datos, surge el problema de la matemática débil. la habilidad se puede resolver. sin embargo, además del motivo de los datos de entrenamiento, los analistas de la industria dicen que la pobre capacidad matemática de llm también se debe a que el método para predecir el siguiente token no es realmente inteligente. a juzgar por las tendencias recientes, la industria, incluidos openai y google deepmind, está resolviendo el problema de las malas capacidades matemáticas y de razonamiento desde el mecanismo operativo de los sistemas de ia. de hecho, está utilizando varias tecnologías para compensar las deficiencias de los métodos operativos de llm. , hasta cierto punto, hacer que llm piense más como humanos.

con respecto a las limitaciones de las capacidades de llm, cómo resolver problemas como la capacidad matemática y cómo pasar del llm existente a agi, la industria todavía está discutiendo las causas fundamentales y las soluciones. muchos veteranos de la industria celebraron recientemente una conferencia organizada por saudi data. y autoridad de inteligencia artificial discutido en la cumbre mundial de inteligencia artificial gain summit. en la cumbre, simon see dijo que la inteligencia artificial actual es "estrecha". mucha gente piensa que el llm se convertirá en la fuerza impulsora para realizar agi, pero en realidad no entienden realmente cómo funciona y todavía están al borde del desarrollo del llm. todavía quedan muchos problemas por resolver, como la imposibilidad de construir modelos cada vez más grandes porque no se puede proporcionar energía ilimitada.

"ahora tenemos una gran cantidad de datos. una vez que el modelo esté lo suficientemente entrenado, surgirán capacidades. en mi opinión, depender de una sola tecnología no es factible. la dirección en la que está trabajando actualmente la industria incluye combinar llm con otros conocimientos y tecnologías como nuevos símbolos, cálculo, etc. para la comprensión y el razonamiento". simon see dijo que la combinación de diferentes tecnologías ha logrado grandes avances recientemente. alphaproof de deepmind combina lenguaje de programación lean, modelos de lenguaje, etc., para que la ia pueda ser utilizado para demostraciones matemáticas. dejemos que llm combine varias tecnologías para darle al sistema de inteligencia artificial el poder potencial para generar agi.

antoine blondeau, cofundador y socio director de alpha intelligence captal, también cree que es inevitable que las máquinas lleguen a ser mejores que los humanos, pero llevará algún tiempo lograr este resultado y todavía hay mucha investigación científica. trabajo por hacer. consideró que la ia no será un modelo único, sino que puede ser una combinación de múltiples modelos. la máquina eventualmente aprenderá a observar, probar o refutar, generalizar y aprender en el mundo real como los humanos.

respecto al mecanismo actual y las limitaciones del llm, antoine blondeau cree que los seres humanos aprendemos de la vida, el 95% de lo cual lo aprendemos de "vídeos con sonido". la esencia de nuestra vida es básicamente "encender el vídeo", y el otro 5. el % proviene de texto, como libros. los humanos aprenderán semántica de los videos. por ejemplo, cuando aparecen cinco dedos, significa que puede ser un humano u otro animal. los humanos también comprenderán la secuencia de tiempo y causa y efecto de los eventos. pero cuando una máquina aprende de un vídeo, su tarea es predecir el siguiente píxel, lo cual no es el método humano. si no podemos hacer que las máquinas aprendan como los humanos, será difícil que alcancen niveles más altos de inteligencia.

alex smola, un conocido científico de aprendizaje automático y fundador y director ejecutivo de la startup de grandes modelos boson ai, señaló que las limitaciones de la operación llm también están relacionadas con la predicción de tokens. dijo que la capacidad de llm para predecir el siguiente token (elemento de palabra) se ha utilizado para comprender imágenes, sonidos, emitir sonidos y, en los últimos 12 meses, todo parece haberse convertido en un token.

"hasta cierto punto, hemos comenzado a agotar la cantidad de tokens disponibles. una estimación aproximada es que puede haber 100 billones de tokens, que pueden ser los tokens que los humanos pueden usar para construir llm. todavía hay muchos suministros de video y audio. algún tipo de en la medida en que esto entre en juego, también depende de que nvidia u otras compañías produzcan chips que puedan manejar estos modos. alex smola dijo que en el futuro previsible, el núcleo de llm puede ser el modelado de secuencia (modelado de secuencia). , que ahora puede ver los datos, la convergencia de hardware y los modelos probabilísticos también están evolucionando hacia estructuras similares. podemos ver hasta dónde puede llegar la exploración relacionada en los próximos años.

combinando el progreso tecnológico y mirando hacia el futuro, antoine blondeau cree que la realización de agi puede ocurrir dentro de 10 o 20 años, y la velocidad de la evolución es ahora muy rápida. simon see cree que para alcanzar el agi, el 80% del proceso se puede completar en estos 10 años, pero considera que el último 20% será muy difícil y llevará más tiempo.

(este artículo proviene de china business news)

informe/comentarios

noticias

los grandes modelos están empezando a aprender a pensar como humanos. ¿dónde está el camino hacia la agi?

introducción

mi información de contacto