Hable sobre cómo pensar en modelos grandes con el científico de aprendizaje profundo Yann LeCun

Hablemos sobre cómo pensar en grandes modelos con el científico de aprendizaje profundo Yann LeCun

2024-08-09

Con el avance y la popularidad de la tecnología de IA generativa en los últimos dos años, el uso de modelos grandes para generar contenido se ha convertido gradualmente en parte de la vida de la gente común. Este proceso parece fácil: cuando ingresamos una instrucción, el modelo grande puede generar directamente la respuesta por nosotros. Sin embargo, detrás de escena, nadie conoce los principios de funcionamiento internos y el proceso de toma de decisiones del modelo. Esta es la conocida "caja negra de aprendizaje automático".

Debido a la inexplicabilidad de los modelos de caja negra, la seguridad de la IA siempre ha sido cuestionada. Entonces los científicos comenzaron a intentar abrir la caja negra de los modelos grandes, lo que en la industria se llama "investigación de caja blanca". Por un lado, el estudio de los modelos de caja blanca puede ayudar a las personas a comprender los modelos de caja negra, optimizando así modelos grandes y mejorando la eficiencia. Por otro lado, el objetivo de la investigación de caja blanca es impulsar la IA, una materia de ingeniería, hacia la ciencia.

Esta vez invitamosChen Yubei, profesor asistente, Departamento de Ingeniería Eléctrica e Informática, Universidad de California, Davis, el contenido de su investigación está relacionado con el "modelo de caja blanca". Además, también es becario postdoctoral de Yann LeCun, ganador del Premio Turing y científico jefe de Meta. En este episodio, conversó con nosotros sobre los últimos avances en la investigación de modelos de caja blanca y también compartió con nosotros Yann LeCun, un científico que conoce y que ha experimentado los altibajos de la industria de la inteligencia artificial, pero que permanece exclusivamente enfocado. .

Gráfico de Violet Dashi. Ilustraciones de Nadia y Simple Line.

Las siguientes son entrevistas seleccionadas.

01 Cerebro humano y modelo grande.

"Valle del silicio 101":¿Puedes presentarnos brevemente la investigación que estás realizando sobre el "modelo de caja blanca"? Durante su investigación, ¿ha descubierto cómo explicar los problemas de entrada y salida de GPT?

Chen Yubei:De hecho, un objetivo relativamente grande en esta dirección es promover el aprendizaje profundo de un tema puramente empírico a un tema científico, o convertir la ingeniería en ciencia, porque actualmente la ingeniería se está desarrollando relativamente rápido pero la ciencia es relativamente lenta. Solía existir un modelo llamado incrustación de palabras, que podía aprender algunas representaciones del lenguaje.

De hecho, todos tenían una pregunta en ese momento: el desempeño de nuestras tareas ha mejorado, pero ¿qué causó exactamente que este desempeño mejorara? Entonces hicimos un trabajo muy temprano en ese momento, que fue tratar de abrir estas representaciones de palabras. Cuando lo abras, encontrarás algunos fenómenos interesantes.

Por ejemplo, si toma la palabra manzana, puede encontrar algunos metasignificados en ella. Por ejemplo, uno de los significados puede representar fruta y otro puede representar postre. Si profundiza, encontrará el significado de tecnología y. productos, que por supuesto se refiere a los productos de Apple. Entonces descubrirá que puede encontrar estos metasignificados a lo largo de una palabra y luego puede extender este método a un modelo de lenguaje grande.

En otras palabras, después de haber aprendido un modelo de lenguaje grande, podemos buscar algunos metasignificados en el modelo y luego intentar abrirlo. Encontrará un modelo de lenguaje grande, que en realidad tiene muchas capas.

En el nivel primario aparecerá un fenómeno llamado "desambiguación de palabras". Por ejemplo, hay una palabra en inglés llamada "izquierda". Esta palabra significa tanto girar a la izquierda como el tiempo pasado de salir. Entonces su significado específico depende del contexto antes y después del contexto, por lo que el modelo de lenguaje grande completa la desambiguación de la palabra. en las primeras capas.

A medio plazo, descubrirás que surgen algunos significados nuevos. En ese momento, pensamos que algo muy interesante se llamaría "Conversión de unidades". Una vez que desee convertir kilómetros a millas y la temperatura de Fahrenheit a Celsius, se activará. Este significado se abrirá. de esta manera. Muchos niveles similares de este meta-significado.

A medida que avanzas, incluso encontrarás que hay un patrón entre estos metasignificados. Este patrón es que cuando aparece un significado repetido en el contexto, puedes usar este método para abrir el gran lenguaje. Modelos y modelos de lenguaje pequeño. Por supuesto, estas ideas no son completamente nuevas. En realidad, tienen una historia en los modelos visuales. Ha habido algunas exploraciones similares desde Matthew Zeiler.

"Valle del silicio 101":Siguiendo esta línea de pensamiento, si sabemos cómo funciona parte de él, ¿podremos optimizarlo mucho desde una perspectiva de ingeniería?

Chen Yubei:Sí, esta es una muy buena pregunta. Creo que un requisito relativamente alto para cualquier teoría es que pueda guiar la práctica. Entonces, cuando estábamos haciendo modelos de lenguaje y representaciones de vocabulario, uno de los objetivos que teníamos en ese momento era que, una vez que lo entendiéramos, podríamos a su vez optimizar estos modelos. ? De hecho, es posible.

Por ejemplo, si encuentra un metasignificado en un modelo de lenguaje grande, se activará cuando vea un determinado metasignificado, entonces esta neurona se puede usar como discriminador y usted puede usar este algo para realizar algunas tareas. Al cambiar estos metasignificados, se ajusta el sesgo del modelo.

Es que si puedo detectarlo, entonces puedo ajustarlo. Recientemente, Anthropic ha realizado un trabajo similar, que consiste en encontrar algunos sesgos que puedan existir en el modelo de lenguaje y luego realizar algunos cambios para que el modelo sea más justo y seguro.

"Valle del silicio 101":Vi que OpenAI también realizó un estudio el año pasado, que utilizó GPT4 para explicar GPT2 y ver cómo funciona GPT2. Por ejemplo, descubrieron que la neurona de GPT 2 se activará al responder todo lo relacionado con la historia de los Estados Unidos alrededor de 1800. La neurona número 12 en la línea 5 se activará al responder en chino, será la neurona número 13 en la línea 5. línea 12. está activada.

Si la neurona que responde al chino se desactiva, su capacidad para comprender el chino disminuirá significativamente. Pero cuanto más atrás están las neuronas, por ejemplo, cuando alcanzan unas 2000 filas, su credibilidad general ha disminuido mucho. ¿Has notado sus investigaciones?

Investigación de OpenAI: dejemos que GPT4 explique las neuronas GPT2

Chen Yubei:Aún no he leído este artículo, pero este método es muy similar a operar las neuronas del cerebro. Equivalente a ahora, si hay una red neuronal, esta red significa que, en cierto sentido, puede encontrar una existencia local en lugar de estar completamente dispersa, entonces se pueden realizar algunas operaciones en ella. Por ejemplo, si se corta una determinada neurona, se puede pensar que cierta parte de su capacidad está relativamente perdida.
De hecho, lo mismo se aplica a las personas. Por ejemplo, una persona con epilepsia puede tener algunas barreras del lenguaje después de la cirugía, pero esto no afecta otras funciones del cuerpo humano.

"Valle del silicio 101":OpenAI y Anthropic están estudiando actualmente la interpretabilidad de modelos grandes. ¿Hay alguna diferencia entre su investigación y la de ellos?

Chen Yubei:De hecho, nadie sabe si la investigación sobre el modelo de caja blanca tendrá éxito en el futuro. Lo he discutido antes con mi supervisor, pero todos están de acuerdo en que vale la pena intentarlo. Si volvemos a esta área, lo que nuestra investigación quiere hacer es en realidad comprender la inteligencia artificial, reconstruirla a través de nuestra comprensión y luego, fundamentalmente, construir algo diferente. Así que creo que la observación, es decir, la interpretabilidad, es sólo un medio.
En otras palabras, ya sea que abra este modelo, haga estos experimentos o haga algunos ajustes al modelo, creo que estos son algunos de los métodos que probamos en el proceso de comprensión, pero lo que es realmente importante acerca de la caja blanca. El modelo todavía tiene que volver a la señal en sí. Porque ya sea un cerebro humano o una máquina, la esencia de su aprendizaje se basa en señales.

Hay algunas estructuras en nuestro mundo, y ellos también tienen que aprender a través de estas estructuras, y son estas estructuras las que aprenden. Entonces, ¿podemos encontrar las leyes detrás de estas estructuras, así como algunas herramientas matemáticas para representarlas, y luego reorganizar estas cosas para construir un modelo diferente? Si esto se puede hacer, creo que generará expectativas para mejorar la solidez, la seguridad y la confiabilidad de nuestros sistemas.
Además, su eficiencia aumentará. Esto es un poco como la teoría de la termodinámica que apareció después de que apareciera la máquina de vapor, apoyando así su transformación de un completo artesano a una ciencia. De la misma manera, hoy parece que tenemos una máquina de vapor con datos por primera vez. Debido a que antes no entendíamos nuestros datos, finalmente podemos comenzar a desarrollar algunos algoritmos de inteligencia artificial para capturar los patrones en los datos.

"Valle del silicio 101":Por lo que será más eficiente energéticamente.

Chen Yubei:Cuando se trata de conservación de energía, puedo darles algunos ejemplos interesantes. El primer punto es definitivamente el ahorro de energía, porque el cerebro equivale a una bombilla con un consumo de energía de 20 vatios, y las supercomputadoras actuales pueden tener más de un millón de vatios.

El segundo punto es que si observamos la evolución de varios organismos en la naturaleza, su eficiencia evolutiva es en realidad muy alta. Por ejemplo, existe un tipo especial de araña llamada Jumping Spider. Tiene sólo unos pocos millones de neuronas, pero puede formar líneas grupales tridimensionales muy complejas para capturar a su presa.

Araña saltadora, Wikipedia

Y una de las cosas más interesantes para mí es la eficacia con la que la gente utiliza los datos. El volumen de datos actual de Llama3 ha alcanzado aproximadamente 13 billones de tokens. Pero, ¿cuántos datos puede recibir una persona a lo largo de su vida? Supongamos que podemos obtener 30 fotogramas de imágenes por segundo, y el tiempo de adquisición diario es de 12 horas, y lo hacemos durante 20 años, entonces probablemente podamos obtener 10 mil millones de tokens y la cantidad de texto que se puede obtener es casi la misma. Los datos son mucho más pequeños que los de un modelo grande.
Entonces la pregunta es: ¿cómo puede la gente obtener una capacidad de generalización tan fuerte a través de una cantidad tan pequeña de datos? Esto es lo que me parece sorprendente acerca de la eficiencia del cerebro humano.

"Valle del silicio 101":¿Es más difícil descubrir cómo funcionan los grandes modelos o cómo funciona el cerebro humano? Me suena difícil.

Chen Yubei:Ambos tienen sus propias dificultades, pero tienen un enfoque similar. Ya sea el cerebro humano o un modelo de lenguaje de gran tamaño, intentamos observarlo y ver a qué responde.

De hecho, este método puede verse en la investigación sobre la corteza visual realizada por David Hubel y Torsten Weisel, que ganaron el Premio Nobel de Fisiología en los años 1980. Encontraron una célula simple e intentaron estudiar cómo estas neuronas generan impulsos cuando las personas ven algo, y analizaron los diferentes estados de respuesta de las neuronas cuando ven cosas diferentes, como cuando no responden en absoluto y cuando están muy excitadas. , y luego encontraron el campo receptivo de la neurona.

DH Hubel y TN Wiesel, premios Nobel de Fisiología o Medicina en 1981

Nuestro estudio actual de modelos de lenguaje grandes es en realidad similar. Buscamos diferentes entradas y luego entendemos qué neuronas dentro del modelo están interesadas en qué entradas. Pero todavía hay diferencias.

La primera diferencia es que existen muchas limitaciones para observar el cerebro humano, ya sea a través de electrodos enchufables o métodos de interfaz cerebro-computadora. Sin embargo, una ventaja natural de los modelos de lenguaje grandes es que los métodos de observación ya no están limitados. Es un método mejor, puede analizarlo a largo plazo e incluso puede analizar más el modelo a través de algunos métodos diferenciales.

Pero su desventaja es que la capacidad de los modelos grandes es mucho menor que la del cerebro, especialmente los modelos lingüísticos grandes, porque solo aprende el mundo a través del lenguaje, por lo que su comprensión del mundo es incompleta, al igual que una persona. otros sentidos excepto el lenguaje.

Por el contrario, el cerebro puede procesar señales más dimensionales y los sentidos son muy ricos. A veces pensamos en una pregunta: ¿está completo el lenguaje? Si no hay apoyo de otros sentidos, ¿pueden existir todos los conceptos en el lenguaje de forma independiente o necesitan el apoyo de otros sentidos para lograr una verdadera comprensión?

Por ejemplo, si el objeto "refrigerador" no está relacionado con las sensaciones de frío y calor en el mundo real, sino que solo describe características estadísticas como tener una puerta, esta descripción estará incompleta.

"Valle del silicio 101":De hecho, en comparación con el cerebro, al modelo grande actual todavía le falta mucho. Pero como podemos desmontarlo y estudiarlo, uno cree que va un poco más allá de la ambición de descubrir los secretos del cerebro.

Chen Yubei:La dificultad de comprender un modelo de lenguaje grande es que hay muchas formas de observarlo y se puede comprender mejor. Por ejemplo, si hay dos máquinas, una es totalmente observable y la otra es parcialmente observable, entonces, intuitivamente hablando, la máquina que es totalmente observable es más fácil de entender. Por supuesto, tiene algunas capacidades que esta máquina no tiene, por lo que no puede reemplazar cierta comprensión del cerebro humano.

"Valle del silicio 101":Permítanme también presentarles a la audiencia que Yubei estudió neurociencia antes. Entonces, ¿crees que tu experiencia en la materia te ayudará en tu investigación actual en el campo de la IA? ¿Existen algunos métodos de investigación interdisciplinarios que puedan aprenderse unos de otros?

Chen Yubei:En realidad, no me especializo en neurociencia computacional. Mi título universitario fue en el Departamento de Electrónica de la Universidad de Tsinghua y en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación de Berkeley. Sin embargo, el instituto de investigación en el que trabajaba en ese momento era un instituto de investigación en neurociencia, por lo que mi mentor era un experto en computación. neurociencia.

Respecto a la pregunta de ahora, creo que el estudio de la neurociencia suele ser una inspiración para mí. Porque cuando conoces estos sistemas en la naturaleza y lo que pueden hacer, es posible que tengas ideas diferentes y vuelvas a analizar el problema en cuestión.

Por ejemplo, una imagen es una señal de entrada bidimensional, sus píxeles son horizontales y verticales y luego forma una cuadrícula. Pero la retina humana no se parece a esto. En primer lugar, es un tipo de receptor con diferentes percepciones. Este receptor está dispuesto de una manera muy densa pero no muy regular. Es muy denso en el medio y se vuelve escaso hacia ambos lados.
Cuando nos enfrentamos a una señal de entrada de este tipo, en primer lugar, las redes neuronales convolucionales a las que estamos acostumbrados no son válidas, porque ni siquiera la convolución está definida aquí. Entonces, cuando veamos esta situación en los sistemas biológicos, reconsideraremos de dónde vienen estas llamadas circunvoluciones.

"Valle del silicio 101":Entonces reconsiderarás el método, ¿es correcto? ¿Tiene que implementarse de esta manera?

Chen Yubei:Sí. Supongamos que un día te despiertas y todas tus neuronas están alteradas. ¿Aún puedes entender el mundo? Porque lo que ves ya no es una imagen y ya no puedes usar una red neuronal convolucional para hacer esto. ¿Qué tipo de método necesitas?

Aunque no hemos solucionado completamente este problema, en realidad hemos dado un paso adelante. Aunque todas mis neuronas están alteradas, es decir, los píxeles de la imagen de nuestro receptor están alterados, existe alguna relación entre los píxeles adyacentes. Por ejemplo, cuando miramos una imagen, encontraremos que si un píxel es rojo, es más probable que los píxeles circundantes sean rojos. Luego, a través de esta relación, puedes permitir que estos píxeles encuentren amigos nuevamente y luego puedes poner similares. Los píxeles se autoorganizan en algunas relaciones.

Luego, en este momento, al agregar una estructura como Transformer en el modelo de lenguaje grande, podemos volver a representar esta imagen, y el rendimiento de esta representación es bastante bueno. Este es un ejemplo de cómo reexaminar algunas de nuestras prácticas de ingeniería actuales inspiradas en la naturaleza y luego proponer algunos métodos diferentes.

Modelo de caja negra, imagen AIGC vía Firefly

"Valle del silicio 101":Todavía existen muchas similitudes entre la investigación sobre grandes modelos de IA y la neurociencia del cerebro humano. ¿Habrá neurocientíficos que colaborarán con usted en investigaciones multidisciplinarias desde su perspectiva?

Chen Yubei:De hecho, hay muchos neurocientíficos, estadísticos y matemáticos que quieren comprender algunas estructuras de las señales naturales y también prestar atención a cómo funcionan las neuronas en el cerebro, y luego combinar ambas para intentar proponer algunas representaciones minimalistas de las señales.

Por ejemplo, encontrará un fenómeno en el cerebro, es decir, aunque hay muchas neuronas, las neuronas que trabajan al mismo tiempo son en realidad muy escasas. Por ejemplo, si hay 1 millón de neuronas, es posible que sólo unos pocos miles estén funcionando.

En base a esto, en los primeros años se propuso un método de codificación dispersa en el campo de la neurociencia, es decir, ¿se pueden encontrar algunas representaciones dispersas de baja dimensión en esta señal de alto nivel? El algoritmo construido sobre la base de esta idea es muy similar a la representación de las neuronas que se observan en el cerebro, por lo que se trata de un éxito no supervisado en las primeras etapas de la neurociencia computacional.

A día de hoy, todo nuestro campo de investigación se llama Estadísticas de señales naturales. Su objetivo es revelar algunas estructuras básicas detrás de las señales. Sin embargo, en comparación con los modelos grandes, no es tan simple como el desarrollo de investigaciones que combinan la neurociencia. como los modelos es en realidad relativamente lento. De hecho, creo que, por un lado, puede deberse a que el problema es complicado, pero, por otro lado, también se debe a que hay relativamente poca gente invirtiendo en esta dirección.

02 "Superación actual" del modelo de caja negra

"Valle del silicio 101":En pocas palabras, actualmente hay muy poca gente que estudie los modelos de caja blanca. Pero antes de la aparición de grandes modelos, ¿el aprendizaje automático tradicional también entra en la categoría de investigación de modelos de caja blanca?

Chen Yubei:Creo que esta afirmación puede considerarse correcta. Estos modelos de aprendizaje automático anteriores son relativamente simples y relativamente comprensibles.

"Valle del silicio 101":Entonces, ¿por qué el progreso actual de la investigación de todo el modelo de caja negra es capaz de superar al modelo de caja blanca en las esquinas, mucho más rápido?

Chen Yubei:Cuando se hace esta pregunta, estaremos nerviosos por un momento antes de responder.

"Valle del silicio 101":¿Por qué estar nervioso?

Chen Yubei:Debido a que esta pregunta es muy aguda, en realidad se trata de preguntar si se trata de un modelo de caja blanca o de un camino comprensible al que deberíamos renunciar. A partir de nuestra era, ¿ya no estudiaremos ciencia en el campo de la IA y todo se convertirá en un tema empírico en el futuro? Pero no lo creo todavía.
Volviendo a tu pregunta de ahora, ¿qué pasó exactamente en este proceso? El primer punto es que el modelo de caja negra tiene menos equipaje. Si desea que este método funcione y sea explicable, hay demasiados requisitos, entonces el modelo de caja negra renuncia a una cosa para dejarlo funcionar primero.

La segunda razón es relativamente ignorada por todos, que es el crecimiento de los datos en contra de la tendencia o la expansión de la escala.

Richard Sutton escribió un blog antes y mencionó que hay algo que no se ha roto en los últimos 20 años, y es que cuando tengamos más datos y más cálculos, deberíamos encontrar algoritmos que realmente puedan expandirse y encontrar este patrón en todos. los datos. Creo que este es un aspecto muy importante del modelo de caja negra, o de nuestro progreso empírico actual.

Es decir, cuando tengamos más datos, mejores datos, más cálculos y modelos más grandes, podremos aprender más. Pero si volvemos a esta cuestión, todo el mundo tiene un objetivo en el modelo de caja blanca, que es que el modelo en sí debe ser simple.

Una comparación entre Black Box ML y White Box ML

"Valle del silicio 101":¿Por qué los modelos de caja blanca deberían ser simples? ¿Significa que si es demasiado complejo será difícil de diseñar?
Chen Yubei:Sí. De hecho, al hacer teoría sólo se pueden entender cosas concisas y hay que simplificarla una y otra vez. Sin embargo, cuando las personas buscan la simplicidad del modelo, también pueden simplificarlo demasiado una y otra vez. Una vez que se produce esta simplificación excesiva, el modelo no puede describir completamente la forma de los datos. Luego, cuando haya más datos, el modelo no podrá continuar y sus capacidades serán limitadas.

Entonces creo que esta también es una dificultad que todos enfrentaron al estudiar modelos de caja blanca y modelos simples en el pasado. No solo necesitamos llevar el modelo con el trabajo, sino que también necesitamos su equipaje interpretable, y también necesito que sea simple. Cuando traigas todas estas cosas, encontrarás que este equipaje es demasiado pesado. Cuando simplifica demasiado, introduce errores, que se acumularán y no podrá avanzar más adelante.
"Valle del silicio 101":Pero ahora, con el rápido desarrollo de los modelos de caja negra, estamos empezando a intentar resolverlo nuevamente.
Chen Yubei:Sí. Y esta vez, cuando lo solucionemos, es posible que volvamos a abordar este problema. Es decir, no necesariamente necesitamos simplificar completamente el modelo a ese nivel, aún puede representar el lado más complejo del mundo.

Pero al mismo tiempo, todavía esperamos que sea relativamente comprensible, por lo que si algún día podemos lograr un modelo de caja blanca, entonces creo que todos los intentos anteriores son una simplificación excesiva, pero esperamos que cada simplificación pueda seguir adelante. Ni siquiera necesitamos hacer un modelo de caja completamente blanca. Tal vez podamos hacer un modelo de caja blanca que no sea tan poderoso como el modelo grande, pero es relativamente simple.
Nos resulta útil comprender la esencia detrás del aprendizaje y esta comprensión, a su vez, puede permitirnos mejorar la eficiencia del entrenamiento de modelos grandes. He discutido temas de eficiencia con Yann varias veces antes, lo que significa que si se desarrolla la teoría detrás de esto, podremos aumentar la eficiencia de la práctica de la ingeniería en órdenes de magnitud.
"Valle del silicio 101":¿El punto de vista de Yann es que prefiere desarrollar un modelo de caja blanca o un modelo de caja negra?
Chen Yubei:Yann es un científico conocido por sus habilidades en ingeniería, por lo que muchos de sus intentos todavía implican hacer que esto funcione primero. Pero Yann también apoya la investigación del modelo de caja blanca. Durante mi conversación con él, consideró que valía la pena explorar este camino, pero no sabía si sería alcanzable para un objetivo demasiado ambicioso, pero alguien tenía que hacerlo.
"Valle del silicio 101":Parece que el modelo de caja negra es un problema de ingeniería, mientras que el modelo de caja blanca debe explicarlo científicamente. Aunque desde una perspectiva de comercialización, su relación entrada-salida no es tan alta, si finalmente se puede fabricar, seguirá siendo de gran valor para la seguridad de la IA y sus futuras aplicaciones comerciales.
Chen Yubei:Con respecto a la comercialización, de hecho creo que la intención original de todos aquellos que realizan investigaciones básicas sobre IA no es tener ninguna aplicación como la intención original, sino ser impulsados por una curiosidad relativamente pura sobre el tema de la inteligencia, luego se pueden descubrir algunos patrones. , que a su vez puede ayudar en la práctica de la ingeniería. La investigación en sí no está diseñada para ninguna aplicación en particular.

Además, cuando persigamos este modelo de caja blanca y esta máxima eficiencia, también nos haremos una pregunta, es decir, si el modelo de lenguaje grande que estamos construyendo ahora solo se puede lograr a través de este tipo de escala o ley de escala. ¿Está bien simplemente caminar hacia abajo? No me parece. Debido a que los humanos no pueden aceptar una cantidad tan grande de datos, cómo obtener una capacidad de generalización relativamente alta con una pequeña cantidad de datos también es un tema importante que estamos estudiando.

"Valle del silicio 101":Este también debería ser un problema estudiado por los estudiosos del modelo de caja negra. ¿Qué académicos y escuelas están estudiando actualmente el modelo de caja blanca?

Chen Yubei:En la actualidad, existen principalmente tres fuerzas de la IA. La primera fuerza es parte de la experiencia que hemos generado en el proceso de estudiar estos modelos de ingeniería y luego visualizarlos, como en lo que Anthropic y OpenAI han estado involucrados recientemente.

Investigación antrópica: extracción de características interpretables de la red neuronal Claude 3 Sonnet

El segundo es la neurociencia computacional que intenta comprender el cerebro humano y encontrar formas en que puedan existir algunos recuerdos.

Otra escuela de pensamiento consiste en observar la estructura básica de la señal desde una perspectiva matemática y estadística. Por supuesto, habrá muchos cruces entre estos tres tipos.
"Valle del silicio 101":¿A qué género perteneces?
Chen Yubei:De hecho, estoy más o menos influenciado por los tres grupos. Cuando estaba en Berkeley, mi mentor y profesor Ma Yi pertenecían a la escuela de neurociencia y estadística matemática, y Yann tenía más formación en ingeniería. También creo que estos tres métodos son aceptables porque, en última instancia, nos llevarán a avanzar en la misma dirección.
"Valle del silicio 101":¿Qué dirección es la misma? ¿Hay resultados graduales ahora?
Chen Yubei:El último paso es comprender el modelo. Ha habido algunos resultados graduales antes, como si podemos crear algunas redes incluso con dos o tres capas, y podemos ver lo que aprenden en cada capa. Finalmente, descubrí que es realmente posible representar un número. Si quieres representarlo, aprenderás todos sus trazos y luego conectarás trazos similares, y luego podrás construir el siguiente nivel de representación, capa por capa. , finalmente encontró el número.
"Valle del silicio 101":¿Su investigación actual conducirá a la optimización del modelo de caja negra?

Chen Yubei:Primero, a medida que su comprensión se profundice, podrá optimizar el modelo de caja negra y hacerlo más eficiente. El segundo es unificar diferentes modelos de cajas negras, reduciendo así muchos residuos innecesarios. Al mismo tiempo, hay otro pilar del trabajo de mi laboratorio, que es estudiar no sólo la percepción sino también el control.

Cuando les das a estos grandes modelos de lenguaje la capacidad de interactuar con el mundo, ¿puedes obtener la misma capacidad de generalización en el sistema de control? ¿Qué significa? Es decir, en el sistema de percepción, encontrará que aprendí manzanas, peras y luego un melocotón. Como aprendí un concepto similar de manzanas y peras antes, puedo aprender rápidamente el concepto de melocotón.

Entonces, en el campo del control, ¿se pueden lograr resultados similares? Por ejemplo, si un robot aprende a caminar hacia adelante y saltar en el lugar, ¿puede convertirse rápidamente en un robot que salta hacia adelante y camina al mismo tiempo?

"Valle del silicio 101": Si le pidieran que diera una conclusión, ¿cree que se utilizará la investigación del modelo de caja blanca para desbloquear el secreto de la operación del modelo grande? ¿Dónde está la barra de progreso actual?
Chen Yubei:De hecho, ninguno de nosotros sabe cuánto dura esta barra de progreso. Siento que en realidad está muy lejos de este objetivo. No es necesariamente un desarrollo lineal, puede parecerse más bien a un salto cuántico. Cuando surge una nueva comprensión, inmediatamente puedes dar un gran paso adelante.

Si desea crear un ChatGPT de caja blanca, creo que todavía está bastante lejos, pero es posible que podamos crear un modelo bastante bueno y completamente comprensible que pueda reproducir las capacidades de AlexNet en ese momento. Este modelo puede realizar el reconocimiento de Imagenet. Podemos comprender cómo realiza cada paso, cómo se convierte en un gato y un perro paso a paso, y luego cuál es la estructura de este gato y este perro.

Ejemplo de WordNet utilizado por ImageNet

"Valle del silicio 101":¿El reconocimiento de ImageNet es un cuadro blanco o un cuadro negro?

Chen Yubei:Aún no hemos descubierto cómo funciona. Hubo cierta comprensión a partir de algunas de las primeras visualizaciones realizadas por Matthew Zeiler y Rob Fergus y muchos investigadores, pero nadie había podido crear un modelo en el que pudiéramos comprender cada paso y seguir funcionando bien.
"Valle del silicio 101":Entonces, tal vez el objetivo del modelo de caja blanca sea ser escenificado. Por ejemplo, el primer paso es explicar cómo funciona ImageNet. Una vez resuelto el misterio, podemos explicar cómo funcionan algunos modelos pequeños, al igual que usar GPT 4 para explicar cómo funciona GPT 2, y luego explicar lentamente cómo funcionan los modelos más grandes. El modelo funciona.
Chen Yubei:Sí. Creo que este proceso todavía lleva bastante tiempo y se necesita más gente para invertir en esta dirección. Porque la mayoría de los trabajos actualmente se encuentran en el campo de la ingeniería. Si lo ponemos en las escuelas, entonces realmente necesitas tener algunas ideas originales, en lugar de decir tú vas a escala y yo iré a escala, entonces todos son escala, y al final no hay distinción, todo depende de ¿Qué máquina es la mejor y quién tiene más datos?

03 Lo que sé sobre Yann LeCun

"Valle del silicio 101":A continuación quiero hablar con usted sobre su asesor postdoctoral, Yann LeCun. Primero, permítanme presentarles a Yann LeCun. Su nombre chino es Yang Likun. Es un informático francés que ha realizado muchas contribuciones en los campos del aprendizaje automático, la visión por computadora, los robots móviles y la neurociencia computacional. ". "Padre de Internet".

LeCun es actualmente el científico jefe de IA en Meta y se desempeña como profesor en la Universidad de Nueva York. Fue pionero en las redes neuronales convolucionales (CNN) en la década de 1980, una tecnología que se convirtió en la base de la visión por computadora moderna. LeCun, junto con Geoffrey Hinton y Yoshua Bengio, recibieron el Premio Turing 2018 por su trabajo pionero en aprendizaje profundo.
¿Puedes explicar los principales resultados de la investigación científica de Yann a nuestros amigos no técnicos y por qué es tan famoso?

Chen Yubei:Yann ha estado estudiando el campo de la IA de redes neuronales desde la década de 1980 y ha experimentado muchos altibajos y el declive de diferentes escuelas de pensamiento. Sin embargo, siempre ha insistido en las redes de aprendizaje profundo y es una persona que ha caminado en la oscuridad.

Por ejemplo, en el año 2000 era muy difícil publicar artículos relacionados con el aprendizaje profundo. ¿Qué tan difícil fue? Si la palabra Neural o Network existe en su artículo, su probabilidad de ser rechazado es muy alta. Si existe Neural Network, básicamente será rechazado.

Entonces fue un momento oscuro para ellos y la financiación también se vio afectada. Pero fueron capaces de perseverar en esta oscuridad y nunca darse por vencidos, y finalmente salieron de esta oscuridad. Hoy en día, las redes neuronales profundas han cambiado el mundo. Creo que esto es en realidad su premio Turing, un recuerdo de sus primeros pioneros. días.

Yann Le Cun

"Valle del silicio 101":¿Por qué elegiste su grupo cuando eras estudiante postdoctoral?
Chen Yubei:Esta es una aventura bastante interesante. De hecho, estaba bastante confundido en ese momento y ni siquiera pensé en graduarme ese semestre. Porque mi determinación es crear un modelo de caja blanca durante mi doctorado y el rendimiento debería ser comparable al de AlexNet, pero aún no está listo.

Creo que si quiero continuar mi investigación, ¿a quién debería acudir como posdoctorado? Yo estaba en una reunión en ese momento y luego me encontré con Yann en el lugar. En realidad, no soy una persona particularmente especulativa. Creo que todo el mundo quiere encontrar a Yann como postdoctorado, así que cuando lo conocí, principalmente quería hablar sobre sus puntos de vista sobre mi trabajo y sobre algunas perspectivas sobre las direcciones de investigación. .

Como resultado, la conversación en la reunión fue muy buena. También había pensado en la dirección de mi investigación y en algunos de los temas en los que pensaba, pero desde la perspectiva de las redes neuronales. Entonces en ese momento me preguntó si estaría interesado en postularme para un puesto postdoctoral. Por supuesto que presenté mi solicitud, así que nos llevamos bien de inmediato.

"Valle del silicio 101":¿Qué clase de mentor es él? Les brinda a los estudiantes mucho espacio libre para explorar y ayuda mucho discutir con todos.
Chen Yubei:primero，La segunda situación ya no es posible para él. Mucha gente necesita su tiempo y el tiempo que puede dedicar a todos no es tanto.

En realidad, es similar a mi supervisor de doctorado, tiene un espíritu muy libre en algunas direcciones generales, pero creo que otra similitud entre ellos es que son persistentes en lo que creen, es decir, puede darle una dirección y un objetivo. Pero da igual cómo vayas, si en barco o en coche, él no controlará estos detalles.
De hecho, su dirección general no ha cambiado a lo largo de los años. Siempre ha sido el aprendizaje autodirigido. El aprendizaje autosupervisado en realidad se divide en dos partes. Una parte es la autosupervisión basada en la percepción. Otra parte más importante es cómo realizar la autosupervisión de forma encarnada, o ahora estamos haciendo un modelo mundial, que es una dirección en la que él cree.

De hecho, le puse este nombre porque leí un artículo llamado World Model escrito por David Ha y Jürgen Schmidhuber, y pensé que el nombre era genial.

Una arquitectura de sistemas para la inteligencia autónoma, Mata AI

"Valle del silicio 101":¿Crees que la dirección de investigación de Yann es diferente a la de OpenAI y Anthropic?
Chen Yubei:Si realmente quiero decir algo diferente, creo que lo que Yann quiere es que el modelo tenga varias características. La primera es tener la capacidad de estar incorporado, lo que significa que no es solo una pila de datos, sino que el modelo eventualmente puede explorar el mundo por sí solo.
"Valle del silicio 101":¿Cuál es la diferencia? Parece que todos esperan lograr finalmente ese resultado.
Chen Yubei:La ejecución es diferente. Por ejemplo, creo que OpenAI es la ley de escala, lo que significa más y mejores datos, luego más cálculos y modelos más grandes. Pero Yann es aún más científico. Lo que piensa es que si realmente queremos llegar a una inteligencia más parecida a la humana, ¿qué es exactamente lo que se necesita? Sentirá que simplemente acumular datos no es suficiente.
"Valle del silicio 101":Entonces, Yann es en realidad equivalente a la investigación de caja negra y caja blanca juntas.

Chen Yubei:Creo que a Yann en realidad no le importa mucho si esto se puede convertir en una ciencia. En la actualidad, creo que sus puntos de vista son principalmente empíricos y de ingeniería. Espera que este sistema pueda funcionar mejor. muy bueno en.

"Valle del silicio 101":Cuando OpenAI demostró que Scaling Law puede lograr buenos resultados, ¿crees que Yann ha cambiado en sus métodos y pensamiento de investigación científica? ¿O sigue fiel a su línea original?

Chen Yubei:De hecho, no se opone a la Ley de Escala. No creo que todos tengan un conflicto sobre este asunto. La verdadera diferencia posible es que gran parte del trabajo de OpenAI en realidad todavía está orientado al producto y se ejecuta al extremo en ingeniería, pero Yann en realidad está investigando de una forma más científica.

Cuando piensa en estos temas, en realidad no tiene mucho que ver con los productos. Solo piensa en una cosa: cómo lograr inteligencia. Debido a que ha estado en este campo durante demasiado tiempo y ha estado profundamente involucrado en este campo durante más de ocho años, es posible que aún se ciña a sus ideales al analizar estos temas.

"Valle del silicio 101":Dejar que la inteligencia aprenda de forma autónoma es la primera característica de la investigación de Yann. ¿Qué otras características existen?

Chen Yubei:También hay algo en lo que Yann siempre ha creído llamado JEPA, Joint Embedding Predictive Architecture. Es decir, por supuesto, el modelo debe tener la capacidad de aprender de forma independiente, pero lo más importante es que el modelo también puede aprender algunas reglas de nivel superior al aprender datos.

De hecho, actualmente hay dos grupos. Un grupo espera reconstruir completamente los datos a través del aprendizaje, lo que puede considerarse una idea de compresión. Sin embargo, Yann no quiere volver completamente a esta imagen porque la reconstrucción de esta imagen contiene demasiados detalles. Los detalles no son la información más importante a la hora de emitir juicios sobre el sistema.

"Valle del silicio 101":¿Es este punto diferente al de su mentora Ma Yi en Berkeley?

Chen Yubei:De hecho, no existe un conflicto esencial entre ellos en este punto de vista, pero la forma de expresarlo es diferente. El maestro Ma siente que las leyes de este mundo son simples y cree que estos detalles son en realidad perjudiciales para las tareas posteriores o algunos juicios, por lo que es necesario encontrar esas leyes de alto nivel.

De hecho, los dos son iguales, porque las reglas de alto nivel son generalmente simples. El profesor Ma suele decir que todo es compresión. Si lo miras desde el punto de vista de Yann, encontrarás que la compresión es correcta, pero la estructura jerárquica de los datos es en realidad diferente.

Debido a que el mundo real es complejo, si profundiza en los detalles del mundo real, encontrará que muchas cosas son en realidad estructuras de bajo nivel. Hay estructura en los datos, y cualquier cosa que tenga estructura es un reflejo de la desviación del ruido. Es decir, cualquier cosa que no tenga estructura alguna es ruido, y cualquier cosa que deje ruido significa que hay estructura.

Vamos a aprender estas estructuras, pero hay diferentes niveles de estructura. Pero cuando subes de nivel, a una escala mayor, encontrarás que la estructura ya no es importante. Si lo miras a ese nivel, estas cosas se han vuelto como ruido.

Entonces, el punto de vista de Yann es que la compresión es correcta, pero necesitamos un aprendizaje tan jerárquico para aprender todas las estructuras de la señal y aprender estructuras cada vez más altas. Sin embargo, la estructura más avanzada a menudo no representa una gran proporción de toda la compresión y puede perderse durante el proceso de optimización, porque una gran cantidad de cosas están en niveles bajos y la cantidad de información como el ruido es la mayor. cuanto más arriba, estas estructuras se vuelven más difíciles de detectar cuanto más se camina.

¿Por qué? Debido a que su función de pérdida optimizada es su función objetivo, encontrar esta regla o no puede tener poco impacto en su pérdida. Creo que los principales son estos dos puntos, uno es el modelo mundial y el otro es esta representación jerárquica.

Yann LeCun hablando en la Universidad de Nueva York

"Valle del silicio 101":¿Qué cualidades crees que te impresionan especialmente?

Chen Yubei:Lo que más me impresionó probablemente fue la concentración y pureza con la que hacían las cosas.

Una vez almorcé con Yann y me dijo que tengo todo lo que querías cuando eras joven, pero que ya no tengo mucho tiempo, así que solo puede usar el tiempo restante para hacer cosas en las que realmente cree...

Cuando trabajas con tales científicos, es posible que te afecte su temperamento, de modo que incluso antes de alcanzar la posición en la que se encuentran ahora y las cosas que tienen, puedas ver el mundo un poco desde su perspectiva.

Entonces, cuando tomas decisiones o haces cosas, puedes ir más allá de tu posición actual y puedes pensar en lo que haré si algún día lo tengo todo como él.

"Valle del silicio 101":¿Cambió alguna de tus decisiones?

Chen Yubei:Sí, me hará pensar en esto cuando tome muchas decisiones. Recuerdo que el primer día de mi estudio de doctorado, mi supervisor me dijo dos cosas.

Una es que no necesita que publique muchos artículos, pero espero que el tipo de artículos que pueda publicar puedan viajar en el tiempo, de modo que incluso si leo este artículo 20 años después, todavía estará actualizado. En realidad, esto es muy difícil, porque gran parte del trabajo tiene un sentido distinto de los tiempos, pero algunos pensamientos verdaderamente profundos aún pueden durar cientos de años. Este es un objetivo muy alto y es posible que puedas lograrlo cuando estés a punto. para jubilarse. Pero plantea una tortura para el alma, es decir, si puedes persistir en hacer algún trabajo que pueda coexistir con el tiempo.

La segunda es que espera que un erudito tenga una actitud propia. Si crees que a, b o tú pueden hacer algo, no debes hacerlo. Es decir, cuando hagas esto, descubrirás que no es este trabajo el que te necesita, sino tú el que necesita este trabajo. Esta es una mentalidad especulativa. En realidad, este es el temperamento similar que veo en ellos, es decir, esperan no seguir a la multitud, sino tener su propia actitud y encontrar su propia voz.

Por eso, cuando elijo una dirección de investigación, de vez en cuando juzgaré si el trabajo que estoy haciendo es especulativo o un pilar real.

Creo que lo mejor de ellos, especialmente de Yann, es que puedes atravesar este momento casi desesperado y marcar el comienzo del amanecer. Es posible que las personas que nunca han experimentado depresiones no puedan calmarse lo suficiente. Cuando atraviese el momento más oscuro, use su visión y perseverancia para atravesar este corto período de tiempo y luego demuestre que es correcto. Temperamento muy interesante.

"Valle del silicio 101":¿Hay alguna opinión científica sobre Yann con la que no esté de acuerdo?

Chen Yubei:A veces era directo. Por ejemplo, recientemente dijo que si eres investigador, no deberías estudiar modelos de lenguaje grandes. Esta frase tiene muchas interpretaciones si la tomas literalmente, mucha gente no estará de acuerdo, incluido yo. Puedo sentir que hay algunas estructuras en modelos de lenguaje grandes que vale la pena comprender y estudiar.

Por supuesto, lo que Yann realmente quiera decir es lo que acabo de mencionar: no hagas trabajos especulativos como A y B. Espero que los investigadores sean algo persistentes y encuentren contribuciones más originales. Si se dijera así, creo que estaría más de acuerdo. Pero como una gran V, a veces sus palabras te sorprenderán y desencadenarán mucha discusión. Es un lugar que me parece muy interesante.

"Valle del silicio 101":También has trabajado en Meta. ¿Cuál crees que es la mayor contribución de Yann a Meta?

Chen Yubei:Lo primero debería ser ayudar a construir Meta AI. Cuando estaba planeando construir Meta AI, Mark lo encontró por primera vez. Además, debido a que trabajó en Bell Labs en sus primeros años, anhelaba el estado de Bell Labs en ese entonces, por lo que también tenía un ideal para replicar dicho laboratorio. en Meta. Siguiendo este concepto, también reclutó y capacitó a un grupo de muy buenas personas en Meta AI, haciendo grandes contribuciones a este campo y promoviendo el desarrollo de todo el campo.

"Valle del silicio 101":Creo que el código abierto debería considerarse como una contribución muy importante de él. Por ejemplo, la razón por la que Meta llama tomó la ruta del código abierto debería ser muy coherente con la idea general de Yarn.

Chen Yubei:Sí, sí, el código abierto es en lo que insiste Yann. Pero no sé si Meta seguirá siendo de código abierto en el futuro, porque después de todo, Meta también enfrentará competencia, pero creo que este es un concepto de Yann. Qué tan bien se puede implementar al final y hasta qué punto. puede ir en realidad depende de todo el entorno.

"Valle del silicio 101":¿Cree que toda la investigación sobre modelos grandes debe ser impulsada ahora por científicos? ¿O poco a poco se convertirá en algo impulsado por la ingeniería?

Chen Yubei:Siento que se ha vuelto impulsado por la ingeniería. Al principio, estaba impulsado por los científicos. En los últimos dos años, creo que el principal avance proviene de la ejecución del proyecto. ¿Ha mejorado la calidad de los datos? ¿Han aumentado los datos? ¿Se ha enriquecido su distribución? ¿Se pueden paralelizar los cálculos? Todo provocado por detalles muy importantes en el campo de la ingeniería. El desarrollo de 0 a 1 requiere avances científicos, pero de 1 a 100 requiere rigor de ingeniería y capacidades de ejecución para promoverlo en diferentes etapas.

"Valle del silicio 101":Todo el mundo está esperando con ansias el GPT 5. ¿Crees que si sale el GPT 5, será más un problema científico o de ingeniería?

Chen Yubei:Creo que hay un largo camino por recorrer en ingeniería. Incluso podemos pensar que Scaling Law tiene un largo camino por recorrer y no hay un final a la vista, incluida la calidad de los datos y la expansión de la potencia informática. Pero al mismo tiempo, creo que incluso si la forma más sólida que hemos encontrado ahora es la Ley de Escala, definitivamente no es suficiente.

Entonces, ¿qué más necesitamos? Creo que lo que se necesita es una alta eficiencia como la de los seres humanos. Entonces, ¿cómo lograr esa eficiencia? Puede ser desencadenado por datos, pero también puede ser otra cosa, por lo que creo que si hablamos del proceso que conduce a AGI, debería haber algunos cambios relativamente grandes de 0 a 1.

"Valle del silicio 101":Incluso si hay progreso científico, todavía hay mucho margen de mejora en la ingeniería.

noticias

Hablemos sobre cómo pensar en grandes modelos con el científico de aprendizaje profundo Yann LeCun

Introducción

Mi información de contacto