Ma Yi de la Universidad de Hong Kong: Los grandes modelos sin teoría durante mucho tiempo son como personas ciegas que intentan agarrar un elefante y los grandes nombres se reúnen para hablar sobre el próximo paso de AI

Universidad de Finanzas y Economía de Hong Kong Ma Yi: Los grandes modelos sin teoría durante mucho tiempo son como personas ciegas que sienten que los grandes nombres se reúnen para discutir el siguiente paso de la IA;

2024-07-24

El viento del oeste viene del templo de Aofei.
Qubits | Cuenta pública QbitAI

"Quiero hacerte una pregunta. Ya seas un estudiante de la Academia Qiuzhen o de la Clase Junior de Qiu Chengtong, si no sabes esta pregunta, ¡no deberías estar en esta clase!"

En la Conferencia Internacional de Ciencias Básicas de 2024 "Foro de Ciencias Básicas e Inteligencia Artificial", el CTO del Grupo Lenovo y académico extranjero de la Academia Europea de CienciasRui YongTan pronto como salieron estas palabras, toda la audiencia se puso un poco nerviosa.

Pero entonces, la pregunta que hizo fue:¿Cuál es más grande, 13.11 o 13.8?

Hola chicos, pregunten quién aún no conoce este chiste.

Esta vez, sin embargo, no se trata de burlarse de la locura de la modelo. Varios expertos en IA del mundo académico y de la industria analizaron una serie de problemas como la "ilusión" del modelo y obtuvieron sus opiniones sobre "¿Cuál es el siguiente paso para la inteligencia artificial?"la opinión de.

En resumen, incluye los siguientes puntos:

El siguiente paso en el desarrollo de grandes modelos es alejarse del paradigma de búsqueda de "sin capacidad abstracta, sin valor subjetivo y sin conocimiento emocional".
Las aplicaciones comerciales van a la zaga del crecimiento a escala del modelo en sí, y falta un superproducto que pueda reflejar verdaderamente el valor de la inversión.
Bajo la restricción de la ilusión, el siguiente paso puede ser pensar en cómo ampliar la generalización y la interactividad del modelo. La multimodalidad es una opción.
Es una cuestión muy importante para el agente inteligente conocer los límites de sus capacidades.

Decano de la Escuela de Datos de la Universidad de Hong Kong y presidente del Departamento de Ciencias de la Computación de la Universidad de Hong KongPuedoDurante la discusión, incluso surgió un signo de interrogación sobre la “inteligencia artificial” que actualmente utiliza la corriente principal:

El desarrollo de la tecnología de inteligencia artificial ha acumulado mucha experiencia, algunas de las cuales podemos explicar y otras no. Ahora es el momento en que la teoría es muy necesaria. De hecho, se puede decir que nuestra erudición no ha logrado muchos avances en los últimos diez años. Es probable que el rápido desarrollo de la industria y la tecnología de ingeniería haya afectado el ritmo de los académicos.

Echemos un vistazo a lo que dijeron específicamente los grandes.

¿Cuál es la naturaleza de la inteligencia?

En el lugar, el decano de la Escuela de Datos de la Universidad de Hong Kong y el presidente del Departamento de Ciencias de la Computación de la Universidad de Hong Kong.Puedo, pronunció un discurso de apertura titulado "Volviendo a los fundamentos de la teoría y explorando la esencia de la inteligencia".

Las opiniones expresadas coinciden con los temas discutidos en la mesa redonda.

El tema del discurso del profesor Ma Yi fue "Volver a los fundamentos de la teoría y explorar la esencia de la inteligencia". Repasó el proceso de desarrollo histórico de la IA y expuso sus propios puntos de vista sobre el desarrollo actual de la IA.

Primero habló de la evolución de la vida y la inteligencia.

En su opinión personal, la vida es portadora de inteligencia, y la capacidad de la vida para producir y evolucionar es el resultado de la acción de mecanismos inteligentes. y,El mundo no es aleatorio, es predecible., en el proceso de evolución continua, la vida aprende conocimientos más predecibles sobre el mundo.

La supervivencia del más apto a través de la selección natural es una especie de retroalimentación de la inteligencia, similar al concepto actual de aprendizaje por refuerzo.

Desde las plantas hasta los animales, los reptiles, las aves y luego hasta los humanos, la vida ha ido mejorando su inteligencia, pero existe un fenómeno que parece ser que cuanto más inteligente es la vida, más tiempo seguirá a sus padres después del nacimiento. ¿Por qué?

El profesor Ma Yi explicó además: Debido a que los genes no son suficientes, es necesario aprender algunas habilidades. Cuanto más fuerte es la capacidad de aprendizaje, más cosas hay que aprender. Esta es una forma más avanzada de inteligencia.

Si aprendemos de manera individual, no es lo suficientemente rápido ni lo suficientemente bueno, por eso la gente inventó el lenguaje y la inteligencia humana se convirtió en una forma de inteligencia grupal.

Se produjo inteligencia grupal y se produjo un cambio cualitativo.No sólo aprendemos estos fenómenos predecibles a partir de observaciones empíricas;pensamiento lógico abstracto, lo llamamos inteligencia humana, o más tarde inteligencia artificial.

A continuación, habló del origen de la inteligencia artificial.

Desde la década de 1940, los humanos han comenzado a intentar que las máquinas simulen la inteligencia de los seres vivos, especialmente los animales.

Los humanos comenzaron a modelar neuronas y a explorar "cómo funciona la percepción cerebral". Más tarde, todos descubrieron que la simulación de los sistemas nerviosos de los animales debía construirse a partir de redes neuronales artificiales, y la investigación se volvió cada vez más compleja.

Este asunto no ha sido fácil. Después de dos inviernos fríos, todos descubrieron algunas limitaciones de las redes neuronales y algunas personas todavía insisten en resolver estos desafíos.

Posteriormente, se desarrolló la potencia de la computación de datos y fue posible entrenar redes neuronales. Comenzaron a desarrollarse redes cada vez más profundas y su rendimiento fue cada vez mejor.

Pero ahí está el mayor problema:Estas redes están diseñadas empíricamente. Es una caja negra, y la caja es cada vez más grande y la gente no sabe lo que sucede en su interior.

¿Qué tiene de malo una caja negra? Desde una perspectiva técnica, el diseño de experiencias también es posible y se puede continuar con el ensayo y error. Sin embargo, el costo es alto, el ciclo es largo y los resultados difíciles de controlar. también:

Mientras exista un fenómeno importante en el mundo que nadie pueda explicar y muchas personas se mantengan en la ignorancia, se creará pánico. Esto está sucediendo ahora.

Entonces, ¿cómo abrir la caja negra? El profesor Ma Yi propuso volver a la pregunta original: ¿Por qué estudiar? ¿Por qué la vida puede evolucionar?

En particular, destacó que debemos hablar de cosas que se pueden realizar mediante el cálculo:

No hables de nada abstracto. Este es mi consejo para todos. Debes hablar sobre cómo calcular y cómo ejecutar este asunto.

Entonces, ¿qué aprender?

El profesor Ma Yi cree que deberíamos aprender cosas que sean predecibles y regulares.

Por ejemplo, si sostienes un bolígrafo en la mano y lo sueltas, todos saben lo que sucederá y, si te mueves rápidamente, podrás atraparlo. Esto se sabía antes de Newton. Las personas y los animales parecen tener buenos modelos del mundo exterior.

Y en matemáticas,La información predecible se refleja uniformemente en la estructura de datos de baja dimensión en el espacio de alta dimensión.。

Entonces, ¿cuál es el mecanismo de cálculo unificado? El profesor Ma Yi dio la respuesta:Cosas similares se juntan y las diferentes se repelen., la esencia es así de simple.

¿Cómo medir si algo se hace bien? ¿Por qué compresión?

Dio un ejemplo, como se muestra a continuación. Por ejemplo, el mundo es aleatorio, no se sabe nada y todo puede suceder. Si en su lugar se usan bolas azules, todas las bolas azules pueden suceder en el siguiente segundo.

Pero si quieres recordar que sucedió una de estas cosas, tienes que codificar todo el espacio, darle un código, y solo puede pasar el área con bolas verdes, y las bolas azules serán muchas menos.

Cuando sabemos que las áreas donde sucederán las cosas se vuelven cada vez más pequeñas, sabemos cada vez menos sobre el mundo. Esto es lo que la teoría de la información estaba estableciendo en la década de 1940.

Para encontrar mejor estas áreas verdes, debemos organizarlas mejor en el cerebro. Entonces nuestro cerebro está organizando este fenómeno y esta estructura de baja dimensión.

¿Cómo se puede lograr esto computacionalmente?

El profesor Ma Yi dijo que todas las redes profundas en realidad están haciendo esto. Al igual que el Transformer actual, lo hace segmentando imágenes y clasificándolas.

De hecho, cada capa de la red neuronal esComprimir datos。

Las matemáticas juegan un papel muy importante en esto. Debe medir estrictamente lo que desea optimizar y cómo optimizarlo. Después de haber hecho estas dos cosas, encontrará que el operador que obtiene es el mismo que encontró. experiencia actual. Muchos de los operadores son muy similares.
Ya sea Transformer, ResNet o CNN, todos lo hacen de diferentes maneras. Y se puede explicar completamente estadística y geométricamente lo que está haciendo.

peroLa solución óptima de optimización en sí misma puede no ser la solución correcta. , Se puede perder información importante durante el proceso de compresión. ¿Cómo demostrar que las dimensiones de información existentes son buenas? ¿Cómo demostrar que no se producirán alucinaciones?

Volviendo a los conceptos básicos del aprendizaje, ¿por qué necesitamos recordar estas cosas?es estar ahíEl cerebro simula el mundo físico,Para rendir mejor en el espacio físicopredecir。

Más tarde, Ma Yi mencionó el concepto de alineación:

Entonces, la alineación no se trata de alinearse con las personas, la alineación es esto.El modelo se alinea con lo aprendido.

Aprender una codificación automática de adentro hacia afuera no es suficiente. ¿Cómo aprenden los animales en la naturaleza el modelo físico del mundo externo?

Utilice constantemente sus propias observaciones para predecir el mundo exterior, siempre que sean coherentes con las observaciones.coherente , eso es todo. Esto implica el concepto de circuito cerrado.

Mientras haya criaturas vivientes, mientras haya criaturas inteligentes, todas serán de circuito cerrado.

El profesor Ma Yi señaló luego que todavía estamos lejos de la verdadera inteligencia.

¿Qué es la inteligencia? La gente suele confundir conocimiento e inteligencia. ¿Tiene un sistema inteligencia si tiene conocimiento? Un sistema inteligente debe tener la base para la superación personal y el aumento de su propio conocimiento.

Finalmente, concluyó el profesor Ma Yi.

Mirando hacia atrás en la historia, en la década de 1940 todo el mundo quería que las máquinas imitaran a los animales, pero en la década de 1950 Turing propuso una cosa: si las máquinas pueden pensar como los humanos. En la Conferencia de Dartmouth en 1956, un grupo de personas se sentaron juntas y su propósito era hacer algoLa inteligencia única que distingue a los humanos de los animales：Habilidad abstracta, operaciones simbólicas, razonamiento lógico, análisis causal.esperar.

Esto es lo que definieron para hacer la inteligencia artificial en 1956. Más tarde, estas personas básicamente ganaron el Premio Turing. Entonces, si quieres ganar el Premio Turing en el futuro, ¿debes elegir seguir a la multitud o hacer algo único?

Mirando hacia atrás, ¿qué hemos estado haciendo en los últimos 10 años?

La "inteligencia artificial" actual se ocupa del reconocimiento de imágenes, la generación de imágenes, la generación de texto, la compresión y la eliminación de ruido, y el aprendizaje por refuerzo.Básicamente lo que hacemos es a nivel animal., incluida la predicción del siguiente token y la siguiente imagen del cuadro.

No es que no tuviéramos gente trabajando en ello más tarde. Pero no es un modelo grande convencional.

Explicó además que si se invierte suficiente dinero y suficientes datos, el rendimiento de muchos modelos seguirá desarrollándose, pero si no hay una teoría durante mucho tiempo, surgirán problemas, como un ciego que intenta calcular sacar un elefante.

El profesor Ma Yi dijo que compartir su viaje personal espera inspirar a los jóvenes.

Una vez que tengamos los principios, podremos diseñar con audacia y ya no tendremos que esperar a que la próxima generación invente una red aparentemente buena y podamos usarla juntos. Entonces, ¿dónde están tus oportunidades?

Echemos un vistazo a cómo respondieron otros expertos en inteligencia artificial a la pregunta "¿Cuál es el siguiente paso para la inteligencia artificial?" en el foro de mesa redonda.

¿Cuál es el siguiente paso para la inteligencia artificial?

Los modelos grandes requieren cambios de “paradigma”

Miembro de la Real Academia de Ingeniería, la Academia Europea de Ciencias, la Academia de Ciencias de la Ingeniería de Hong Kong y vicepresidente jefe de la Universidad de Ciencia y Tecnología de Hong KongGuo YikeCreo que estamos en un momento muy interesante en este momento.

Debido a que la Ley de Escala es ampliamente aceptada, la Guerra de los Cien Modelos se ha convertido gradualmente en una guerra de recursos.Parece que ahora solo necesitamos hacer dos cosas. Después de tener el modelo Transformer, lo que hay que resolver es.Gran potencia informáticayGrandes datosEl problema.

Sin embargo, en su opinión esto no es así.El desarrollo actual de la IA todavía enfrenta muchos problemas.Potencia informática limitada y demanda infinitaEl problema.

En este caso, ¿cómo deberíamos construir un modelo grande? El académico Guo compartió sus pensamientos a través de algunas prácticas.

En primer lugar, el académico Guo mencionó el uso de MOE más económico bajo la limitación de la potencia informática.modelo experto mixtoTambién puede lograr muy buenos resultados.

Además, cómo mejorar continuamente un modelo con nuevos datos después del entrenamiento para que pueda recordar lo que se debe recordar, olvidar lo que se debe olvidar y poder recordar las cosas que se han olvidado cuando sea necesario, también es una cuestión difícil.

El académico Guo no está de acuerdo con algunas afirmaciones en la industria de que "los datos se han agotado". "En realidad, es solo que el modelo se ha comprimido y los datos comprimidos se pueden regenerar en datos nuevos", es decir, mediante generación. Modelos para generar datos.

Además, no es necesario aprender todos los modelos desde cero.incorporación de conocimientos en el modelo base. También en este ámbito queda mucho trabajo por hacer.

Además de la potencia informática, existe otro problema con el algoritmo:El cultivo de la inteligencia de las máquinas y la propia inteligencia humana tiene dos polaridades.。

El académico Guo cree que al entrenar modelos grandes, la cuestión más importante no está en el frente, sino en la parte trasera.

Como se muestra en la figura siguiente, el camino evolutivo del modelo grande es desde autoaprendizaje> conocimiento indirecto> valores> sentido común, mientras que el camino de cultivo de la educación humana es lo opuesto.

Por esta razón, el académico Guo cree que deberíamos salir del paradigma actual de búsqueda de grandes modelos sin "capacidad abstracta, valor subjetivo y conocimiento emocional".

Todos sabemos que el lenguaje humano es grandioso. El lenguaje humano no es solo contenido, no solo información, sino también naturaleza humana y energía de la información. Entonces, ¿cómo se clasifican estas cosas en el modelo? Esta es una dirección importante para nuestra investigación futura.

En resumen, en cuanto al siguiente paso de la inteligencia artificial, el académico Guo cree que hay tres etapas de desarrollo:

La primera etapa se basa en la autenticidad; la segunda etapa se basa en el valor. La máquina debe poder expresar su propio punto de vista y formar su propio valor subjetivo, y este punto de vista puede cambiar según su entorno; etapa Sólo cuando tiene valores puede entender qué es la novedad, y sólo con la novedad puede crear.

Cuando se trata de crear este modelo, la llamada ilusión no es un problema, porque la ilusión es sólo un problema en el modelo paradigmático. Escribir una novela debe ser una ilusión. Sin ilusión, no se puede escribir una novela. Sólo necesita mantener la coherencia y no necesita autenticidad, por lo que sólo necesita reflejar un valor. Requiere que haya un cambio de paradigma.

El desarrollo de modelos grandes carece de un “súper producto”

Vicepresidente de JD.com, profesor adjunto y supervisor doctoral en la Universidad de WashingtonÉl XiaodongSe cree que la IA enfrentará tres problemas en el siguiente paso.

En primer lugar, cree que, en cierto sentido, el desarrollo de modelos grandes ha entrado en un período de estancamiento.

Debido a las limitaciones en materia de datos y potencia informática, si las mejoras se basan simplemente en la escala, es posible que se alcance el límite máximo y los recursos informáticos se conviertan en una carga cada vez más pesada. Si se sigue la última guerra de precios (price tag), es muy probable que los beneficios económicos generados por los modelos grandes no puedan ni siquiera cubrir la factura de la luz, por lo que es naturalmente insostenible.

En segundo lugar, el profesor He cree que toda la aplicación comercial va por detrás del crecimiento a escala del modelo en sí, lo que a medio y largo plazo acabará convirtiéndose en un problema:

Especialmente cuando vemos una escala tan grande, ya no es simplemente un problema científico, también se convertirá en un problema de ingeniería. Por ejemplo, si los parámetros alcanzan el nivel de un billón, los datos de llamadas alcanzan el nivel de 10 billones de tokens. Entonces hay que plantearse una cuestión: el valor social que aporta.

A partir de esto, el profesor He cree que actualmenteFalta de una súper aplicación y un súper producto., puede reflejar verdaderamente el valor de la inversión.

La tercera pregunta es relativamente específica:gran ilusión modelo。

Si queremos construir una industria de IA sobre modelos grandes, debemos tener requisitos extremadamente altos para la ilusión básica del modelo grande. Si la tasa de error del modelo básico grande es muy alta, es difícil imaginar que se le puedan superponer más aplicaciones comerciales.
Se necesitan aplicaciones industriales serias para resolver la ilusión.

El profesor He cree que bajo la restricción de la ilusión, el siguiente paso puede ser pensar en cómo ampliar la generalización y la interactividad del modelo, ymultimodalEs una elección inevitable.

Los modelos grandes carecen de conciencia de los "límites de capacidad"

CTO del Grupo Lenovo, académico extranjero de la Academia Europea de CienciasRui YongDesde una perspectiva industrial, expresó su opinión sobre el próximo paso de la IA.

Dijo que desde una perspectiva industrial, lo más importante es cómo se implementa el modelo. En términos de implementación, el Dr. Rui Yong habló principalmente de dos puntos:

No basta con tener un modelo grande, hay que desarrollarloagente
No basta con tener un gran modelo de medición de nubes, es necesario tener unmarco híbrido

Específicamente, el Dr. Rui Yong enumeró primero algunos estudios y señaló que las limitaciones de los modelos grandes son cada vez más obvias. Por ejemplo, la pregunta "¿Cuál es más grande, 13.8 o 13.11" mencionada al principio muestra que el modelo no comprende realmente el problema?

En su opinión, los grandes modelos actuales solo conectan la información fragmentada masiva que se ve en el espacio semántico de alta dimensión. No es suficiente construir grandes redes con gran potencia informática para crear grandes modelos generativos. Desarrollo de agentes inteligentes.

El Dr. Rui Yong destacó especialmente el modelo grande.Límite de capacidadpregunta.

Los grandes modelos actuales en realidad no saben dónde están los límites de sus capacidades.
¿Por qué las modelos grandes tienen alucinaciones y dicen tonterías graves? De hecho, no está tratando de engañarnos, pero no sabe lo que sabe o lo que no sabe. Este es un tema muy importante, así que creo que el primer paso es hacer que el agente conozca los límites. sus capacidades.

Además, el Dr. Rui Yong dijo que la inteligencia por sí sola no es suficiente para la implementación de la IA y que es necesario privatizar los grandes modelos públicos en la nube para las empresas. Basado en datos y basado en conocimiento forman un modelo de IA híbrido, y los modelos pequeños también son muy útiles en muchas situaciones. También existen modelos orientados al individuo que pueden conocer las preferencias personales.

No será un modelo grande basado enteramente en pruebas en la nube, sino un modelo grande que combine dispositivo, borde y nube.

noticias