noticias

el texto completo del discurso de shun xiangyang en el foro de jóvenes científicos 50²: 10 pensamientos sobre modelos grandes

2024-09-28

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

el 28 de septiembre, se celebró el cuarto "foro de jóvenes científicos 50²" en la universidad de ciencia y tecnología del sur. shen xiangyang, un académico extranjero de la academia nacional de ingeniería, pronunció un discurso de apertura sobre "¿cómo deberíamos pensar en los grandes modelos en el mundo?". era de la inteligencia artificial general" y dio sus 10 pensamientos sobre los modelos grandes.

los siguientes son los contenidos específicos de sus 10 pensamientos:

1. la potencia informática es el umbral: los requisitos de potencia informática de los modelos grandes han sido enormes en los últimos 10 años. hoy vamos a hacer un modelo grande de inteligencia artificial, diciendo que el estancamiento hiere los sentimientos y la falta de bloqueo significa que no hay sentimientos.

2. datos sobre datos: si sale gpt-5, el volumen de datos puede llegar a 200t. pero no hay muchos datos buenos en internet. después de la limpieza, 20t puede ser casi el máximo. por lo tanto, en el futuro se construirán gpt-5, además de los datos existentes, más datos multimodales e incluso datos sintetizados artificialmente. será necesario.

3. el próximo capítulo del gran modelo: hay mucho trabajo de investigación científica multimodal por hacer. creo que una dirección muy importante es la unificación de la comprensión y la generación multimodal.

4. cambio de paradigma de la inteligencia artificial: después de que salió o1, la idea original de preentrenamiento de gpt cambió a la ruta de aprendizaje independiente actual, que es un proceso de fortalecimiento del aprendizaje en el paso de inferencia y autoaprendizaje continuo. todo el proceso es muy similar a cómo los humanos piensan y analizan los problemas, y también requiere mucha potencia informática.

5. los modelos grandes se extienden por miles de industrias: en la ola de construcción de modelos grandes en china, se utilizan cada vez más modelos grandes en las industrias. esta tendencia es definitivamente así, y la proporción de modelos grandes generales será cada vez menor en el futuro.

6. agente ai, desde la visión hasta la implementación: la súper aplicación está ahí desde el principio. esta súper aplicación es un súper asistente y un súper agente.

7. código abierto versus código cerrado: creo que meta's llama no es un código abierto tradicional. simplemente abre un modelo y no proporciona el código ni los datos originales. por lo tanto, cuando usamos sistemas de código abierto, también debemos inventar el nuestro. mentes para comprender realmente el panorama general del trabajo de código cerrado del sistema modelo.

8. preste atención a la gobernanza de la ia: la inteligencia artificial tiene un impacto enorme en miles de industrias y en toda la sociedad, y todos debemos afrontarlo juntos.

9. repensar la relación persona-computadora: sólo comprendiendo verdaderamente la interacción persona-computadora podremos convertirnos en un líder verdaderamente valioso desde el punto de vista comercial para cada generación de empresas de alta tecnología. habla ahoraabierto aiagregar microsoft significa que esta era aún es demasiado temprana. están por delante, pero todavía hay mucho espacio para la imaginación en el futuro.

10. la naturaleza de la inteligencia: aunque los modelos grandes han sorprendido a todos, no tenemos una teoría sobre los modelos grandes y el aprendizaje profundo. acerca deaisólo se habló del surgimiento del problema, pero no se explicó claramente.

"young scientists 50² forum" es la reunión académica anual de la new cornerstone science foundation, organizada poruniversidad del sur de ciencia y tecnología, la división de valor social sostenible de tencent y la new cornerstone science foundation organizadas conjuntamente. la new cornerstone science foundation fue establecida y operada de forma independiente por tencent con una inversión de 10 mil millones de yuanes durante 10 años. actualmente es una de las fundaciones científicas de bienestar público más grandes de china. su establecimiento y operación son la inversión a largo plazo de tencent en tecnología. bueno. acciones concretas para la financiación de la ciencia.

el "foro de jóvenes científicos 50²" es una plataforma de intercambio académico interdisciplinario para los ganadores del "premio a la exploración científica". el "premio de exploración científica" se estableció en 2018. es un premio de bienestar público financiado por la new cornerstone science foundation y dirigido por científicos. actualmente es uno de los proyectos de financiación más grandes para jóvenes talentos científicos y tecnológicos en china. cada ganador compartirá su gran idea y su última exploración en el foro al menos una vez durante el período de financiación de cinco años. "50²" significa que los 50 jóvenes científicos seleccionados cada año por el "premio a la exploración científica" tendrán un impacto significativo en los avances científicos y tecnológicos de los próximos 50 años.

los siguientes sonshen xiangyangel texto completo del discurso en este foro:

estoy muy feliz de tener la oportunidad de compartir con ustedes algunos aprendizajes y experiencias recientes en inteligencia artificial en shenzhen hoy.

voy a continuaryao qizhien cuanto al tema de la inteligencia artificial del que habló el sr. sir, permítanme contarles algunas de las cosas que estamos haciendo ahora en la era de los grandes modelos, especialmente si analizamos este tema desde la perspectiva de la integración tecnológica y la transición industrial.

de hecho, no se trata sólo de la importancia del desarrollo tecnológico en la era de la inteligencia artificial. toda la historia del desarrollo humano es una historia de desarrollo tecnológico. sin tecnología, no habrá crecimiento del pib. no miraremos hacia atrás, a cosas como perforar madera para hacer fuego o inventar la rueda; solo miraremos los muchos avances notables en física en los últimos 100 años y los avances en inteligencia artificial y ciencias de la computación en los últimos 70 años. podemos ver que ha habido muchas novedades.

el tema del que hablamos hoy es la inteligencia artificial y los grandes modelos. en los últimos años, todo el mundo debe haberse sorprendido paso a paso por la nueva experiencia de inteligencia artificial. incluso si hubiera trabajado en inteligencia artificial toda mi vida, sería difícil imaginar la situación actual hace unos años.

quiero hablar de tres ejemplos: el primero es generar texto a partir de texto, el segundo es generar imágenes a partir de texto y el tercero es generar video a partir de texto. hace un momento hablamos de un sistema de inteligencia artificial como chatgpt, que no solo está disponible a nivel internacional sino también a nivel nacional. por ejemplo, antes de venir aquí para dar un discurso hoy, le pregunté a chatgpt que iba a participar en el foro de jóvenes científicos 50² de tencent y dar un discurso ¿de qué tipo de temas debería hablar teniendo en cuenta mis antecedentes? quizás pienses que es un poco gracioso, pero en realidad, después de usarlo, piensas que es muy bueno.

todo el mundo está familiarizado con chatgpt. hace dos años, openai lanzó un sistema que genera gráficos. le das un párrafo y genera un gráfico. hace siete meses, lanzó a sora. le das un mensaje y te genera un vídeo de alta definición de 60 segundos, como este vídeo de caminar por las calles de tokio. es muy impactante. (no mostraré el video por cuestiones de tiempo).

déjame darte un ejemplo de este diagrama vicenciano. me especializo en gráficos por computadora y creo que tengo una buena idea de si una foto es buena o mala. hace dos años salió a la luz esta foto. fue la primera fotografía generada por inteligencia artificial en la historia de la humanidad y apareció en la portada de una revista de moda estadounidense ("cosmopolitan"). un artista digital de san francisco utilizó el sistema openai e hizo una pregunta que dio como resultado este resultado. este pasaje es: en el vasto cielo estrellado, una mujer astronauta se pavoneaba en marte y caminaba hacia una lente gran angular. no tengo mucho talento artístico, pero me sorprendió mucho ver esta imagen. creo que estarás de acuerdo conmigo. cuando la inteligencia artificial dibuja una imagen así, realmente parece una mujer astronauta. entonces esta inteligencia artificial ha alcanzado un nivel muy inteligente.

hoy contamos con tecnologías asombrosas e incluso productos asombrosos. también estamos trabajando muy duro en casa y construyendo modelos a gran escala, desde la tecnología hasta los modelos y las aplicaciones posteriores, estamos trabajando en todos los aspectos. hace un momento, el académico yao también habló sobre muchos de los últimos trabajos de la universidad de tsinghua. por eso quiero compartir con ustedes cómo deberíamos pensar en los modelos grandes en la era de la inteligencia artificial general. me gustaría compartir algunas de mis propias opiniones.

el primer pensamiento es que la potencia informática es el umbral.

lo más importante sobre la inteligencia artificial general, los grandes modelos y el aprendizaje profundo de hoy es el crecimiento general de la potencia informática de la inteligencia artificial en los últimos años.

en los últimos 10 años, la potencia informática utilizada por los modelos grandes ha aumentado, inicialmente de seis a siete veces por año, y luego más de cuatro veces por año. déjame hacerte una pregunta ahora, si algo aumenta cuatro veces al año, ¿cuántas veces aumentará en 10 años? piénselo primero, volveré a este tema más tarde.

todo el mundo sabe que la empresa que más se beneficia de esta ola de desarrollo de inteligencia artificial esnvidia, los envíos de nvidia aumentan año tras año, su potencia informática aumenta gradualmente y el valor de mercado de toda la empresa se ha convertido en una de las tres empresas del mundo (microsoft, apple, nvidia) con un valor de mercado de 3 billones de dólares. lo más importante se debe a la demanda de potencia informática de todos cada año. la cantidad de chips nvidia comprados en 2024 sigue creciendo rápidamente. por ejemplo, elon musk está construyendo un grupo de 100.000 tarjetas h100. es muy difícil construir un sistema de 10.000 tarjetas. los requisitos de red son muy altos.

hoy hablamos de potencia informática y modelos grandes. lo más importante son las leyes de escala (cuanto mayor es la potencia informática, más crece la inteligencia). desafortunadamente, cuando aumenta la cantidad total de datos, el crecimiento de la potencia informática no es un crecimiento lineal, sino que se parece más a un crecimiento cuadrado.

porque cuando el modelo se hace más grande, es necesario aumentar la cantidad de datos para entrenar el modelo, por lo que, en términos relativos, es más como un crecimiento cuadrado. por lo tanto, los requisitos de potencia informática han sido enormes en los últimos 10 años. así que sólo diré una cosa: hoy voy a hacer un modelo grande de inteligencia artificial. si está atascado, hiere tus sentimientos. si no está atascado, no tendrás sentimientos.

te acabo de hacer una pregunta, si aumenta 4 veces cada año, ¿cuántas veces aumentará en 10 años? todos los que estudiamos informática sabemos que existe algo llamado "ley de moore", que significa que la potencia informática se duplica aproximadamente cada 18 meses. así es como intel se ha desarrollado a lo largo de los años. ¿por qué nvidia ha superado ahora a intel? una razón muy importante es que su tasa de crecimiento es diferente. si se duplica en 18 meses, probablemente aumentará 100 veces en 10 años, lo cual también es muy notable; si aumenta 4 veces cada año, será 1 millón de veces en 10 años. este crecimiento es muy sorprendente. si lo piensas de esta manera, es comprensible que el valor de mercado de nvidia haya aumentado tan rápido en los últimos 10 años.

el segundo pensamiento es sobre los datos.

la potencia informática, los algoritmos y los datos son tres factores importantes para la inteligencia artificial. mencioné anteriormente que necesitamos muchos datos para entrenar la inteligencia artificial general. cuando salió chatgpt3, todavía estaba en la etapa de publicación de artículos, y se decía que necesitaba 2 billones de datos de tokens para cuando saliera gpt-4, serían aproximadamente 12t, y gpt-4 se estaba entrenando constantemente; hoy se estima que tiene una cantidad superior a 20t. cualquiera que se preocupe por la inteligencia artificial sabe que todo el mundo ha estado esperando que salga gpt5 durante tanto tiempo, pero no ha salido. si sale gpt-5, mi opinión personal puede ser que la cantidad de datos alcanzará los 200t. . mirando hacia atrás, no hay muchos datos buenos en internet después de limpiarlo, 20t puede ser casi el mejor, por lo que en el futuro, si desea construir gpt-5, además de los datos existentes, necesitará. más datos multimodales, incluso datos sintetizados artificialmente.

algo muy interesante es que en los últimos treinta o cuarenta años, todo el mundo ha compartido su información en línea. en el pasado, pensábamos que estábamos trabajando para los motores de búsqueda. lo que es aún más notable ahora es nuestra acumulación durante los últimos treinta o cuarenta años. años es por un momento como chatgpt, integró todo y aprendió un modelo de inteligencia artificial a través de una poderosa potencia informática. esto es lo que sucedió.

tercer pensamiento, el próximo capítulo del gran modelo.

has trabajado hasta hoy, ¿qué debes hacer a continuación? el primero es el modelo de lenguaje. representado por chatgpt, su tecnología subyacente es el procesamiento del lenguaje natural. en lo que todo el mundo está trabajando hoy es en un modelo multimodal, representado por gpt-4, y muchas de las tecnologías que contiene son visión por computadora. de cara al futuro, necesitamos desarrollar la inteligencia encarnada. ¿cuál es el propósito de la inteligencia encarnada? de hecho, necesitamos construir un modelo mundial. incluso si es multimodal, no existe un modelo físico subyacente, por lo que necesitamos construir ese modelo mundial. el modelo mundial significa que no sólo tienes que leer miles de libros, sino también viajar miles de kilómetros para alimentar más conocimiento del mundo a tu cerebro. entonces deberíamos hacer robots. creo que shenzhen debería decidirse a construir robots e inteligencia encarnada. hay una pista especial en los robots llamada conducción autónoma. la conducción autónoma es un robot especial, pero conduce por una ruta determinada.

¿qué hacer? hay mucho trabajo de investigación científica multimodal por hacer y creo que una dirección muy importante es la unificación de la comprensión y la generación multimodal. incluso si se construye sora, estará separado. la generación de módulos múltiples y la comprensión de los módulos múltiples no están unificadas. hay mucho trabajo de investigación científica que podemos hacer en esta área.

por poner un ejemplo, varios de mis alumnos crearon una gran empresa modelo, step stars, y su conocimiento multimodal era muy bueno. si le muestra una imagen a una inteligencia artificial, por qué el comportamiento en la imagen se llama "habilidad no válida", la ia le explicará que la imagen parece un niño rodando por el suelo, pero su madre es indiferente y ella mira teléfonos móviles y bebe bebidas, por lo que esta habilidad de los niños se llama habilidad no válida. la ia ahora es cada vez mejor en la comprensión de gráficos.

el cuarto pensamiento es el cambio de paradigma de la inteligencia artificial.

hace dos semanas, openai lanzó su último modelo, o1. mencioné anteriormente que gpt se ha estado desarrollando. después de gpt4, gpt5 no se ha lanzado. todos piensan, si es solo un aumento en los parámetros de los modelos grandes, ¿ha alcanzado su punto máximo? nadie lo sabe, aún no se ha lanzado y no hemos fabricado un modelo más grande en china.

pero ahora ha surgido una nueva dimensión, que no es hacer el preentrenamiento previo (expansión), sino hacer la expansión al hacer inferencia. ha cambiado de la idea original de gpt al camino de aprendizaje independiente actual, que es un proceso de fortalecimiento del aprendizaje en el paso de razonamiento y autoaprendizaje continuo.

en el pasado, hicimos un entrenamiento previo, básicamente prediciendo cuál será la siguiente palabra y cuál será el próximo token. ahora la nueva idea es hacer un borrador e intentar ver si este camino es correcto y aquel camino es correcto. al igual que el cerebro humano, hay un sistema rápido y un sistema lento. al igual que cuando hacemos problemas de matemáticas, primero hacemos un borrador para ver de qué manera funciona. hay una cadena de pensamiento, y luego miramos. a las oportunidades en el proceso de optimización de la cadena de pensamiento. hasta ahora, sólo openai ha lanzado un sistema de este tipo, y animo a todos a que echen un vistazo a algunos ejemplos aquí.

lo más importante es que todo el proceso es muy similar a cómo los humanos piensan y analizan problemas, redactan, verifican, corrigen errores y comienzan de nuevo. este espacio para pensar será muy grande. hacer esto también requiere mucha potencia informática.

el quinto pensamiento es que los modelos grandes se están extendiendo por miles de industrias.

todas las empresas tienen que afrontar las oportunidades que ofrecen los modelos grandes, pero no todas las empresas necesitan fabricar un modelo grande universal. si ni siquiera tienes 10.000 tarjetas, no hay posibilidad de hacer un modelo grande universal. modelo grande el modelo debe tener al menos 10.000 tarjetas.

por ejemplo, cuando salió gpt4, su volumen total de entrenamiento era 2×10^25 flops. con una cantidad tan grande de capacitación, se necesitará un año para ejecutar 10,000 tarjetas a100 para alcanzar esta cantidad. si no se puede lograr esta cantidad, no habrá un modelo grande universal real. con el modelo general grande, podemos construir nuestros propios modelos industriales grandes sobre esta base, como las finanzas y los seguros. quizás las kilocalorías puedan funcionar muy bien y podamos hacer algunos ajustes. para una empresa, usted tiene sus propios datos, incluidos los datos internos y los datos de los clientes. si extrae estos datos y utiliza docenas o cientos de tarjetas, puede crear un muy buen modelo para su empresa. entonces se construye capa por capa.

por supuesto, hay otra dimensión muy importante que me gusta mucho, que es el modelo personal del futuro. hoy en día, hemos utilizado gradualmente pc y teléfonos móviles (los datos se han acumulado hasta cierto punto) y creo que habrá una ia súper inteligente en el futuro para ayudarlo después de recopilar información relevante. datos, puede construir su propio modelo personal. esto ocurre en la parte terminal (personal), y los teléfonos móviles son algo natural. en términos de pc, empresas de pc como microsoft y lenovo también están promoviendo el concepto de pc con ia, por lo que también existen esas oportunidades.

en la ola de construcción de grandes modelos en china, se incluyen cada vez más modelos industriales de gran tamaño. aquí hay un ejemplo. debido a que los modelos grandes de china deben ser aprobados por la administración del ciberespacio de china antes de estar en línea, a finales de julio de este año, la administración del ciberespacio de china había aprobado un total de 197 modelos. de los cuales el 70% eran modelos grandes de la industria y el 30% eran modelos grandes generales. esta tendencia es definitivamente así, y la proporción de modelos grandes generales será cada vez menor en el futuro. por ejemplo, podemos hacer un modelo financiero sobre un modelo grande general. este es un modelo grande fabricado por una empresa en shanghai para sus clientes financieros. por ejemplo, cuando se publica el informe financiero de nvidia, puedes resumir inmediatamente sus aspectos más destacados y problemas.

el sexto pensamiento es ai agent, desde la visión hasta la implementación.

hoy vemos cuáles son las mayores súper aplicaciones de los modelos grandes y dónde están las mayores oportunidades. mucha gente todavía está intentando encontrar una súper aplicación. de hecho, la súper aplicación ha estado ahí desde el principio. esta súper aplicación es un súper asistente, un súper agente.

gates y yo trabajamos juntos en microsoft durante muchos años y ambos estábamos pensando en este tema. ¿qué tiene de difícil? la dificultad radica en comprender un flujo de trabajo cuando realmente se desea realizar un trabajo útil. si hace una pregunta, puede desglosarla paso a paso. lo que puedo hacer hoy es algo que tiene cierto grado de influencia, como ser atención al cliente o asistente personal. pero muchos trabajos no se pueden realizar. necesitas ser un cerebro digital. el modelo grande a continuación es solo el primer paso. la capacidad del modelo grande no es lo suficientemente poderosa como para ayudarlo a realizar todo el trabajo anterior paso a paso. debido a que realmente desea crear un agente de este tipo, para que pueda hacer cosas, debe comprender cuáles son los siguientes problemas y cada parte tiene las habilidades correspondientes.

ya hemos hecho muchos buenos ejemplos utilizando el modelo actual. por ejemplo, puede ser un consultor de salud de ia, hablar sobre su comprensión de los cosméticos y recomendar cosméticos. a continuación, verá muchas aplicaciones en esta área.

el séptimo pensamiento es de código abierto y de código cerrado.

en el desarrollo de la ciencia y la tecnología mundiales en las últimas décadas, especialmente en el desarrollo de la ciencia y la tecnología de china, dos cosas son muy importantes.

el primero es la aparición de internet. con internet se pueden encontrar todos los artículos y materiales en línea.

el segundo es el código abierto que permite acortar drásticamente la distancia con los líderes a la hora de crear aplicaciones. pero el código abierto no es lo mismo que el código abierto para grandes modelos y bases de datos, aunque las capacidades del código abierto ahora se acercan a las del código cerrado. también hay muchas empresas en china que están haciendo cosas de código abierto. la mejor herramienta de código abierto en la actualidad es llama 3.1 de meta, que afirma estar cerca de openai. no lo creo. creo que no es un código abierto tradicional. simplemente abre un modelo y no proporciona el código ni los datos originales. por lo tanto, cuando utilizamos sistemas de código abierto, también debemos decidir. comprender verdaderamente el cierre del sistema de modelos grandes.

el octavo pensamiento es prestar atención a la gobernanza de la ia.

debido a que la ia se está desarrollando tan rápidamente, el mundo concede gran importancia a la seguridad de la ia. porque el impacto de este asunto es tan grande. la inteligencia artificial tiene un impacto enorme en miles de industrias y en toda la sociedad. el desarrollo del mundo entero en realidad requiere que todos lo enfrenten juntos.

el noveno pensamiento es repensar la relación hombre-máquina.

acabo de presentar el texto de vincent, las imágenes de vincent y el video de vincent: ¿en qué medida es la inteligencia de la máquina y en qué medida es el impacto que nos brinda la interacción persona-computadora?

hace unos 10 años, el columnista del "new york times" john markoff escribió un libro que me gusta mucho, "machine of loving grace", que resumía las dos líneas del desarrollo tecnológico pasado: una es la inteligencia artificial y la otra es la ia ( aumento inteligente), es la mejora de la inteligencia, que es la interacción persona-computadora. una vez que las computadoras estuvieron disponibles, ayudaron a la gente a hacer muchas cosas, y jugar al ajedrez es un ejemplo.

de hecho, sólo comprendiendo verdaderamente la interacción persona-computadora podremos convertirnos en líderes con valor comercial real para cada generación de empresas de alta tecnología. la interfaz de inteligencia artificial actual ha quedado muy clara: cuál es el proceso de diálogo. el representante de hoy es chatgpt. pero hablar de openai más microsoft significa que esta era aún es demasiado temprana. están por delante, pero todavía hay mucho espacio para la imaginación en el futuro.

el décimo pensamiento es la naturaleza de la inteligencia.

aunque los modelos grandes han sorprendido a todos hoy en día, no tenemos ninguna teoría sobre los modelos grandes y el aprendizaje profundo. hoy nos encantaría tener alguna teoría que nos parezca buena. a diferencia de la física, desde el punto de vista físico, todo, desde el vasto cielo estrellado hasta el cuántico más pequeño, se describe mediante algunas hermosas leyes físicas. hoy en día no existe tal teoría para la inteligencia artificial, que no tiene explicabilidad ni solidez. el marco de aprendizaje profundo actual no puede alcanzar una verdadera inteligencia artificial general.

respecto al surgimiento de la inteligencia artificial, todo el mundo solo hablaba de ello pero no lo explicaba claramente. ¿por qué surge la inteligencia cuando el modelo es lo suficientemente grande? ¿por qué puede surgir el modelo 70b con inteligencia? no existe tal verdad. por eso también estamos trabajando muy duro en este tema. el verano pasado también organicé un seminario en la universidad de ciencia y tecnología de hong kong con el tema "teoría matemática para la inteligencia emergente". cuando se habla de inteligencia emergente, es necesario explicar claramente algunos principios científicos y matemáticos y contar con más personas dispuestas a hacerlo. explorar la necesidad de participar, especialmente con el surgimiento de los proyectos “science exploration award” y “new cornerstone researcher” de tencent, se han unido más científicos jóvenes y tienen más confianza y fe para profundizar en la difícil tarea de hacer. avances para el futuro desarrollo de la inteligencia artificial entre las preguntas.

felicitaciones nuevamente a todos los ganadores y jóvenes científicos. el desarrollo de la ciencia y la tecnología debe ser realizado por los jóvenes de generación en generación, especialmente la inteligencia artificial. gracias a todos de nuevo.