mi información de contacto
correo[email protected]
2024-09-27
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
el contenido de este artículo es"qué invertir en agix"del 6 artículos.es una combinación de 40 empresas de "alta pureza de ia" seleccionadas entre miles de empresas de tecnología que cotizan en bolsa en todo el mundo. el índice agix es la coordenada para posicionar el proceso agi y también proporciona una herramienta valiosa para que los inversores capturen ai-alfa. en la sección "qué invertir en agix", realizaremos un análisis en profundidad de las empresas de la cartera del índice agix y proporcionaremos una referencia integral de inversión en ia para el mercado.
tesla es una de las 10 principales sociedades holding de la cartera del índice agix. la inversión a gran escala de la empresa en conducción autónoma y robots en los últimos 10 años le ha brindado la oportunidad de convertirse en el actor agi más fuerte del mundo físico.recientemente, tesla marcó el comienzo de la segunda ola de aumento del precio de las acciones en 2024, no solo alcanzando el nivel más alto en los últimos dos meses, sino que también borró todas las caídas de este año y hizo que la ia fuera el factor más importante que impulsa esta ronda de crecimiento. .
el 10 de octubre, tesla lanzará oficialmente robotaxi. según el análisis de ark. se espera que para 2029, casi el 90% del valor empresarial y las ganancias de tesla se atribuyan al negocio de los taxis autónomos.esta semana, tesla también bajó el precio de las opciones fsd para impulsar las ventas de automóviles nuevos. al mismo tiempo, el aumento en las tarifas de las opciones fsd también ayudará a tesla a recopilar más datos para mejorar el rendimiento de las fsd. aunque el robot optimus todavía está lejos de la comercialización a gran escala, si optimus se utiliza para reemplazar a los trabajadores de la fábrica de tesla y mejorar la eficiencia humana, las ganancias pueden mejorar enormemente, refiriéndose al modelado de tesla de ark, si optimus se implementa en la fábrica de tesla. los próximos cinco años la implementación puede ahorrar entre 3 y 4 mil millones de dólares en costos.
01.
la conducción autónoma es muy similar a agi
sara guo:¿qué opinas del desarrollo actual de la conducción autónoma? ¿cuánto falta para que veamos que la conducción autónoma se generaliza?
andrej karpathy: llevo 5 años trabajando en el campo de la conducción autónoma y este campo me parece muy interesante. a juzgar por el desarrollo actual de este campo, la conducción autónoma y agi son muy similares. también puede deberse a que estoy familiarizado con el campo de la conducción autónoma, pero creo que estamos cerca de agi en el campo de la conducción autónoma. por ejemplo, los usuarios ya pueden utilizar productos formed por una tarifa. waymo es un buen ejemplo. ahora es muy común en san francisco y muchas personas lo han experimentado a menudo y se ha convertido en un producto comercial.
mi primera experiencia con waymo fue hace casi 10 años. un amigo trabajaba para waymo en ese momento y me llevó a dar un paseo en waymo por toda la cuadra. desde una perspectiva técnica, waymo hace 10 años. ya esta muy bueno, pero el proceso desde la demostración hasta convertirse en un producto implementado a gran escala en las ciudades tomó 10 años. por supuesto, waymo todavía se está expandiendo hoy.
elad gil:pasaron 10 años desde la demostración hasta el producto pago exitoso. ¿en qué medida se debe a la regulación? ¿cuándo crees que estará lista la tecnología de conducción autónoma?
andrej karpathy:creo que la conducción autónoma alcanzó un nivel bastante maduro hace 10 años, pero una demostración de 30 minutos no puede demostrar completamente todos los desafíos que han enfrentado en los últimos 10 años. existe una gran brecha entre la demostración y el producto real. por supuesto, habrá algunas razones regulatorias.
pero creo que, hasta cierto punto, hemos alcanzado a agi en el campo de la conducción autónoma. al mismo tiempo, existe una gran brecha entre la demostración y la promoción a nivel mundial.aunque waymo ya está funcionando en san francisco, aún no ha tenido un impacto y resultados muy sustanciales desde la perspectiva de su popularización en el mercado global. aquí es donde creo que el agi y la conducción autónoma son similares.
de vuelta al campo de la conducción autónoma,mucha gente piensa que waymo está tecnológicamente por delante de tesla, pero yo personalmente creo que tesla en realidad está más por delante que waymo. esta opinión puede no ser la misma que la voz dominante actual, pero tengo confianza en la conducción autónoma de tesla.
tesla enfrenta problemas a nivel de software, mientras que los desafíos de waymo provienen del hardware. en comparación, los problemas de software son más fáciles de resolver. tesla ha desplegado vehículos a gran escala en todo el mundo, mientras que waymo aún no ha alcanzado esa escala. por lo tanto, creo que una vez que el sistema de tesla pueda implementarse a gran escala y funcionar de manera eficiente, los resultados serán sorprendentes. ayer probé la última versión de fsd y la experiencia de conducción fue muy fluida. una serie de operaciones del sistema de conducción autónoma de tesla me hacen sentir que tesla ha logrado resultados bastante buenos en la conducción autónoma en la actualidad.
en general, creo que el mayor desafío para la conducción autónoma de tesla es desde la perspectiva del software, mientras que los desafíos de waymo provienen más del hardware. desde la perspectiva actual, waymo parece estar en una posición sólida, pero creo que si lo miramos durante un período de 10 años, tesla estará más por delante en términos de escala y modelo de ingresos.
elad gil:¿cuánto tiempo crees que llevará resolver un problema de software? acabas de mencionar que los vehículos de waymo tienen muchos lidars y sensores costosos. estos hardware brindan soporte para el sistema de software si, como tesla, solo se basa en el sistema de cámaras, no solo puede reducir significativamente los costos, sino también la complejidad del sistema. sistema y aplicable a más modelos. ¿cuándo probablemente se realizará este cambio?
andrej karpathy: personalmente espero que se resuelva en los próximos años. de hecho, tesla también utilizó muchos sensores costosos en la fase de entrenamiento y también desarrolló muchas tecnologías que no se pueden promover a gran escala, como la tecnología inalámbrica.investigación de modelos de confianza de sensores de línea y mapeo de mapas, etc.durante la fase de prueba, tesla simplificó estos datos en un paquete de prueba que se basó únicamente en el sistema de visión y lo implementó en vehículos de producción. es posible que muchas personas no se den cuenta de que en realidad se trata de un "arbitraje" muy inteligente entre sensores y costes. dado que la cámara puede capturar suficiente información, la red neuronal también es capaz de procesar esta información. durante la fase de entrenamiento, estos sensores son muy útiles, pero durante la fase de prueba su papel no es tan importante. así que creo que basta con confiar en la cámara.
elad gil: una tendencia reciente en el campo de la conducción autónoma es pasar gradualmente de algoritmos heurísticos diseñados en base a casos extremos al aprendizaje profundo de un extremo a otro. ¿cuáles son las razones y la lógica detrás de esto?
andrej karpathy: de extremo a extremo es en realidad lo que queríamos hacer desde el principio. cuando me uní a tesla por primera vez, discutimos que las redes neuronales eventualmente reemplazarían toda la tecnología. había mucho código c++ en el sistema en ese momento, pero hoy en día hay muy poco código c++ ejecutándose en el conjunto de pruebas. las redes neuronales las reemplazaron gradualmente. al principio, las redes neuronales solo se usaban para el procesamiento de reconocimiento de imágenes y luego se expandieron para procesar múltiples cuadros de imágenes y generar resultados de predicción. con el tiempo, los códigos c ++ fueron reemplazados gradualmente. en última instancia, el sistema sólo necesita dar instrucciones de conducción y la red neuronal puede generar los resultados.
entonces, lo que tesla está haciendo es conducir con ia de extremo a extremo, pero waymo probablemente no eligió esta ruta técnica. aunque lo han intentado, los resultados no son satisfactorios.
personalmente creo que la ruta de un extremo a otro es la correcta y la dirección inevitable para el desarrollo futuro.si lo miramos desde esta perspectiva, es probable que en diez años el sistema tesla se convierta en una red neuronal de extremo a extremo, donde se ingresa el flujo de video y se emiten directamente las instrucciones de conducción. por supuesto, este proceso requiere la mejora gradual de cada módulo del sistema. no creo que todas las predicciones intermedias actuales sean engañosas en el proceso de desarrollo; al contrario, son una parte importante del sistema. porque cuando se entrena una red neuronal completamente de extremo a extremo, las señales de supervisión para simular la conducción humana son muy limitadas y no pueden soportar el entrenamiento de una red tan grande. las predicciones intermedias pueden ayudar a desarrollar funciones y detectores, lo que hace que el problema de un extremo a otro sea más factible. entonces, supongo que están realizando mucha capacitación previa para permitir ajustes de extremo a extremo en el futuro.
en general, creo que el proceso de que las redes neuronales reemplacen toda la pila tecnológica es necesario, pero el proceso debe ser gradual. los intentos actuales de tesla han mostrado resultados iniciales, lo que hace que la gente esté llena de expectativas para el futuro.
💡
predicciones intermedias:los resultados o resultados no finales generados durante el entrenamiento o la inferencia del modelo. estas predicciones sirven como pasos intermedios en un proceso de cálculo de varios pasos, ayudando al modelo a acercarse gradualmente al resultado final. son útiles en tareas complejas, como la toma de decisiones jerárquica, la traducción automática o el aprendizaje multitarea, donde estos resultados intermedios se pueden evaluar para optimizar el rendimiento del modelo, corregir sesgos o mejorar el entrenamiento del modelo. además, las predicciones intermedias ayudan a explicar el funcionamiento interno del modelo y pueden proporcionar una referencia para su ajuste.
02.
tesla también es una empresa de robótica
sara guo: antes de dejar tesla, también participó en el proyecto del robot humanoide de tesla. de la conducción autónoma a los robots, ¿qué tecnologías se pueden transferir?
andrej karpathy: básicamente todas las tecnologías se pueden migrar. pero creo que es posible que la gente aún no se dé cuenta de esto.no hay mucha diferencia entre robots y coches. creo que simplemente entender a tesla como una empresa de automóviles es en realidad un malentendido.
tesla es en realidad una gran empresa de robótica que no sólo produce automóviles, sino que también fabrica máquinas automatizadas. la producción en masa es un campo muy diferente y creo que tesla es una empresa que se especializa en robótica a gran escala.
migrar de la tecnología automotriz a la robótica humanoide en realidad no requiere mucho trabajo adicional. de hecho, el primer robot optimus incluso pensó que era un automóvil porque usaba exactamente la misma computadora y cámaras que un automóvil. curiosamente, estábamos ejecutando una red neuronal diseñada para automóviles en el robot, y cuando el robot caminaba por la oficina, el "espacio de conducción" que identificaba en realidad se convertía en un "espacio transitable". si bien se requieren algunos ajustes, esto demuestra la versatilidad de la tecnología.
sara guo: desde cierta perspectiva, tesla puede considerarse una empresa de robótica y muchas tecnologías centrales pueden migrarse entre plataformas. la parte clave de la que carecen los robots de producción es en realidad el mecanismo de ejecución y los datos de acción relacionados.
andrej karpathy: sí, aunque algunos lugares aún no son perfectos, quiero enfatizar que muchas tecnologías se pueden migrar directamente. por ejemplo, el proyecto optimus comenzó muy rápidamente después de que elon musk anunciara el proyecto, rápidamente se implementaron los equipos y herramientas relevantes. se prepararon rápidamente recursos como modelos cad, cadenas de suministro, etc. en ese momento, sentí que tesla ya tenía internamente una gran cantidad de recursos de fabricación de robots, todos los cuales fueron tomados de los autos tesla. esta sensación es algo similar a la que se muestra en "transformers". después de que el automóvil se transforma en un robot, todo sigue igual, pero algunas cosas deben ajustarse y reconfigurarse ligeramente. además del hardware, cambiará toda la forma de pensar, los equipos de anotación, la coordinación entre varias secciones de componentes, etc. pero, en general, se puede transferir cierta experiencia y recursos.
elad gil:¿cuál crees que será el primer escenario de aplicación de los robots humanoides?
andrej karpathy: mucha gente pensaría que los robots pueden ayudarnos con tareas diarias como lavar la ropa. pero creo que puede llevar mucho tiempo implementar estas tecnologías. no creo que el envío directo al consumidor sea un buen punto de partida para los robots humanoides, porque todavía no podemos garantizar plenamente la seguridad de los robots cuando interactúan con personas como los ancianos, como evitar accidentes como "derribar el "anciana", este tipo de situación traerá enormes riesgos legales, por lo que creo que esta dirección no es adecuada. incluso en muchos escenarios de interacción simples, es probable que los robots derriben a las personas directamente.
pero la tecnología actual no está lo suficientemente madura y necesita mejoras adicionales. por lo tanto, creo que para los desarrolladores de robots, el mejor cliente en la primera etapa es el propio robot. si los desarrolladores de robots pueden darse cuenta de esto, lo primero que deben hacer es utilizar estas tecnologías internamente para la incubación y luego se pueden aplicar en las fábricas. , como manejo de materiales (manejo de materiales) y otros campos, para que no sea necesario firmar un contrato con un tercero, evitando el engorroso proceso que involucra abogados y contratos.
después de la incubación interna y el éxito, puede ingresar al mercado b y cooperar con algunas empresas con grandes almacenes para realizar tareas como el manejo de materiales. en estas cooperaciones, las empresas de robótica pueden construir un sistema de seguridad del mercado y, después de una implementación exitosa por parte de varias empresas, pueden realizar una transición gradual a aplicaciones orientadas al consumidor. creo que en el futuro veremos muchos robots desarrollados para los consumidores. por ejemplo, vale la pena esperar los productos desarrollados por unitree. me gustaría comprar un unitree g1.
cuando los robots se vuelvan populares en varios escenarios, habrá un ecosistema completo, es decir, todos desarrollarán varios tipos de robots basados en la plataforma del robot. pero desde una perspectiva de escala, creo que el camino del avance gradual es el más razonable.
puede comenzar manejando algunos trabajos relacionados con el manejo de materiales (manipulación de materiales) y luego expandirse gradualmente a áreas más especializadas y de alta demanda. un artículo que me interesa especialmente personalmente es el "soplador de hojas". por ejemplo, un día podremos ver robots optimus caminando por las calles y recogiendo suavemente cada hoja caída, para que ya no necesitemos usar sopladores de hojas. creo que este es un gran proyecto y espero que pueda convertirse en un escenario de aplicación temprana.
sara guo: en términos de forma de robot, algunas personas piensan que los robots humanoides serán una mejor opción, porque muchos diseños en el mundo físico actual se basan en hábitos de comportamiento humano, por lo que un modelo de desarrollo de forma de hardware unificado basado en robots humanoides puede completar cada vez más tareas. , otra opinión es que los robots humanoides no son necesariamente la única respuesta a los robots universales. ¿qué opinas sobre este tema?
andrej karpathy: creo que muchas personas en realidad subestiman la complejidad de los costos fijos de las diferentes plataformas de robots. cada plataforma de robots requiere un alto costo fijo, por lo que la ruta de un robot universal será más razonable. realizaremos varias tareas basadas en una plataforma unificada. intentar.
por eso creo que los robots humanoides en realidad tienen un gran potencial y los humanos pueden controlarlos fácilmente de forma remota para ayudar a recopilar datos. al mismo tiempo, al igual que una de las perspectivas que acabas de mencionar, el mundo entero gira en torno al comportamiento y los hábitos humanos, lo cual es otra razón por la que los robots humanoides son importantes.
por supuesto, puede haber varios cambios en los robots humanoides en el futuro, pero para cualquier nueva plataforma robótica, el costo fijo es una cuestión importante que debe tenerse en cuenta.
también quiero enfatizar que ganarán más compartiendo información y aprendiendo unos de otros entre diferentes tareas.
en el campo de la ia, queremos construir una red neuronal que pueda manejar múltiples tareas y aprender unos de otros a través de múltiples tareas para mejorar el nivel general de inteligencia. lo interesante de los modelos de lenguaje es que sirven como modelos multitarea para procesar texto, capaces de manejar muchos tipos diferentes de problemas y al mismo tiempo compartir información entre estas tareas. pero todas estas tareas en realidad se realizan a través de una única red neuronal.
del mismo modo, esperamos que los datos recopilados durante la tarea de recolección de hojas le ayuden a completar otras tareas, pero si desarrolla un sistema específicamente para una tarea específica, su margen de beneficio puede reducirse.
sara guo: los robots como unitree g1 tienen actualmente un precio de alrededor de 300.000 dólares. parece que el campo de los robots humanoides ha alcanzado un bajo coste en la actualidad., piso funcionales difícil de equilibrar, pero si adoptamos una estructura con ruedas y agregamos un brazo robótico para completar tareas específicas, ¿no tendríamos mayores posibilidades de crear un robot de uso general más rentable?
robot unitree g1
andrej karpathy:desde el punto de vista del hardware, tiene sentido buscar plataformas de uso general más económicas. en algunas circunstancias, puede ser una opción más eficiente usar ruedas y otras estructuras en lugar de pies para completar las tareas, pero creo que esto puede ser una solución óptima local. a la larga, creo que probablemente sea más prudente elegir una forma y pulirla hasta alcanzar la perfección. y desde una perspectiva psicológica humana, las ventajas de los robots humanoides serán más obvias: resultan familiares y hacen que la gente quiera interactuar con ellos.
por supuesto, considerando el efecto valle inquietante, quizás las formas abstractas sean más populares entre los usuarios. porque en realidad no estoy seguro de cómo reaccionará la gente ante las diferentes formas de robots. si terminamos con un monstruo de ocho ruedas para hacer el trabajo, no estoy seguro de que a la gente le guste o se asuste más.
elad gil: los perros mecánicos también son una ruta de formas, y los perros también son formas más familiares para los humanos.
andrej karpathy:sí, pero muchas personas que han visto "black mirror" pueden combinar perros mecánicos con ciertas escenas de terror, por lo que la aceptación psicológica de todos será diferente. en comparación, la forma humanoide puede ser más fácil de aceptar para las personas y también hace que sea más fácil de entender. sus funciones y comportamientos.
elad gil:si queremos lograr una forma humanoide, ¿qué avances clave debemos lograr desde una perspectiva técnica?
andrej karpathy: no creo que haya una respuesta clara a esta pregunta todavía. una de las discusiones más interesantes aquí es que en el diseño de robots humanoides, la parte inferior del cuerpo no es adecuada para el aprendizaje por imitación. esta parte implica más control del péndulo invertido. para la parte superior del cuerpo (la parte superior del cuerpo), depende más del control remoto. , recopilación de datos y aprendizaje de un extremo a otro. en cierto sentido, los sistemas robóticos necesitan reunir múltiples tecnologías, pero todavía no estoy muy seguro de cómo funcionan estos sistemas entre sí.
💡
péndulo invertido:implica mantener un péndulo en una posición vertical inestable, y es un problema de control clásico con amplias aplicaciones en robótica, aeroespacial y otros campos. los métodos tradicionales de control de péndulo invertido incluyen control pid, regulador cuadrático lineal (lqr), control de modo deslizante, etc.
con el desarrollo de la ia, los métodos de aprendizaje por refuerzo se introducen gradualmente en el control de péndulos invertidos. en el camino de la rl, ha atraído mucha atención debido a su capacidad para aprender estrategias óptimas sin modelos precisos. el algoritmo de control del equilibrio del péndulo invertido basado en el aprendizaje por refuerzo es una tecnología muy práctica y se ha utilizado ampliamente en robótica, automatización y otros campos.
elad gil: al comunicarme con algunas personas en el campo de la robótica, descubrí que están muy preocupados por cuestiones como la potencia, el control y la manipulación digital.
andrej karpathy: sí, creo que en las primeras etapas habrá muchos escenarios de control remoto, como permitir que los robots imiten a los humanos recogiendo objetos del suelo, hasta que el sistema pueda funcionar de forma autónoma el 95% del tiempo. luego, aumente gradualmente la proporción de trabajo de robots, permitiendo a los humanos pasar de operadores a supervisores.
de hecho, creo que no hay obstáculos técnicos especiales. es más, queda mucho trabajo básico por hacer.ya tenemos las herramientas y recursos adecuados, como la arquitectura transformer, que es como un excelente "coordinador". solo necesitamos preparar los datos correctos, entrenar y experimentar, y finalmente implementar la implementación. aunque el proceso es complicado, en realidad no existen muchos obstáculos técnicos esenciales.
03.
datos sintéticos, modelos pequeños, empresas llm.
sara guo: ¿dónde crees que nos encontramos en términos de investigación de large blobs?
💡
investigación de grandes manchas:generalmente se refiere a una dirección de investigación o tecnología en los campos del aprendizaje profundo y la visión por computadora. blob es "binario grande" objeto, que significa "objeto binario grande", es una gran región contigua en una imagen o mapa de características que puede contener información visual importante o representar un objeto o parte de una escena específica. el estudio de estas grandes regiones puede ayudar a mejorar la capacidad del modelo para comprender y comprender. procesar características visuales a gran escala.
andrej karpathy: siento que ahora estamos en una fase de rápido desarrollo. transformer no es solo una red neuronal, sino una red neuronal potente y versátil.
por ejemplo, cuando todo el mundo habla de la ley de escala, a menudo se refieren a las características de la arquitectura transformer. antes de transformer, la gente usaba principalmente lstm apilados para realizar algunos trabajos, pero no se encontró una ley de escala clara. transformer es el primer modelo que deja esto claro y escala de manera efectiva.
💡
lstm apilado se refiere a una estructura de red neuronal profunda formada al apilar varias capas de lstm (memoria larga a corto plazo).
transformer es como una computadora general, más específicamente una computadora neuronal diferenciable (dnc). podemos hacer que realice entradas y salidas a gran escala y entrenar esta computadora mediante el método de retropropagación.con el tiempo, se convertirá en un sistema de finalización de misiones que evolucionará por sí solo.
💡
computadora neuronal diferenciable (dnc):un tipo especial de red neuronal capaz de almacenar y recuperar información, similar al sistema de memoria de una computadora. es "diferenciable", lo que significa que sus parámetros se pueden optimizar mediante retropropagación para que funcione mejor en la resolución de tareas complejas.
aunque transformer es un milagro que descubrimos accidentalmente en el campo de los algoritmos, de hecho hay muchas innovaciones clave detrás de él, como conexiones residuales, normalización de capas y bloques de atención. a diferencia de los métodos tradicionales, transformer no utiliza funciones de activación no lineales que hacen que los gradientes desaparezcan. en cambio, integra tecnologías innovadoras como se menciona en sus artículos técnicos, lo que mejora en gran medida la eficiencia y el rendimiento del entrenamiento.
sara guo:durante este período, se ha debatido sobre el muro de datos y el costo de ampliar el modelo de próxima generación será extremadamente alto. ¿qué opinas sobre los problemas de datos?
andrej karpathy: esto es lo que discutimos desde el principio. siento que la arquitectura de las redes neuronales en sí ya no es un cuello de botella hoy en día. aunque antes del nacimiento de transformer, los problemas arquitectónicos eran de hecho un obstáculo, ahora los nuevos cuellos de botella se centran principalmente en la función de pérdida y el conjunto de datos.por lo tanto, muchas empresas e investigadores ya no se centran en los cambios en la arquitectura transformer. por ejemplo, llama no tiene ninguna innovación arquitectónica particularmente obvia. el único gran cambio puede ser la "codificación posicional rotacional" (codificación posicional rope).transformer en sí no ha cambiado mucho en los últimos cinco años. todos simplemente se centran en la innovación de capacitación, conjuntos de datos y funciones de pérdida basadas en la base existente.
💡
"codificaciones posicionales rotativas" (rope, codificaciones posicionales rotativas):una técnica de codificación posicional para modelos de transformadores. representa información de posición en la secuencia de entrada mediante vectores giratorios. en comparación con la codificación de posición tradicional, rope puede brindar al modelo más ventajas al procesar secuencias largas. su característica clave es codificar la posición de cada elemento en la secuencia girando el ángulo del vector mientras se mantiene la información de distancia relativa. este enfoque permite que el modelo tenga mayor flexibilidad y escalabilidad en diferentes ubicaciones, y es especialmente adecuado para tareas que tienen que ver con dependencias de larga distancia.
sara guo:cuando no haya suficientes datos en internet, ¿comenzaremos a utilizar datos sintéticos o métodos similares de recopilación de datos más costosos?
andrej karpathy: actualmente, muchas investigaciones se centran en los modelos de lenguaje. aunque los datos de internet no son la fuente de datos más ideal para transformer, se pueden utilizar como herramienta para mejorar continuamente las capacidades del modelo. los datos de internet son sólo una colección de páginas web, pero lo realmente valioso es lo que hay en nuestro cerebro.monólogo interior”——esas trayectorias de pensamiento complejas y profundas.
si podemos tener miles de millones de datos similares a "pistas de pensamiento", entonces podemos estar cerca de agi hasta cierto punto. pero estos datos no existen actualmente, por lo que la investigación actual se centra principalmente en reorganizar los conjuntos de datos existentes en un formato similar al "monólogo interno". ésta es la importancia de los datos sintéticos. los modelos actuales pueden ayudarnos a generar la próxima generación de modelos. este es un proceso de progreso iterativo continuo, como subir una escalera, acercándose a la meta paso a paso.
elad gil:¿qué utilidad tienen los datos sintéticos? como dijiste, cada modelo puede ayudarnos a entrenar el siguiente modelo, o al menos proporcionar herramientas para tareas como la anotación de datos, parte de las cuales pueden ser datos sintéticos.
andrej karpathy: creo que los datos sintéticos son esenciales para mejorar las capacidades del modelo.pero tenga cuidado al utilizar datos sintéticos, porque el modelo "colapsa" sin saber cuándo. por ejemplo, cuando le pedimos a chatgpt que nos cuente chistes, si lo intentamos unas cuantas veces más, nos daremos cuenta de que es posible que solo conozca 3 chistes. aunque parece saber muchos, en realidad solo conoce esos pocos. colapso" ", es decir, no hay problema con una sola salida, pero si la salida en esta dirección específica, la diversidad y flexibilidad del modelo se reducen en gran medida, esto es un problema al generar datos, especialmente al generar datos sintéticos. es fácil "colapsar" esto se debe a que en realidad necesitamos la diversidad y riqueza de los datos, es decir, "entropía", para evitar los problemas causados por un conjunto de datos demasiado único.
💡
modo colapso:este es un fenómeno en las redes generativas adversarias (gan) donde el modelo generativo comienza a generar muestras muy similares o repetitivas en lugar de muestras diversas. esto a menudo se considera un problema porque indica que el modelo no es capaz de aprender la rica diversidad de datos.
por ejemplo, alguien publicó un conjunto de datos relacionados con personajes que contiene mil millones de antecedentes de personajes ficticios, como "soy profesor" o "soy artista, vivo aquí, hago este trabajo", etc.al generar datos sintéticos, en realidad le permite imaginar el proceso de interacción con una persona específica. esto puede darle al modelo más espacio para explorar, generando así más información y aumentando la diversidad del conjunto de datos.por lo tanto, debemos inyectar entropía con cuidado mientras mantenemos la estabilidad de la distribución de datos, que es el mayor desafío en la generación de datos sintéticos.
sara guo:¿qué crees que podemos aprender sobre la cognición humana a partir de esta investigación? por ejemplo, algunas personas creen que comprender el proceso de formación de las trayectorias del pensamiento nos ayudará a comprender cómo funciona el cerebro.
andrej karpathy:los modelos de investigación y la cognición humana son dos cosas completamente diferentes, pero en algunos casos pueden compararse. por ejemplo, creo que transformer es más fuerte que el cerebro humano en algunos aspectos, y el modelo es un sistema más eficiente que el cerebro humano, pero debido a limitaciones de datos, su rendimiento actual no es tan bueno como el del cerebro humano. pero esto es sólo una explicación aproximada.
por ejemplo, en términos de capacidad de memoria, los transformers funcionan mejor que el cerebro humano al procesar secuencias largas. si le da una secuencia y le pide que realice un cálculo hacia adelante y hacia atrás, puede recordar las partes anterior y posterior de la secuencia y completar la tarea, lo cual es difícil de realizar para la memoria humana. por lo tanto, en algunos aspectos, creo que el método de entrenamiento basado en la optimización de gradientes es de hecho más eficiente que el cerebro humano, e incluso en el futuro, el modelo realmente puede superar a los humanos en algunos niveles cognitivos.
elad gil:la capacidad de memoria es uno de los puntos fuertes de los ordenadores.
andrej karpathy: sí, creo que el cerebro humano en realidad tiene muchas limitaciones. por ejemplo, la capacidad de la memoria de trabajo es muy limitada, mientras que la memoria de trabajo de los transformers es mucho mayor en comparación, y la brecha entre ellos sigue ampliándose. además, los transformers aprenden de manera más eficiente. el funcionamiento del cerebro humano está limitado por muchos factores ocultos, como los antecedentes, la responsabilidad, el entorno, etc., lo que hace que el sistema del cerebro humano sea más aleatorio y limitado. por tanto, siento que en algunos aspectos estos modelos ya son más fuertes que el cerebro humano, pero aún no han alcanzado su máximo potencial.
elad gil:en cuanto a la relación entre los humanos y la ia, un argumento es que la usamos como una herramienta externa, mientras que otros dicen que habrá una integración más profunda entre los humanos y los modelos de ia. ¿qué opinas sobre este tema?
andrej karpathy: creo que hemos logrado la integración de los humanos y la ia hasta cierto punto. las herramientas técnicas siempre han sido un derivado de las capacidades humanas. como suele decirse, "las computadoras son las bicicletas del cerebro humano". lo que pasa es que el problema de los modelos actuales radica en el cuello de botella en el proceso de entrada y salida de información, por lo que la integración de los humanos y la ia todavía requiere intentos continuos. sin embargo, una vez perfeccionados los modelos, utilizarlos es muy sencillo y se puede conseguir con unos sencillos movimientos. entonces, aunque existen algunos obstáculos, la tecnología actual ha hecho que esta integración sea relativamente fácil y factible.
elad gil:algunas personas en el campo de la ia creen quesi hay un conflicto entre nosotros y la ia en el futuro, está bien
resuelto mediante alguna forma de fusión de humanos e ia.
andrej karpathy: sí, esto es muy similar a la filosofía de neuralink. si bien no estoy seguro exactamente de cómo será esta fusión, lo que está claro es que queremos reducir la latencia de entrada y salida entre los humanos y las herramientas. puedes pensar en ello como agregar una nueva corteza a nuestra corteza cerebral. esta nueva corteza puede estar basada en la nube y es esencialmente la siguiente capa del cerebro.
elad gil: existir acelerando el libro tiene una premisa similar, donde todo se entrega al cerebro a través de unas gafas inteligentes portátiles. si pierdes estas gafas, es como perder una parte de tu personalidad o de tu memoria.
andrej karpathy: creo que es probable que esto suceda. los teléfonos móviles actuales casi se han convertido en parte de nuestras vidas, como un dispositivo externo al cerebro. cada vez que dejamos nuestros teléfonos, sentimos que volvemos a nuestro estado original.
por poner otro ejemplo, si tenemos un "traductor universal" y dependemos de él durante mucho tiempo, cuando de repente no lo tengamos, podemos perder la capacidad de comunicarnos directamente con personas que hablan diferentes idiomas. como se muestra en un vídeo, un niño sostiene una revista y trata de deslizarla con el dedo. no sabe distinguir qué es natural y qué se debe a la tecnología. me hace pensar que a medida que la tecnología se vuelve cada vez más omnipresente, las personas pueden volverse dependientes de estas herramientas, sólo para darse cuenta de que no pueden distinguir qué es tecnología y qué no hasta que desaparezcan. especialmente los dispositivos como los traductores que siempre ayudan a realizar tareas reducirán en gran medida la sensibilidad de las personas a los límites entre la tecnología y la naturaleza.
sara guo: la "exocorteza" parece algo muy importante y lo es para todos. hoy en día, la investigación de llm está dirigida por unos pocos laboratorios de ia, y solo ellos tienen los recursos para promover el desarrollo de modelos de capacitación de próxima generación. ¿qué opinas de esta estructura en la investigación de llm hoy? ¿qué impacto tendrá en la popularidad de la tecnología de ia en el futuro?
andrej karpathy: de hecho, el ecosistema de llm está monopolizado por varias plataformas cerradas en la actualidad, mientras que meta llama, que ocupa el último lugar, es relativamente abierta. este fenómeno también es un reflejo del ecosistema de código abierto hasta cierto punto. cuando pensamos en llm como la "capa externa", están involucrados problemas de información y privacidad de datos. hay un dicho en el campo del cifrado que dice "ni tus claves, ni tus tokens". quizás en el futuro en el campo llm enfaticemos "ni tus pesos, ni tu cerebro". si la ia es la nueva corteza cerebral para todos en el futuro, y si esta corteza está controlada por una determinada empresa, las personas sentirán que están "alquilando" un cerebro en lugar de poseerlo realmente.
sara guo: ¿estás dispuesto a ceder la propiedad y el control de tu propio cerebro para alquilar uno más potente?
andrej karpathy: creo que esta es una compensación crítica. la tendencia futura puede ser que la mayoría de la gente utilice el poderoso modelo de código cerrado como opción predeterminada, pero en algunos casos específicos, los sistemas de código abierto se convertirán en la alternativa. al igual que ahora, cuando algunos proveedores de modelos de código cerrado tienen problemas con sus api, la gente recurre al ecosistema de código abierto y, por lo tanto, se siente más en control.
esta también puede ser la dirección del futuro desarrollo de la tecnología cerebral: cuando surgen problemas, podemos cambiar a sistemas de código abierto, mientras que en la mayoría de los casos todavía dependemos de sistemas cerrados. es importante que los sistemas de código abierto sigan avanzando, pero hoy en día quizás no todo el mundo sea consciente de esta cuestión.
elad gil:¿qué opinas de las miniaturas? ¿qué nivel de rendimiento pueden alcanzar los modelos pequeños actuales?
andrej karpathy: creo que el modelo podría reducirse aún más. debido al problema con el conjunto de datos, creemos que el modelo actual desperdicia mucha capacidad al almacenar información irrelevante. la clave para un modelo pequeño es centrarse en la cognición central, y este núcleo en realidad puede ser muy pequeño. es más como una forma de pensar. cuando necesitamos encontrar información, podemos usar de manera flexible varias herramientas para obtenerla, en lugar de dejar que el modelo almacene muchos detalles innecesarios.
en términos de parámetros, creo que es posible que sólo necesitemos 100 millones de parámetros para lograr nuestro objetivo. la tecnología de compresión eficiente puede hacer que el modelo sea muy pequeño. el principio de compresión es simple: utilice un modelo muy grande o muchos recursos informáticos para supervisar un modelo más pequeño. este proceso puede incluir muchas capacidades en un modelo pequeño.
la esencia de este asunto es que los grandes modelos actuales se ocupan de conjuntos de datos de internet, y solo alrededor del 0,001% del contenido está relacionado con la cognición, y el 99,99% restante es en realidad información irrelevante, como el texto con derechos de copia. la mayor parte de la información no juega un papel sustancial en la mejora de los patrones de pensamiento.
elad gil:¿puede este proceso explicarse mediante matemáticas o algún tipo de teoría informática? ¿se puede cuantificar la relación entre el tamaño del modelo y el poder cognitivo? por ejemplo, en el futuro, es posible que sólo se necesite un modelo de mil millones de parámetros para lograr una buena comprensión.
andrej karpathy: incluso puede costar menos de mil millones, y el modelo puede tener este tipo de capacidad cognitiva, teniendo en cuenta el costo del modelo, el equipo final, etc. y lo que vamos a discutir puede que no sea un modelo cognitivo único. creo que el modelo debería tener la capacidad de procesar en paralelo, en lugar de depender únicamente del procesamiento secuencial. es como una empresa, se puede trabajar mucho en paralelo, pero también se necesita una estructura jerárquica para procesar mejor la información. por lo tanto, creo que puede haber un modelo de "empresas para llm" en el futuro: diferentes modelos se centran en sus respectivos campos, como uno es un modelo de programador y el otro es un modelo de director de proyectos, y cada uno maneja mucho trabajo. en paralelo, entre sí también pueden colaborar para formar un "cerebro de grupo" compuesto por llm.
elad gil:este grupo de llm es como un ecosistema, cada parte del cual tiene su propia experiencia y posición únicas.
andrej karpathy: creo que el futuro definitivamente se desarrollará en esta dirección. el modelo de nube es el más inteligente y puede considerarse como el ceo. hay muchos modelos más baratos y de código abierto que son empleados en este grupo. las tareas se escalan y asignan automáticamente a otras partes del grupo.
04.
educación en la era de la ia
sara guo:empezaste a trabajar en tu propio proyecto educativo después de dejar openai. ¿por qué elegiste la educación?
andrej karpathy: siempre me ha encantado la industria de la educación, me gusta aprender y enseñar, y me apasiona mucho este campo.
💡
karpatía fundada laboratorios eureka, que es una plataforma educativa con la ia como núcleo, cuyo objetivo es revolucionar los métodos de aprendizaje a través de la tecnología de inteligencia artificial. primer curso de eureka labs llm101n se guiará a los estudiantes para que creen sus propios modelos de lenguaje a gran escala, con el objetivo de hacer que la educación en ia sea más interactiva y popular. esta plataforma planea mejorar la experiencia de aprendizaje integrando asistentes de enseñanza de ia y diseño de cursos humanos, reflejando su visión de integrar la ia y la educación a lo largo de los años.
una razón importante que me empujó a ingresar a este campo es que siento que muchas ia están tratando de reemplazar a los humanos, lo que hace que muchas personas pierdan sus trabajos, pero estoy más interesado en tecnologías que puedan mejorar las capacidades humanas. en general, estoy del lado de la humanidad y espero que la ia pueda ayudar a la humanidad a ser más poderosa en lugar de marginada.
además, creo que es una buena idea tener un "tutor perfecto" que pueda realizar tareas de tutoría en todas las materias. si todos tienen un tutor de ia que los guíe en el aprendizaje de todas las materias, creo que todos pueden lograr mejores resultados.
elad gil: desde la década de 1980, la literatura ha declarado claramente que la tutoría individual puede mejorar el desempeño de un individuo en 2 desviaciones estándar. también hay muchos casos en torno a los tutores personalizados. ¿cómo cree que se pueden combinar la ia y los tutores?
andrej karpathy: me inspiro mucho en estos ejemplos. ahora estoy creando un curso completo con el objetivo de convertirlo en la primera opción para que las personas aprendan ia. anteriormente impartí el primer curso de aprendizaje profundo de stanford. aunque el número de estudiantes fue solo de 20 a 30, los resultados fueron buenos. el desafío ahora es cómo ampliar este tipo de cursos para abarcar a 8 mil millones de personas en todo el mundo, considerando las diferencias en el idioma y las habilidades, esto es difícil de lograr con un solo maestro.
por tanto, la clave es cómo utilizar la ia para ampliar el papel de los buenos docentes. la tarea principal de los profesores debería ser el diseño de cursos y la redacción de materiales, mientras que la ia puede interactuar con los estudiantes desde el principio y enseñar contenidos. la ia actual no puede crear cursos completos de forma independiente, pero sí suficiente para ayudar a explicar y transferir conocimientos. de esta manera, los profesores pueden centrarse en el diseño back-end, mientras que la ia utiliza múltiples lenguajes en el front-end para interactuar con los estudiantes y ayudarlos a completar su aprendizaje.
sara guo:¿se puede comparar la ia con un asistente docente?
andrej karpathy: el asistente de enseñanza es una de las direcciones que estoy considerando. lo veo como una interfaz que interactúa directamente con los estudiantes y los lleva a completar el curso. creo que esta es una solución factible con la tecnología actual y no existe un producto similar. en el mercado, así que creo que hay mucho potencial en esta área y, a medida que avanza la tecnología, podemos hacerle varios ajustes. siento que hoy en día muchas empresas no tienen una comprensión lo suficientemente intuitiva de las capacidades del modelo y, como resultado, los productos que desarrollan son demasiado avanzados o no lo suficientemente precisos. por eso creo que este campo tiene un gran potencial.
sara guo: con buenas herramientas, ¿hasta qué punto se pueden alcanzar los límites de las capacidades humanas? por ejemplo, si lo comparamos con los juegos olímpicos, debido a los avances en la ciencia y la tecnología del entrenamiento en los últimos 10 años, el desempeño de los mejores corredores es mejor que hace 10 años.
andrej karpathy: siento que todavía no hemos alcanzado todo nuestro potencial. podemos pensar en este tema desde dos perspectivas. la primera es la globalización, espero que todos puedan recibir un alto nivel de educación, y la segunda es el límite de las capacidades individuales. ambas perspectivas son valiosas.
elad gil: por lo general, cuando hablamos de orientación de aprendizaje 1 a 1, mencionamos la personalización y la adaptación, es decir, asignar tareas de desafío de aprendizaje correspondientes según el nivel de cada persona. ¿crees que la ia puede hacer esto hoy?
andrej karpathy: creo que la "fruta madura" en el campo de la educación de ia de hoy son las aplicaciones de traducción. los modelos actuales son muy buenos en este tipo de tareas y las cosas que pueden hacer siguen siendo tareas básicas.
es difícil lograr una personalización que se adapte al nivel de cada persona, pero no es imposible. creo que este también debería ser el foco del desarrollo de la ia, y obviamente tiene el potencial para hacerlo. pero esto puede involucrar nuevos campos. se puede implementar un modelo más simple a través del proyecto rápido, pero creo que la forma realmente útil es hacer que el modelo en sí tenga tales capacidades, para que pueda funcionar como un maestro.
creo que esto afecta a algunas áreas que actualmente están subdesarrolladas. si bien las versiones simples pueden no estar muy lejos, como obtener ayuda dando pistas sobre el modelo, estoy hablando de soluciones que realmente funcionan, no solo se ven bien en una demostración. me refiero a la capacidad de trabajar con la misma eficacia que un verdadero profesor, comprendiendo el contexto de cada persona y proporcionando una orientación personalizada, lo que requiere un mayor desarrollo.
elad gil: ¿podemos lograr esta adaptación introduciendo otros modelos?
andrej karpathy: creo que esto también es una característica de la ia. creo que muchas funciones se pueden implementar con un solo mensaje. a menudo vemos muchas demostraciones, pero ¿podemos finalmente ofrecer un producto real? por lo tanto, puede que no sea difícil hacer algunas demostraciones, pero todavía queda un largo camino por recorrer antes de que pueda convertirse en un producto que pueda usarse a gran escala.
sara guo:hace unas semanas mencionaste que el aprendizaje y el entretenimiento son diferentes. el aprendizaje debería ser un desafío y requerir un cierto sistema de incentivos, como el estatus social, el efecto ídolo, etc. ¿hasta qué punto cree que el sistema de incentivos puede cambiar la motivación de las personas para aprender? ¿está más preocupado por proporcionar recursos que permitan a las personas llegar tan lejos como puedan dentro de sus capacidades? ¿o desea cambiar la cantidad de personas que están dispuestas a aprender y guiar a más personas para que comiencen a aprender?
andrej karpathy:espero facilitar un poco el aprendizaje, ya que es posible que algunas personas no estén naturalmente interesadas en aprender. mucha gente estudia por necesidades prácticas, como por ejemplo para encontrar un trabajo, lo cual es muy razonable. la educación juega un papel importante en nuestra sociedad porque no solo proporciona conocimientos sino que también mejora la situación económica de una persona, razón por la cual la gente quiere estar motivada por la educación.
sara guo:¿cómo será nuestro futuro en una sociedad post-agi?
andrej karpathy:en la era post-agi, creo que la educación se parecerá más al entretenimiento. el éxito de la educación no reside sólo en la transferencia de conocimientos, sino también en la comprensión y aplicación profunda de estos conocimientos.
sara guo:¿quién fue la primera audiencia de eureka?
andrej karpathy:el público principal de este primer curso son los estudiantes de pregrado, particularmente aquellos que cursan estudios en campos técnicos. si estás estudiando una carrera universitaria relacionada con la tecnología, eres el grupo objetivo ideal para este curso.
andrej karpathy:creo que nuestro concepto actual de educación está algo anticuado. la antigua forma de ir a la escuela, graduarse y trabajar todo el tiempo quedará rota con los cambios actuales. la tecnología está cambiando rápidamente y la gente necesita seguir aprendiendo. entonces, aunque el curso es para estudiantes universitarios, en realidad tiene una audiencia amplia. por ejemplo, creo que pueden participar personas de cualquier edad. especialmente para aquellos con formación técnica que quieran obtener una comprensión más profunda de los conocimientos relevantes, habrá algo que ganar.
planeo ofrecer el curso a finales de este año; principios del próximo puede ser un momento adecuado, pero antes trabajaré duro para garantizar que la calidad del curso alcance el nivel esperado.
elad gil:si tuvieras hijos, ¿qué conocimientos y habilidades te gustaría que aprendieran?
andrej karpathy:la respuesta que daría es matemáticas, física, informática y otras materias. estas materias en realidad proporcionan una formación muy básica para el cultivo de la capacidad de pensamiento. por supuesto, esta perspectiva está influenciada por mis antecedentes, pero creo que estas áreas son muy útiles en términos de habilidades para resolver problemas. incluso cuando el futuro se acerca a la era de la agi, estas habilidades seguirán siendo importantes. durante este período crítico en el que la gente tiene mucho tiempo y atención, creo que deberíamos centrarnos principalmente en tareas que sean relativamente sencillas de realizar en lugar de tareas que requieran mucha memoria. si bien también reconozco la importancia de aprender otras materias, creo que el 80% del tiempo debería centrarse en estas áreas básicas porque son más prácticas y tienen valor a largo plazo.
composición tipográfica: fia