noticias

¿equipar a los robots con "cerebros de gusano"? ¡red neuronal líquida sin transformador!

2024-10-01

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

informe del corazón de la máquina

departamento editorial de machine heart

una nueva arquitectura inspirada en c. elegans, las tres "formas de copa" pueden lograr un rendimiento sota y pueden implementarse en entornos con recursos muy limitados. los robots móviles pueden necesitar el cerebro de un insecto.

en la era de los modelos grandes, el transformer propuesto en el artículo fundamental de google de 2017 "la atención es todo lo que necesitas" se ha convertido en una arquitectura convencional.

sin embargo, liquid ai, una startup recién cofundada por ex investigadores del laboratorio de ciencias de la computación e inteligencia artificial (csail) del mit, ha tomado un camino diferente.

liquid ai dice que su objetivo es "explorar formas de construir modelos más allá del transformador generativo preentrenado (gpt) básico".

para lograr este objetivo, liquid ai lanzó sus primeros modelos de ia multimodal: liquid foundation models (lfm). se trata de una nueva generación de modelos de ia generativa creados a partir de los primeros principios, con lfm 1b, 3b y 40b que logran rendimiento sota en todas las escalas manteniendo una huella de memoria más pequeña y una inferencia más eficiente.

el director posterior al entrenamiento de liquid ai, maxime labonne, dijo en x que lfm es la versión de la que está más orgulloso en su carrera. la principal ventaja de lfm es que pueden superar a los modelos basados ​​​​en transformer y ocupan menos memoria.

algunas personas dicen que lfm es el terminador de transformer.

algunos internautas elogiaron a lfm como un elemento de cambio.

algunos internautas creen que "tal vez sea hora de abandonar transformers. esta nueva arquitectura parece muy prometedora".

liquid ai lanza tres modelos

la gama lfm está disponible en tres tamaños y variantes diferentes:

  • lfm intensivo 1.3b (mínimo), ideal para entornos con recursos muy limitados.

  • denso lfm 3b, optimizado para implementación perimetral.

  • modelo lfm 40.3b moe (el modelo híbrido experto más grande, similar a mistral), diseñado para manejar tareas más complejas.

rendimiento sota

comparación del lfm-1b con modelos a escala equivalentes. el lfm-1b obtuvo las máximas puntuaciones en todas las pruebas comparativas, lo que lo convierte en el modelo más avanzado de su tamaño. esta es la primera vez que una arquitectura que no es gpt supera significativamente a los modelos basados ​​en transformer. por ejemplo, lfm 1.3b superó a llama 3.2-1.2b de meta y phi-1.5 de microsoft en pruebas comparativas de terceros.

lfm-3b logra un rendimiento increíble, ocupando el primer lugar en comparación con los modelos de transformadores, modelos híbridos y modelos rnn de 3b. también es comparable al phi-3.5-mini en múltiples pruebas comparativas, aunque es un 18,4% más pequeño. se puede ver que el lfm-3b es ideal para aplicaciones móviles y otras aplicaciones de texto de borde.

lfm-40b logra un nuevo equilibrio entre el tamaño del modelo y la calidad de salida. puede activar 12b de parámetros en tiempo de ejecución, con un rendimiento comparable al de modelos más grandes, mientras que la arquitectura moe permite un mayor rendimiento y se puede implementar en hardware más rentable.

memoria eficiente

lfm ocupa menos memoria en comparación con la arquitectura transformer. esto es especialmente cierto para entradas largas, ya que la caché kv en llm basado en transformer crece linealmente con la longitud de la secuencia. al comprimir eficientemente la entrada, lfm puede procesar secuencias más largas en el mismo hardware. lfm ocupa la menor cantidad de memoria en comparación con otros modelos de clase 3b. por ejemplo, el lfm-3b requiere sólo 16 gb de memoria, mientras que el llama-3.2-3b de meta requiere más de 48 gb de memoria.

lfm realmente aprovecha la longitud del contexto

la siguiente tabla compara el rendimiento de varios modelos en diferentes contextos de duración.

esta ventana de contexto eficiente permite por primera vez tareas de contexto prolongado en dispositivos perimetrales. para los desarrolladores, desbloquea nuevas aplicaciones, incluido el análisis y el resumen de documentos, interacciones más significativas con chatbots sensibles al contexto y un rendimiento mejorado de generación aumentada de recuperación (rag).

estos modelos son competitivos no solo en puntos de referencia de rendimiento bruto, sino también en eficiencia operativa, lo que los hace ideales para una variedad de casos de uso, desde aplicaciones de nivel empresarial hasta servicios financieros, biotecnología y electrónica de consumo.

los usuarios pueden acceder a él a través de lambda chat o perplexity ai, etc.

cómo liquid va más allá del transformador generativo preentrenado (gpt)

liquid utiliza un híbrido de unidades computacionales que están profundamente arraigadas en la teoría de sistemas dinámicos, el procesamiento de señales y el álgebra lineal numérica. el resultado fue el desarrollo de modelos de ia de uso general que pueden usarse para simular cualquier tipo de datos de secuencia, incluidos video, audio, texto, series temporales y señales, para entrenar su nuevo lfm.

ya el año pasado, liquid ai utilizó un método llamado lnn (liquid neural networks). a diferencia de los modelos tradicionales de aprendizaje profundo que requieren miles de neuronas para realizar tareas complejas, lnn muestra que menos neuronas (combinadas con fórmulas matemáticas innovadoras) pueden lograr lo mismo. resultados.

los nuevos modelos de liquid ai conservan el beneficio principal de esta adaptabilidad, permitiendo ajustes en tiempo real durante la inferencia sin la sobrecarga computacional asociada con los modelos tradicionales. puede manejar eficientemente hasta 1 millón de tokens mientras minimiza el uso de memoria.

por ejemplo, en términos de uso de memoria de inferencia, el modelo lfm-3b supera a modelos populares como gemma-2 de google, phi-3 de microsoft y llama-3.2 de meta, especialmente cuando se amplía la longitud del token.

mientras que otros modelos experimentan aumentos dramáticos en el uso de memoria al procesar contextos largos, el lfm-3b ocupa mucho menos espacio, lo que lo hace ideal para aplicaciones que requieren un procesamiento de datos secuencial intenso, como análisis de documentos o chatbots.

liquid ai ha construido su modelo fundamental como un modelo universal en múltiples modalidades de datos, incluidos audio, video y texto.

con esta capacidad multimodal, liquid pretende resolver una variedad de desafíos específicos de la industria que van desde servicios financieros hasta biotecnología y electrónica de consumo.

liquid ai está optimizando sus modelos para productos de múltiples fabricantes de hardware, incluidos nvidia, amd, apple, qualcomm y cerebras.

liquid ai invita a los primeros usuarios y desarrolladores a probar sus nuevos modelos y brindar comentarios. si bien el modelo aún no es perfecto, la empresa planea utilizar los comentarios para mejorar el producto. realizarán un evento de lanzamiento oficial el 23 de octubre de 2024 en el mit.

en un esfuerzo por mantener la transparencia y hacer avanzar la ciencia, la compañía planea publicar una serie de publicaciones técnicas en el blog antes del lanzamiento. también alientan a los usuarios a realizar pruebas del equipo rojo para explorar los límites del modelo y ayudar a mejorar versiones futuras.

lfm presentado por liquid ai combina un alto rendimiento y un uso eficiente de la memoria, proporcionando una poderosa alternativa a los modelos tradicionales basados ​​en transformer. esto hace que se espere que liquid ai se convierta en un actor importante en el campo de los modelos básicos.

ia líquida: comenzando con un pequeño error

esta startup, que compite abiertamente con openai y otras grandes empresas de modelos lingüísticos, fue incubada por el laboratorio de ciencias de la computación e inteligencia artificial csail del mit y fue fundada en marzo de 2023.

en diciembre de 2023, la empresa recibió 37,5 millones de dólares en financiación de ronda semilla, con una valoración que alcanzó los 300 millones.

los inversores incluyen al cofundador de github, tom preston werner, al cofundador de shopify, tobias lütke, al cofundador de red hat, bob young, etc.

daniela rus, directora del mit csail, es una de las fundadoras de la empresa. esta famosa robótica e informática es también la primera mujer directora del laboratorio.

además de daniela rus, los otros tres cofundadores de liquid ai eran todos investigadores postdoctorales en mit csail.

el cofundador y director ejecutivo ramin hasani fue el científico jefe de inteligencia artificial en vanguard, una de las empresas de gestión de fondos más grandes de estados unidos, antes de dedicarse a una investigación postdoctoral en mit csail.

el cofundador y director de tecnología, mathias lechner, ya había estudiado con hasani la estructura neuronal de los nematodos cuando eran estudiantes en la universidad técnica de viena.

el cofundador y director científico alexander amini fue estudiante de doctorado de daniela rus.

los cuatro fundadores (de izquierda a derecha): el director ejecutivo ramin hasani, daniela rus, el director científico alexander amini y el director tecnológico mathias lechner.

en 2017, daniela rus "excavó" a hasani y lechner en mit csail, y rus y su estudiante de doctorado amini también se unieron a la investigación sobre redes neuronales líquidas.

daniela rus señaló que la ia generativa tiene limitaciones obvias en términos de seguridad, interpretabilidad y potencia informática, lo que dificulta su utilización para resolver problemas de robots, especialmente de robots móviles.

inspirándose en la estructura neuronal del nematodo caenorhabditis elegans, un "invitado frecuente" en la comunidad de investigación científica, daniela rus e investigadores postdoctorales en su laboratorio desarrollaron un nuevo tipo de red neuronal flexible, también conocida como red neuronal líquida.

caenorhabditis elegans es también el único organismo para el que se ha completado la determinación del conectoma (a partir de 2019). aunque el cerebro es simple, también aprende y se adapta mucho mejor al entorno que cualquier sistema de inteligencia artificial actual.

caenorhabditis elegans mide sólo 1 mm de longitud, sólo 302 neuronas y 96 músculos, pero es capaz de realizar comportamientos inteligentes complejos como detectar, escapar, buscar comida y aparearse.

es la inteligencia viva más simple y el medio más pequeño para realizar la inteligencia artificial general mediante la simulación de mecanismos neuronales biológicos.

en los últimos años, los investigadores científicos también han utilizado los resultados de las investigaciones sobre los nervios de c. elegans para realizar simulaciones biológicas por ordenador. al estudiar cómo funciona el cerebro de c. elegans, daniela rus y otros diseñaron una "red líquida de tiempo constante":

un modelo de tiempo continuo que consta de múltiples sistemas dinámicos simples que se regulan entre sí a través de puertas no lineales.

si decimos que una red neuronal estándar es como una capa de represas espaciadas uniformemente, con muchas válvulas (pesos) instaladas en cada capa de represas, el torrente calculado debe pasar a través de estas válvulas cada vez que pasa a través de una capa de represas, y luego corre al siguiente nivel.

bueno, las redes neuronales líquidas no necesitan represas porque cada neurona está controlada por una ecuación diferencial (ode).

este tipo de red se caracteriza por constantes de tiempo variables y el resultado se obtiene resolviendo ecuaciones diferenciales. las investigaciones muestran que supera a los modelos tradicionales en términos de estabilidad, expresividad y predicción de series temporales.

posteriormente, daniela rus y otros propusieron un método de aproximación que puede utilizar soluciones de forma cerrada para simular eficientemente la interacción entre neuronas y sinapsis (redes neuronales de tiempo continuo de forma cerrada), que no solo mejoró enormemente el cálculo del modelo de velocidad, también muestra una mejor escalabilidad y funciona bien en el modelado de series temporales, superando a muchos modelos avanzados de redes neuronales recurrentes.

los miembros del equipo de liquid ai han afirmado que la arquitectura es adecuada para analizar cualquier fenómeno que fluctúe con el tiempo, incluido el procesamiento de vídeo, la conducción autónoma, la monitorización cerebral y cardíaca, el comercio financiero (cotizaciones de acciones) y las previsiones meteorológicas.

además de ser flexibles como un líquido, otra característica de las redes neuronales líquidas es que tienen una escala mucho más pequeña que los modelos de ia generativa que a menudo tienen miles de millones de parámetros.

por ejemplo, lfm 1.3b, que se puede implementar en entornos con recursos muy limitados, tiene solo 1.3b de parámetros (similar a la versión máxima 1.5b de gpt-2), al tiempo que mantiene una huella de memoria más pequeña y una inferencia más eficiente, y puede ser se utiliza en varias ejecuciones en la plataforma de hardware del robot.

además, las redes neuronales líquidas también tienen la ventaja de la interpretabilidad debido a su pequeño tamaño y arquitectura simple.

sin embargo, queda por ver cómo competirá la nueva arquitectura con los modelos convencionales de competidores como openai.

hasani ha dicho que liquid ai actualmente no tiene planes de desarrollar aplicaciones como chatgpt para consumidores. la empresa se centra primero en clientes corporativos que buscan modelar la investigación médica y financiera.

enlaces de referencia:

https://venturebeat.com/ai/the-tireless-teammate-how-agentic-ai-is-reshaping-development-teams/

https://arxiv.org/abs/2106.13898

https://arxiv.org/abs/2006.04439

https://www.jiqizhixin.com/articles/2023-12-12?from=synced&keyword=liquid%20ai