noticias

La IA generativa puede marcar el comienzo de la próxima tendencia: el modelo TTT

2024-07-18

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

El foco de la próxima generación de inteligencia artificial (IA) generativa pueden ser los modelos de entrenamiento en tiempo de prueba, o TTT para abreviar.

La arquitectura Transformers es la base del modelo de video Sora de OpenAI y el núcleo de los modelos de generación de texto como Claude de Anthropic, Gemini de Google y el modelo insignia GPT-4o de OpenAI. Pero ahora, la evolución de estos modelos está empezando a topar obstáculos técnicos, especialmente los relacionados con la informática. Porque los Transformers no son particularmente eficientes en el procesamiento y análisis de grandes cantidades de datos, al menos cuando se ejecutan en hardware disponible en el mercado. Las empresas construyen y amplían infraestructura para satisfacer las necesidades de los transformadores, lo que resulta en un aumento dramático en la demanda de energía que tal vez no pueda satisfacer la demanda de manera sostenible.

Este mes, investigadores de la Universidad de Stanford, UC San Diego, UC Berkeley y Meta anunciaron conjuntamente que dedicaron un año y medio a desarrollar la arquitectura TTT. El equipo de investigación afirma que el modelo TTT no sólo puede manejar muchos más datos que los Transformers, sino que tampoco consume tanta potencia informática como los Transformers.

¿Por qué los de afuera piensan que el modelo TTT es más prometedor que Transformers? Lo primero que hay que entender es que un componente fundamental de Transformers es el "estado oculto", que es esencialmente una larga lista de datos. Cuando el Transformer procesa algo, agrega entradas al estado oculto para "recordar" lo que acaba de procesar. Por ejemplo, si el modelo está procesando un libro, el valor del estado oculto será la representación de una palabra (o parte de una palabra).

Yu Sun, un becario postdoctoral de la Universidad de Stanford que participó en la investigación TTT antes mencionada, explicó recientemente a los medios que si se considera al Transformador como una entidad inteligente, entonces la tabla de búsqueda y su estado oculto son el cerebro del Transformador. Este cerebro implementa algunas de las características más conocidas de Transformer, como el aprendizaje contextual.

El estado oculto ayuda a los Transformers a volverse poderosos, pero también obstaculiza su desarrollo. Por ejemplo, Transformers acaba de leer un libro. Para "decir" incluso una palabra en este libro, el modelo de Transformers debe escanear toda la tabla de búsqueda. Este requisito computacional equivale a volver a leer el libro completo.

Entonces Sun y otros investigadores de TTT pensaron en reemplazar los estados ocultos con modelos de aprendizaje automático, como los muñecos de la IA, un modelo dentro de un modelo. A diferencia de las tablas de búsqueda de Transformers, el modelo interno de aprendizaje automático del modelo TTT no crece a medida que se procesan más datos. En cambio, codifica los datos procesados ​​en variables representativas llamadas ponderaciones, razón por la cual el modelo TTT tiene un alto rendimiento. No importa cuántos datos procese un modelo TTT, el tamaño de su modelo interno no cambia.

Sun cree que los futuros modelos TTT podrán procesar eficientemente miles de millones de datos, desde palabras hasta imágenes, desde grabaciones hasta vídeos. Esto está mucho más allá de las capacidades de los modelos existentes. El sistema de TTT puede decir X palabras de un libro sin tener que hacer el complicado cálculo de releer el libro X veces. "Los modelos de vídeo a gran escala basados ​​en Transformers, como Sora, sólo pueden manejar vídeos de 10 segundos porque sólo tienen un 'cerebro' de tabla de búsqueda. Nuestro objetivo final es desarrollar un sistema que pueda manejar vídeos largos similares a la experiencia visual. en la vida humana”

¿Los modelos TTT eventualmente reemplazarán a los transformadores? Los medios creen que esto es posible, pero es demasiado pronto para sacar conclusiones. El modelo TTT no es un reemplazo directo de Transformers en este momento. Los investigadores solo desarrollaron dos modelos pequeños para el estudio, por lo que actualmente es difícil comparar TTT con los resultados logrados por algunos de los modelos Transformers más grandes.

Mike Cook, profesor titular del Departamento de Informática del King's College de Londres que no participó en el estudio TTT antes mencionado, comentó que TTT es una innovación muy interesante si los datos respaldan la idea de que puede mejorar la eficiencia, es una buena noticia. , pero no puede decirlo. ¿Es TTT mejor que la arquitectura existente? Cook dijo que cuando era estudiante, un viejo profesor solía contar un chiste: ¿Cómo se resuelve cualquier problema en informática? Agrega otra capa de abstracción. Agregar una red neuronal a una red neuronal le recordó la solución a este chiste.