noticias

El nuevo método de investigación y desarrollo de Meta: integración de modelos de inteligencia artificial de lenguaje y difusión para reducir la cantidad de cálculos, mejorar la eficiencia informática y optimizar la generación de imágenes.

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House informó el 24 de agosto que Meta AI Company lanzó recientemente un nuevo método llamado Transfusión, que puede combinar modelos de lenguaje y modelos de generación de imágenes en un sistema de IA unificado.

IT Home citó al equipo diciendo que Transfusion combina las ventajas de los modelos de lenguaje en el procesamiento de datos discretos, como texto, y la capacidad de los modelos de difusión para generar datos continuos, como imágenes.

Meta explica que los sistemas de generación de imágenes actuales suelen utilizar codificadores de texto previamente entrenados para procesar palabras clave de entrada, que luego se combinan con un modelo de difusión independiente para generar imágenes.

Muchos modelos de lenguaje multimodal funcionan de manera similar, concatenando modelos de texto previamente entrenados con codificadores especializados para otras modalidades.

Sin embargo, Transfusion utiliza una arquitectura Transformer única y unificada que es adecuada para todos los modos y realiza un entrenamiento de un extremo a otro en datos de texto e imágenes. El texto y las imágenes utilizan diferentes funciones de pérdida: el texto utiliza la predicción del siguiente token y las imágenes utilizan la difusión.

Para procesar texto e imágenes simultáneamente, las imágenes se convierten en secuencias de fragmentos de imágenes. De esta manera, el modelo puede procesar etiquetas de texto y fragmentos de imágenes simultáneamente en una secuencia, y una máscara de atención especial permite al modelo capturar las relaciones dentro de la imagen.

A diferencia de los métodos existentes de Meta, como Chameleon (que convierte imágenes en marcadores discretos y luego las procesa de la misma manera que el texto), Transfusion conserva la representación continua de imágenes y evita la pérdida de información causada por la cuantización.

Los experimentos también muestran que Fusion escala de manera más eficiente que métodos similares. En términos de generación de imágenes, logra resultados similares a los modelos especializados pero con un esfuerzo computacional significativamente menor y, sorprendentemente, la integración de datos de imágenes también mejora las capacidades de procesamiento de texto.

Los investigadores entrenaron un modelo de 7 mil millones de parámetros en 2 billones de etiquetas de texto e imágenes. El modelo logra resultados similares a sistemas maduros como DALL-E 2 en la generación de imágenes y al mismo tiempo procesa texto.