nouvelles

La nouvelle méthode de recherche et développement de Meta : intégrer des modèles d'IA de langage et de diffusion pour réduire la quantité de calculs, améliorer l'efficacité informatique et optimiser la génération d'images

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House a rapporté le 24 août que Meta AI Company avait récemment lancé une nouvelle méthode appelée Transfusion, qui peut combiner des modèles de langage et des modèles de génération d'images dans un système d'IA unifié.

IT Home a cité l'équipe disant que Transfusion combine les avantages des modèles de langage dans le traitement de données discrètes telles que le texte, et la capacité des modèles de diffusion à générer des données continues telles que des images.

Meta explique que les systèmes de génération d'images actuels utilisent généralement des encodeurs de texte pré-entraînés pour traiter les mots de repère d'entrée, qui sont ensuite combinés avec un modèle de diffusion distinct pour générer des images.

De nombreux modèles de langage multimodaux fonctionnent de la même manière, concaténant des modèles de texte pré-entraînés avec des encodeurs spécialisés pour d'autres modalités.

Cependant, Transfusion utilise une architecture Transformer unique et unifiée qui convient à tous les modes et effectue une formation de bout en bout sur les données texte et image. Le texte et les images utilisent des fonctions de perte différentes : le texte utilise la prédiction du prochain jeton et les images utilisent la diffusion.

Pour traiter simultanément le texte et les images, les images sont converties en séquences de fragments d'images. De cette manière, le modèle peut traiter simultanément les balises de texte et les fragments d’image dans une séquence, et un masque d’attention spécial permet au modèle de capturer les relations au sein de l’image.

Différent des méthodes existantes de Meta telles que Chameleon (qui convertit les images en marqueurs discrets puis les traite de la même manière que le texte), Transfusion conserve la représentation continue des images et évite la perte d'informations causée par la quantification.

Les expériences montrent également que Fusion évolue plus efficacement que des méthodes similaires. En termes de génération d'images, il obtient des résultats similaires à ceux des modèles spécialisés, mais avec beaucoup moins d'efforts de calcul et, étonnamment, l'intégration des données d'image améliore également les capacités de traitement de texte.

Les chercheurs ont formé un modèle de 7 milliards de paramètres sur 2 000 milliards de balises de texte et d’image. Le modèle obtient des résultats similaires à ceux des systèmes matures tels que DALL-E 2 en matière de génération d'images tout en traitant également du texte.