nouvelles

Tous les membres ont quitté leur ancien club, Stable Diffusion a démarré son activité et a immédiatement vaincu MJ v6.

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rapport sur le cœur de la machine

Editeur : Du Wei, Jiaqi

Le domaine de la génération d’images et de vidéos IA a ajouté un autre acteur puissant.

Vous vous souvenez de Robin Rombach, un chercheur scientifique qui a démissionné de la startup d'IA Stability AI fin mars de cette année ? En tant que l'un des deux principaux auteurs ayant développé le modèle de graphe Vincent Stable Diffusion, il a rejoint Stability AI en 2022.



Aujourd'hui, près de cinq mois après avoir quitté Stability AI, Robin Rombach a tweeté la bonne nouvelle de démarrer sa propre entreprise !

Il a créé les « Black Forest Labs » pour promouvoir les modèles d'apprentissage profond génératif de haute qualité SOTA pour les images et les vidéos et les rendre accessibles au plus grand nombre.



Les membres de l'équipe sont composés de chercheurs et d'ingénieurs exceptionnels en IA. Leurs travaux représentatifs précédents incluent VQGAN et Latent Diffusion, les modèles de diffusion stable dans le domaine de la génération d'images et de vidéos (y compris Stable Diffusion XL, Stable Video Diffusion et Rectified Flow Transformers) et Adversarial Diffusion. Distillation pour une synthèse d’images ultra-rapide en temps réel.

Il convient de noter qu'outre Robin Rombach, Stable Diffusion compte trois autres auteurs qui sont devenus membres fondateurs de l'équipe, dont Andreas Blattmann, Dominik Lorenz et Patrick Esser. Ils ont tous deux quitté Stability AI plus tôt cette année, certains spéculant qu'ils sont partis pour créer leur propre entreprise.



Actuellement, les Labs ont finalisé une ronde de financement de démarrage de 31 millions de dollars, dirigée par Andreessen Horowitz. Parmi les autres investisseurs figurent les investisseurs providentiels Brendan Iribe, Michael Ovitz, Garry Tan, Timo Aila, Vladlen Koltun et certains experts bien connus en recherche et en entrepreneuriat en IA. En outre, elle a également reçu des investissements de suivi de General Catalyst et de MätchVC.

Les Labs ont également créé un conseil consultatif, dont les membres comprennent Michael Ovitz, un magnat de la technologie possédant une vaste expérience dans le secteur de la création de contenu, et le professeur Matthias Bethge, un pionnier du transfert de style neuronal et un expert de premier plan dans la recherche sur l'IA ouverte en Europe.

Bien entendu, Black Forest Labs a lancé sa première série de modèles « FLUX.1 », qui comprend les trois variantes de modèles suivantes.



La première variante estFLUX.1 [pro] , il s'agit d'un tout nouveau modèle de diagramme SOTA Vincent avec des détails d'image extrêmement riches, de fortes capacités de conformité rapide et des styles variés. Actuellement disponible via API.

Adresse API : https://docs.bfl.ml/



Le deuxième estFLUX.1 [dév] , qui est une variante non commerciale de FLUX.1 [pro] et est distillée directement à partir de ce dernier. Ce modèle surpasse les autres modèles d'image tels que Midjourney et Stable Diffusion 3. Le code d'inférence et les poids ont été mis sur GitHub. L'image ci-dessous est une comparaison avec des modèles d'images concurrents.

Adresse GitHub : https://github.com/black-forest-labs/flux



Le troisième est open sourceFLUX.1 [rapide] , il s'agit d'un modèle en 4 étapes super efficace qui suit le protocole Apache 2.0. Ce modèle est très proche de [dev] et [pro] en termes de performances et peut être utilisé sur Hugging Face.

Visage câlin 地址 :https://huggingface.co/black-forest-labs/FLUX.1-schnell





Pendant ce temps, Black Forest Labs commence à se promouvoir.



La prochaine étape est de lancer le modèle vidéo SOTA Vincent qui est accessible à tous, et tout le monde peut l'attendre avec impatience !



Succès instantané : la série de figurines Vincent « FLUX.1 » arrive

Les trois modèles lancés cette fois par Black Forest Labs utilisent tous une architecture hybride de Transformer multimodal et à diffusion parallèle. Contrairement à d'autres sociétés qui divisent une série de modèles en "tasse moyenne", "tasse grande" et "tasse extra large" en fonction du nombre de paramètres, les membres de la famille FLUX.1 ont été uniformément élargis à une échelle énorme de 12 milliards de paramètres.



L’équipe de recherche a utilisé le framework Flow Matching pour mettre à niveau le précédent modèle de diffusion SOTA. On peut déduire des commentaires sur le blog officiel que l'équipe de recherche a suivi la méthode Rectified flow+Transformer proposée alors qu'elle travaillait encore chez Stability AI (en mars de cette année).



Lien papier : https://arxiv.org/pdf/2403.03206.pdf

Ils ont également introduit l’intégration de positions de rotation et des couches d’attention parallèles. Ces méthodes améliorent efficacement les performances du modèle en matière de génération d'images, et la vitesse de génération d'images sur les périphériques matériels est également devenue plus rapide.

Cette fois-ci, Black Forest Labs n'a pas divulgué la technologie détaillée du modèle, mais un rapport technique plus détaillé sera bientôt publié.

Les trois modèles établissent de nouvelles normes dans leurs domaines respectifs. Qu'il s'agisse de la beauté des images générées, de la façon dont les images s'intègrent aux invites de texte, de la variabilité de la taille/du rapport hauteur/largeur ou de la variété des formats de sortie, FLUX.1 [pro] et FLUX.1 [dev] vont au-delà d'une gamme de Modèles de génération d'images populaires, tels que Midjourney v6.0, DALL・E 3 (HD) et SD3-Ultra.

FLUX.1 [schnell] est le modèle en quelques étapes le plus avancé à ce jour, surpassant non seulement ses concurrents mais également de puissants modèles non distillés comme Midjourney v6.0 et le modèle DALL・E 3 (HD).

Le modèle est spécifiquement affiné pour conserver toute la diversité des résultats de la phase de pré-formation. Les modèles de la série FLUX.1 laissent également beaucoup de place à l'amélioration par rapport à la technologie de pointe actuelle.



Tous les modèles de la série FLUX.1 prennent en charge une variété de formats et de résolutions, de 0,1 à 2 mégapixels.



Certains internautes qui ont agi rapidement l'ont déjà essayé. Il semble que le « plus fort » sur lequel Black Forest Labs a souligné à plusieurs reprises n'est pas seulement l'autopromotion.

De simples mots d'invite peuvent créer un tel effet. Si vous regardez attentivement le motif du tapis d'alpaga, il n'y a aucune distorsion ou déformation.



Mot rapide : un émeu émeraude chevauchant un lama blanc.

Sans dire qu’il s’agit d’une photo générée par l’IA, il est difficile de dire s’il s’agit d’une photo prise par un photographe.



Mot rapide : Un cheval joue avec deux aligators au bord de la rivière.

Les images contenant du texte peuvent également être facilement manipulées et la profondeur de champ est également traitée pour correspondre à la sensation réelle de l'objectif.



Parmi les trois modèles, FLUX.1 [schnell], dont les performances sont légèrement inférieures, est également rapide et puissant à utiliser. Certains internautes ont partagé leur expérience de son exécution sur Mac et n'ont pu s'empêcher de soupirer, cela en vaut vraiment la peine. .



Les internautes qui ne savaient pas grand-chose des « griefs » entre les auteurs de Stable Diffusion et Stability AI ont déploré : un modèle graphique vincentien est apparu de nulle part, et il était tout simplement terriblement puissant.



Concernant l'histoire de l'auteur de Stable Diffusion et de son ancienne société Stability AI, vous pouvez lire les rapports précédents de Machine Heart : alors qu'elle était évaluée à 100 millions de dollars, les équipes derrière Stable Diffusion ont commencé à se battre pour savoir qui était le véritable officiel. ?

Outre les trois modèles vincentiens les plus puissants, Black Forest Labs retient également son « grand pas ». Avec des capacités aussi puissantes pour les modèles de génération d'images, les Black Forest Labs ont jeté des bases solides pour les modèles de génération vidéo et, comme ils le prédisent, ces scientifiques de pointe en vision par ordinateur s'orientent vers une technologie vidéo de pointe pour tous. .

Blog de l'entreprise : https://blackforestlabs.ai/announcements/