Le modèle graphique Wensheng open source le plus puissant a changé de mains du jour au lendemain ! Créé par l'équipe originale de SD, le modèle de génération vidéo SOTA sera publié

2024-08-02

Objets intelligents (compte public :zhidxcom）
auteurvanille
modifierLi Shuiqing

Le modèle graphique Wensheng open source le plus puissant a changé de mains du jour au lendemain !

Zhidongxi a rapporté le 2 août qu'hier soir, le suzerain du modèle graphique open source WenshengDiffusion stableL'équipe d'origine a annoncé le lancement d'un nouveau modèle de génération d'imagesFLUX.1。

FLUX.1 contientÉdition Professionnelle, Édition Développeur, Édition ExpressParmi les trois modèles, les deux premiers ont battu les modèles grand public tels que SD3-Ultra, et le plus petit FLUX.1 [schnell] a également surpassé les modèles plus grands tels que Midjourney v6.0 et DALL·E 3.

▲ Score FLUX.1 ELO par rapport aux modèles grand public

FLUX.1 poGénération de texte, suivi d'instructions complexesetGénéré à la main présente des avantages. Ce qui suit est un exemple d'images générées par sa version professionnelle la plus puissante, le modèle FLUX.1[pro]. Vous pouvez voir que même lorsque de grandes sections de texte et plusieurs caractères sont générés, il n'y a aucune erreur dans les détails tels que les caractères et les mains humaines. .

▲ Exemple d'image générée par FLUX.1[pro]

FLUX.1 est désormais disponible sur la plateforme open source Replicate, voici mes conseils pour l'utiliser »Le plus petit gâteau de la Forêt-Noire au monde, de la taille d'un doigt, entouré d'arbres de la Forêt-Noire», les images générées sur les trois modèles ont pris respectivement17,5 s, 12,2 s, 1,5 s。

▲Comparaison de trois générations de modèles

FLUX.1 ouvre également une API (Application Programming Interface) et est tarifé en fonction du nombre d'images. Les prix des trois modèles sont tour à tour par image.0,055 USD, 0,03 USD, 0,003 USD(Environ 0,4, 0,22 et 0,022 yuan RMB).

La société derrière FLUX.1 s'appelleLaboratoires de la Forêt Noire (Laboratoire de la Forêt-Noire), fondé par l’équipe originale de Stable Diffusion et plusieurs anciens chercheurs de Stability AI.À l’instar de Stability AI, Black Forest s’engage à développer des modèles multimodaux de haute qualité et à les rendre open source.31 millions de dollars(environ 225 millions de RMB) en financement de démarrage.

Black Forest annonce également qu'il sortira bientôtModèle vidéo SOTA (actuellement n°1 en indicateurs techniques) . À en juger par la démo publiée, la fluidité, la stabilité et la simulation physique ont atteint le premier niveau. La société pourrait devenir un cheval noir dans le domaine de la génération vidéo.

▲Aperçu du modèle de génération vidéo

Adresse d'essai de trois modèles :

https://replicate.com/black-forest-labs/flux-pro

https://replicate.com/black-forest-labs/flux-dev

https://replicate.com/black-forest-labs/flux-schnell

1. Bon pour générer du texte et des mains humaines, trois modèles peuvent être générés en quelques secondes à grande échelle

FLUX.1 présente des performances supérieures en termes de qualité visuelle, de détails d'image et de diversité de sortie. Il présente trois caractéristiques majeures :Génération de texte, composition complexe, dessin à la main humaine。

La génération de texte est très importante dans la génération d’images et de vidéos, et de nombreux modèles ont tendance à confondre les lettres qui se ressemblent. FLUX.1 peut gérer des mots délicats avec des lettres répétées, comme générer unGâteau Schnell Flux Forêt-Noire：

▲Gâteau Schnell Flux Forêt-Noire

En matière de composition, le FLUX.1 excelle dans le suivi d'instructions complexes, comme l'emplacement des éléments dans l'image. Par exemple, FLUX.1 interprète parfaitement cette invite : Trois sorciers magiques se tiennent sur une table jaune, chacun tenant une pancarte. À gauche, un sorcier en robe noire tient une pancarte indiquant « AI » ; au milieu, une sorcière en robe rouge tient une pancarte indiquant « IS » ; à droite, un sorcier en robe bleue tient une pancarte indiquant « EST » ; "AI" Un panneau qui dit "cool".

▲Composition complexe

Les mains humaines ont toujours été la zone la plus durement touchée par les modèles génératifs multimodaux. Bien que l’image de la main humaine générée par FLUX.1 ne soit pas encore parfaite, elle a réalisé de grands progrès.

▲Main d'œuvre

FLUX.1 totalÉdition Professionnelle, Édition Développeur, Édition ExpressTrois versions.

dans,FLUX.1[pro]Il s'agit de la version la plus avancée avec un suivi instantané, une qualité visuelle, des détails d'image et une diversité de sortie de haut niveau, offrant des solutions d'entreprise personnalisées pour les utilisateurs professionnels.

▲ Exemple d'image générée par FLUX.1[pro]

FLUX.1[dév]Destiné aux applications non commerciales, il est affiné du FLUX.1[pro] et offre une qualité et des capacités similaires tout en étant plus efficace que les modèles standards de même taille.

▲ Exemple d'image générée par FLUX.1[dev]

FLUX.1[rapide]Le plus rapide des trois modèles, il est personnalisé pour le développement local et un usage personnel et est disponible publiquement sous la licence standard Apache 2.0.

▲ Exemple d'image générée par FLUX.1[schnell]

FLUX.1 est désormais disponible sur la plateforme open source Replicate et peut être exécuté dans le cloud avec une seule ligne de code, ou les utilisateurs peuvent télécharger les poids des modèles et les exécuter par programme. L'API de FLUX.1 est également ouverte simultanément, et les prix des trois modèles sont les suivants :0,055 USD, 0,03 USD, 0,003 USD(Environ 0,4, 0,22 et 0,022 yuan RMB).

2. DéfaiteMJ V6DALLE 3, le rapport technique sera bientôt publié

En termes de performances, FLUX.1 a été spécialement affiné pour conserver toute la diversité des résultats lors de la pré-formation, établissant de nouvelles normes dans de nombreux aspects tels que le respect des instructions, la qualité visuelle, les changements de taille/longueur et largeur, etc.

Parmi eux, deux modèles, FLUX.1 [pro] et [dev], ont dépassé les modèles populaires tels que Midjourney v6.0, DALL·E 3 et SD3-Ultra dans cinq critères d'évaluation.

En tant que modèle léger, FLUX.1[schnell] est non seulement meilleur que ses concurrents similaires, mais également meilleur que les puissants modèles non distillés tels que Midjourney v6.0 et DALL·E 3.

▲ Comparaison des performances FLUX.1 avec les modèles grand public

De plus, tous les modèles FLUX.1 prennent en charge plusieurs formats d'image et résolutions de 0,1 et 2,0 mégapixels.

▲ Modifications du rapport hauteur/largeur/résolution

Comment obtenir des performances aussi puissantes ?

En termes d'architecture de modèle, FLUX.1 adopte une architecture hybride basée sur des modules Transformer multimodaux et à diffusion parallèle, et l'étend à 12B paramètres.

L'équipe a amélioré le modèle de diffusion de pointe en créant Flow Matching, et a amélioré les performances du modèle et l'efficacité du matériel en combinant l'intégration de position rotative et des couches d'attention parallèles. Un rapport technique plus détaillé sera publié prochainement.

trois,Dakota du SudL'équipage d'origine,2.25100 millionsTour de graines, je veux envoyerSOTAmodèle vidéo

Black Forest Lab a été créé par l'équipe fondatrice de Stable Diffusion. Les travaux antérieurs de l'équipe comprenaient également le modèle de génération d'images de haute qualité VQGAN, le modèle de génération vidéo Stable Video Diffusion, etc.

Parmi les 5 auteurs originaux de Stable Diffusion,4Les membres qui ont rejoint Stability AI et ont continué à développer les versions ultérieures de SD, notamment Robin Rombach, Andreas Blattmann, Dominik Lorenz et Patrick Esser, font tous partie de l'équipe fondatrice de Black Forest Labs.

▲Auteur de Stable Diffusion et équipe fondatrice du Black Forest Lab

L'équipe a déclaré que ses convictions fondamentales étaient de développer des modèles largement accessibles, de promouvoir l'innovation et la collaboration dans les communautés de recherche et universitaires et d'accroître la transparence des modèles.

Black Forest Labs annonce son achèvement31 millions de dollars(environ 225 millions de RMB)Financement d'un tour de table, dirigé par la célèbre institution de capital-risque a16z (Andreessen Horowitz), Brendan Iribe, PDG du fabricant de réalité virtuelle Oculus, Garry Tan, PDG de l'incubateur de startups YC, le chercheur NVIDIA Timo Aila et d'autres experts et sociétés d'IA ont également participé à l'investissement, et a également reçu des investissements de suivi de la part de fonds de premier rang tels que General Catalyst.

Le conseil consultatif de l’équipe comprend l’ancien président de Disney, Michael Ovitz, qui possède une vaste expérience dans le secteur de la création de contenu, et le professeur Matthias Bethge, un pionnier du transfert de style neuronal.

Maître de l'IA qui vient de démarrer son entrepriseAndreï Capasi(Andrej Karpathy) a envoyé ses bénédictions à l'équipe de la Forêt-Noire et a déclaré que "le modèle open source de génération d'images FLUX.1 semble très puissant".

▲Commentaires de Kapasi

Ancien leader de l'équipe fondatrice - ancien PDG de Stability AIEmad Mostak(Emad Mostaque) a également envoyé un message de félicitations et a déclaré : « Cela a été un honneur de travailler avec eux auparavant, et je pense qu'ils continueront à repousser les limites dans le processus de génération de chaque pixel. »

▲Commentaires Mostaq

Dans la prochaine étape du travail, Black Forest Trailer publiera unModèle vidéo SOTA Vincent , "Permet à tout le monde de convertir du texte en vidéo." Le modèle sera construit sur FLUX.1, "permettant une création et un montage précis en haute définition et à une vitesse sans précédent".

▲Aperçu du modèle de génération vidéo

Conclusion : des chevaux noirs émergent dans le domaine des grands modèles multimodaux

Alors que de nombreux grands fabricants et start-ups sont fous des vidéos Vincent, le domaine des images Vincent a soudainement inauguré un cheval noir. Le FLUX.1 « né de nulle part » affiche non seulement d'excellentes performances, surmontant les difficultés de génération de texte, de composition complexe, de dessin manuel, etc., mais répond également aux besoins des différents utilisateurs avec des versions diversifiées.

S'appuyant sur la forte force de l'équipe d'origine de Stable Diffusion, le Laboratoire de la Forêt-Noire a obtenu un généreux financement d'amorçage et a attiré l'attention et le soutien de nombreux leaders de l'industrie. Les modèles vidéo qui seront publiés à l'avenir insuffleront une nouvelle vitalité dans le domaine de la vidéo Vincent.

nouvelles

Le modèle graphique Wensheng open source le plus puissant a changé de mains du jour au lendemain ! Créé par l'équipe originale de SD, le modèle de génération vidéo SOTA sera publié

Introduction

mes coordonnées