nouvelles

L’équipe originale de la nouvelle société StableDiffusion est officiellement annoncée !De nouveaux modèles continus rafraîchissent le paysage de la peinture IA

2024-08-02

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La maison est originaire du temple Aofei
Qubits | Compte public QbitAI

juste,L'équipe d'origine de Stable Diffusion a officiellement annoncé la nouvelle société

Robin Rombach, qui a annoncé son départ de Stability AI en mars, est l'un des deux principaux auteurs de Stable Diffusion, et une douzaine de ses partenaires d'origine ont officiellement annoncé la création d'un groupe pour démarrer une entreprise.

Nouveau nom de sociétéLaboratoire de la Forêt-Noire, Laboratoire de la Forêt-Noire . Dès ses débuts, Kuku a publié une série de 3 modèles de génération d'images, dont 2 open source.

etPrise en charge de la saisie chinoise

Quel est l'effet ? Les internautes qui l'ont vu ont dit que c'était sauvage !

Entrez le mot d'invite et testez immédiatement les effets d'écran, les données faciales et d'autres mesures de sécurité :

Une adolescente portant un masque de ski fabrique de l'origami dans une grange. Il y a un texte jaune désigné au bas de l’image. Il y a un cadre en arrière-plan avec une photo d’Obama à l’intérieur.



Juste après avoir vu cet ensemble d'images et de textes, certains internautes ont déploré qu'il s'agisse du meilleur effet de génération d'images qu'il ait jamais vu.



La particularité de cette entreprise est qu’elle n’est pas secrète.

La création a été officiellement annoncée aujourd'hui, une série de modèles ont été lancés aujourd'hui et les progrès du financement ont également été annoncés——

Financement de 32 millions de dollars US réalisé, dirigé par a16z, avec des investissements du co-fondateur d'Oculus VR Brendan Iribe, de l'ancien partenaire de YC Garry Tan, de Timo Aila, qui dirige le groupe de recherche en infographie chez NVIDIA Research, du scientifique distingué d'Apple (ancien scientifique en chef d'Intel Intelligent Systems) Vladlen Koltun et d'autres.

On peut dire que la Forêt-Noire a non seulement reçu des paris sur le marché des capitaux, mais a également gagné les faveurs des leaders de l'industrie.

Le maître de l'IA Kapasi a également envoyé un message de félicitations en ligne et a également fait l'éloge du nouveau modèle de la Forêt-Noire :

Attention, bien ! Le modèle de génération d'images open source FLUX.1 semble très puissant.



Et veuillez noter que l'accord open source est le libre Apache2.0.

Les débuts du modèle de génération d'images de la Forêt-Noire

Kapasi est excité. Faisons l’expérience visuelle de l’effet modèle de la Forêt-Noire.

Ici, Qubit a sélectionné cinq types d'effets de génération à afficher. Les images sont toutes fournies par le responsable, et il n'est pas précisé quel modèle est utilisé.

Le premier niveau est la génération de texte.

Mot d'invite : Photo d'un vieux tableau noir dans une salle de classe. Écrit à la craie sur le tableau noir, il est écrit « Fabriquons de très jolies choses ensemble » avec un cœur à la craie rouge après les mots. Le soleil brille par la fenêtre.



Le deuxième niveau est une scène non réelle + génération de texte.

Mot rapide : dans la scène sous-marine, deux hiboux sont assis à une belle table à manger. Une bougie est allumée au centre de la table. Les deux hiboux savourent un délicieux dîner ensemble. La chouette de gauche porte un smoking et la chouette de droite porte une belle robe. Il y a un sous-marin qui passe en arrière-plan avec les mots « What a Hoot » peints sur son côté. L'image sous la table montre de minuscules méduses nageant au fond, une superbe œuvre d'art numérique cinématographique.



Le troisième niveau est une véritable scène du monde réel.

Mot-clé : une photo d'une belle rue de Fribourg, avec un tramway qui passe et des gens qui marchent et font du vélo.



Le quatrième niveau est la génération de personnages réels et de personnages d'anime.

Mot d'invite : Photo de trois femmes dans une rue du centre-ville, les mains tendues vers la caméra.



Mot rapide : Belle illustration animée d'une jolie fille chat qui a l'air déprimée et tient un morceau de papier avec un sourire dessiné dessus, elle est sur le point de pleurer.



Le cinquième niveau est la génération d'images animales.

Mot rapide : Un lynx roux dans la forêt, photographié par un photographe professionnel sous une lumière vive.



Astuce : rendu en gros plan d'une créature mythique composée de fractales et de vrilles en spirale détaillées, d'une texture de peau récursive détaillée



Modèles de la série FLUX.1

Cette fois, Black Forest a sorti trois modèles de la série FLUX.1 : pro, dev et schnell.



FLUX.1 [pro] : Le son le plus fort de la série.

L'essence de la série FLUX.1, offrant une génération d'images aux performances optimales avec la meilleure conformité des commandes, la meilleure qualité visuelle, le détail de l'image et la diversité de sortie.

L'équipe de la Forêt-Noire améliore lentement les capacités de calcul d'inférence de FLUX.1 [pro] dans l'API.

Cette version est accessible via Replicate et fal.ai offrant des solutions d'entreprise dédiées et personnalisées.

FLUX.1 [dev] : Coupe en série.

Un modèle qui permet une utilisation non commerciale, est ouvert et distillé.

[dev] Distillé directement de [pro], il offre une qualité similaire et une conformité rapide tout en étant plus efficace que les modèles standards de même taille.

Vous pouvez l'essayer sur Huhuface, ou l'essayer directement sur Replicate ou fal.ai.

FLUX.1 [schnell] : Petit tourbillon de vitesse.

Le modèle le plus rapide de la série, conçu sur mesure pour le développement local et les développeurs individuels.

FLUX.1 [schnell] est disponible publiquement sous la licence Apache2.0. Les poids des modèles peuvent être interrogés sur Huohuofian. Le code d'inférence peut être trouvé sur GitHub.

Il a été pris en charge par ComfyUI et peut être utilisé directement ; il peut également être utilisé via Replicate ou fal.ai.

Ayons un ressenti intuitif !

Voici trois photos, qui sont les effets générés de la grande tasse, de la tasse moyenne et de la petite tasse ci-dessus sous différents mots d'invite, autour du thème du "gâteau".

△De gauche à droite, les modèles utilisés sont les grands, moyens et petits bonnets.

Après de nombreux tests, Qubit a constaté que si un simple mot d'invite est saisi, le temps nécessaire pour générer une image avec la version pro est compris entre 15 s et 25 s (le temps de génération sera affiché sous le tableau des résultats).



Forêt Noire dit tous les modèles FLUX.1Tous deux sont basés sur une architecture hybride de blocs transformateurs à diffusion multimodale et parallèle et s'étendent aux paramètres 12B.

Parmi les trois modèles, FLUX.1 [pro] et [dev] ont surpassé Midjourney v6.0 et DALL· en termes de qualité visuelle, de réactivité rapide, de flexibilité taille/format, de composition et de diversité de sortie E 3 (HD) et Stable. Diffusion 3-Ultra.

FLUX.1 [schnell] est appelé par l'équipe "le modèle en quelques étapes le plus avancé à ce jour".

Non seulement il se démarque de ses concurrents similaires, mais il surpasse également les modèles non compressés plus puissants comme Midjourney v6.0 et DALL·E 3(HD).

L'ensemble de la série FLUX.1 a été spécialement peaufiné pour conserver toute la diversité des résultats de la phase de pré-entraînement.

Par rapport aux technologies existantes, FLUX.1 présente les avantages suivants :



Quelqu'un vous demandera inévitablement : vous êtes les vétérans d'OG et les membres principaux de Stability AI.

Donc,Quelle est la différence entre votre nouveau modèle et leur modèle à diffusion stable ?

Les membres de l'équipe fondatrice ont répondu sur Reddit :

Même notre modèle le plus faible, Schnell, offre une meilleure qualité de construction et des temps de construction plus rapides.

L'objectif principal est de créer une nouvelle entreprise et de me surpasser.



Créé par une équipe d'auteurs principaux de SD

Après avoir présenté les informations relatives au modèle, il est temps de faire officiellement connaissance avec cette nouvelle entreprise.

laboratoire de la Forêt-Noire, vient d'être annoncé aujourd'hui.

Sur le site officiel de l'entreprise, il y a un slogan : Une nouvelle ère de création.

La mission de l'entreprise est de faire progresser des modèles d'apprentissage profond de pointe et de haute qualité pour la génération d'images et de vidéos et de les rendre accessibles au public le plus large.

Huadian apparaît !LeurLa prochaine ambition est évidente : se lancer dans le domaine de la génération vidéo.

De plus, il doit s'agir de "SOTA".



Membre principalRobin Rombach, ancien chercheur scientifique chez Stability AI.

Tout en travaillant chez Stability AI, il a été l'un des principaux développeurs du modèle Stable Diffusion et a également participé à la recherche sur SDXL, SVD et d'autres projets.

En mars de cette année, Robin a quitté Stability AI.

Le monde extérieur a déclaré que son départ avait gravement porté atteinte à l'entreprise licorne déjà chaotique - après tout, il est l'un des deux principaux acteurs de SD.



Avec le recul, Robin a obtenu ses diplômes de premier cycle et de maîtrise en physique à l'Université de Heidelberg.

En 2020, il a commencé à étudier pour un doctorat en informatique au Computer Vision Group de Heidelberg sous la direction de Björn Ommer, et en 2021, il a rejoint le groupe de recherche à l'Université de Munich.

La recherche se concentre sur la génération de modèles d’apprentissage profond, en particulier de systèmes texte-image.

Google Scholar compte près de 15 000 citations.



Par ailleurs, parmi les membres divulgués sur le site officiel, Andreas Blattmann, Axel Sauer, Dominik Lorenz, Dustin Podel, Frederic Boesel, Patrick Esser, Sumith Kulal, Tim Dockhorn, Yam Levi, Zion EnglishTous sont des membres originaux de Stability AI accessibles au public.

(Andi Holmes et Jonas Müller n'ont pas encore trouvé d'informations précises)



On peut dire que la Forêt-Noire est le noyau originel du SD qui est parti et a reparti.

Pas étonnant qu'Axel Sauer ait transmis le tweet officiel et crié fort :

Nous sommes toujours en vie !



Encore une chose

Quelle coïncidence, le même jour, Stability AI a également pris de nouvelles mesures :

Lancement de nouveaux modèles d'IAStable et rapide 3D, les responsables affirment qu'il peut être utilisé dansGénérez des images 3D en une demi-seconde

Alors que le modèle précédent prenait quelques minutes pour générer une image 3D avec des effets similaires, le nouveau modèle peut accomplir la même tâche 1 200 fois plus rapidement que le modèle existant.



Cette IA de stabilité lancée en marsLe PDG évadé, Emad Mostaque, que fait-il ?

En juin, il a officiellement annoncé où il se trouvait.IA de Schelling, "construira et prendra en charge du code source ouvert, des modèles et des ensembles de données soutenus par le financement de l'IA".

L’accent est mis sur la recherche innovante et sur une IA soigneusement construite, culturellement consciente, scientifique, éducative et créative.

Il y a trois jours, Schelling AI a publié le premier article de la série « Comment penser l'IA ».

L'article est un peu long. Les amis intéressés peuvent le rechercher et le consulter eux-mêmes. Ici, je mentionnerai les idées principales——

L’IA se développe rapidement, favorise l’open source et l’ouverture, et accélère l’innovation et la collaboration.



Et si nous soyons tous des gens honnêtes !

Le tweet annonçant la création du Laboratoire de la Forêt-Noire a été aimablement transmis par l'ancien PDG (mettez une tête de chien ici).

Liens de référence :
[1]https://blackforestlabs.ai
[2]https://news.ycombinator.com/item?id=41130620
[3]https://x.com/EMostaque
[4]https://www.reddit.com/r/StableDiffusion/comments/1eds0l9/does_anyone_have_an_update_on_when_stable/
[5]https://x.com/SchellingAI/status/1818600200232927721