2024-08-18
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Auteur|Xuushan, éditeur|Manman Zhou
“
Beaucoup de gens s’attendent à ce que ce soit le prochain Midjourney.
”
Il s’agit peut-être de la startup d’IA la plus performante de l’histoire.
À peine 15 jours après sa création, la startup d'IA Black Forest Labs a déjà levé 32 millions de dollars américains en financement d'amorçage et a lancé la série FLUX.1 de grands modèles d'IA Vincent.
De plus, même Grok-2, un grand modèle d'IA récemment produit par Musk, a rapidement lancé une fonction de graphe vincentien avec son support, attirant des millions d'internautes à participer à l'interaction.
Et contrairement à la fonction d'image vincentienne d'autres modèles d'IA, il n'y a presque aucune restriction sur les images générées sur Grok-2, et elles sont assez réalistes.
Que vous souhaitiez que Steve Jobs taquine le chat ou que Zuckerberg et Musk se rencontrent hors ligne dans la "Cage Octogonale", Grok-2 peut satisfaire vos souhaits. On peut constater que le modèle fonctionne très bien en termes de capacités de compréhension sémantique, d'alignement et de génération d'images (sauf pour la sécurité).
Quelle est l'origine de cette entreprise ? Comment cela a-t-il rendu les internautes fous, et même Musk était-il prêt à le choisir pour alimenter ses produits principaux ? Après une enquête approfondie, M. Silicon Rabbit a finalement dévoilé le mystère des Black Forest Labs.
01
L’opportunité de créer des Black Forest Labs commence avec Stability AI, une autre entreprise licorne d’IA.
En fait, l’équipe de start-up actuelle de 15 personnes de Black Forest Labs est entièrement issue de Stability AI. On peut dire que la création des Black Forest Labs a été une fuite collective des collaborateurs.
Le fondateur de Black Forest Labs, Robin Rombach, était un ancien chercheur scientifique chez Stability AI et l'un des deux piliers fondamentaux de Stability AI.
Il a étudié la physique à l'Université de Heidelberg et a commencé ses études de doctorat dans le groupe de vision par ordinateur de l'université en 2020. Robin s'est concentré sur les modèles d'apprentissage profond, notamment dans le domaine des graphes vincentiens, puis a rejoint l'Université de Munich en 2021 avec l'équipe de recherche scientifique.
Au cours de son mandat chez Stability AI, il a dirigé le développement du grand modèle d'IA graphique vincentien.Diffusion stable. Au début, Stable Diffusion pouvait être qualifiée de suzerain dans le domaine de l’imagerie IA, provoquant un choc dans l’industrie. La valorisation de Stability AI a également dépassé le milliard de dollars américains, ce qui en fait l'une des licornes de l'IA.
Mais le développement de Stability AI prendra un tournant décisif en 2024. Selon les rapports, les coûts annuels de Stability AI s’élèvent à environ 99 millions de dollars, mais ses revenus ne s’élèvent qu’à 11 millions de dollars, ce qui entraîne un grave déséquilibre entre les revenus et les dépenses. Par la suite, l’ancien PDG de Stability AI, Emad Mostaque, a licencié au moins 19 cadres supérieurs de l’entreprise en mars de cette année.
Robin Rombach a également recommencé à chercher une issue. Black Forest Labs est pour lui un nouveau départ et un nouveau point de départ pour de nombreux anciens employés de Stability AI. Lors de la création de Black Forest Labs, de nombreux employés de Stability AI ont déclaré avec enthousiasme : « Nous sommes en direct ! »
Actuellement, il existe trois versions des modèles de la série FLUX.1, à la fois open source et fermée. Parmi eux, FLUX.1 [pro] est la version fermée la plus puissante, conçue pour les applications professionnelles qui recherchent des performances optimales ; FLUX.1 [dev] est un modèle d'IA open source qui offre des performances plus efficaces en termes de qualité d'image et d'invite ; mots, mais pas pour un usage commercial ; FLUX.1 [schnell] est une version open source conçue pour le développement local et un usage personnel. C'est la plus rapide des trois versions et nécessite la plus petite mémoire.
Les trois modèles disposent de versions d’essai ouvertes sur Replicate et Models. En seulement un demi-mois, FLUX.1 [dev]Visage qui fait des câlinsLe nombre de téléchargements sur a dépassé 200 000, et le nombre de téléchargements de FLUX.1 [schnell] a dépassé 580 000, et le nombre d'expériences a atteint 380 millions de fois.
Lien vers l'expérience d'inscription : FLUX.1 [schnell] : https://replicate.com/black-forest-labs/flux-schnell
02
Bien que les modèles de la série FLUX.1 soient créés par l'équipe originale de Stable Diffusion, cela ne signifie pas qu'ils sont des répliques de Stable Diffusion.
Les médias ont rassemblé Flux, SD3 Medium, Auraflow et Midjourney pour examen. On peut voir que le modèle graphique vincentien actuel, relativement excellent, génère différentes photos pour la même invite de texte.
Tout d'abord, la première invite : "Illustration dessinée à la main d'une araignée géante poursuivant une femme dans la jungle. Scène extrêmement effrayante, douloureuse, sombre et effrayante, avec une atmosphère effrayante et suggestive."
On peut voir que Flux utilise très bien les lumières et les ombres pour créer un sentiment d'horreur. Le design de l'araignée est en effet effrayant, les pattes sont pointues et le visage de l'araignée est très réaliste. Le ton cyan d'Auraflow ne produit pas d'effet sombre et effrayant, et l'image globale est stylisée. Le style noir et blanc de SD3 Medium donne aux gens une forte impression de croquis. Le design de l’araignée est détaillé et terrifiant, mais la caractérisation est un peu incohérente.
La deuxième évaluation examine principalement la capacité des générateurs d'images à comprendre l'espace. L'invite de texte indique : "Un chien se tient au sommet d'un téléviseur avec le mot "Décrypter" affiché à l'écran. À gauche, une femme en costume tenant une pièce de monnaie, et à droite, un robot debout sur un secouriste. kit. Toute la scène était surréaliste.
L'image générée par Flux est la plus proche de la description, elle met tous les éléments là où ils doivent être. La composition globale est équilibrée, le design de chaque élément et le style rétro-futuriste répondent aux exigences du surréalisme. Mais il présente également quelques défauts, comme le fait que le personnage ait une main supplémentaire. SD3 Medium s'est classé deuxième. La conception globale répondait également aux exigences de description du texte, mais la précision manquait. Par exemple, le chien de style dessin animé devait être debout au lieu d'être assis. Auraflow présente des lacunes dans la précision de la compréhension du texte et dans la qualité des images qu'il présente.
Le troisième conseil se lit comme suit : "Une photo haute résolution d'une rue animée de la ville la nuit. Des néons illuminent la scène. Les gens marchent le long du trottoir, les voitures passent et les vendeurs ambulants vendent des hot-dogs. Les lumières se reflètent sur la route glissante. Le style général. Hyper-réaliste, souci du détail et de l'éclairage, l'enseigne au néon indique « Décrypté ». Cette astuce se concentre sur l'examen du réalisme par les principaux générateurs d'images.
L'image générée par Flux est riche en détails et bien éclairée. L'image représente bien la rue animée, avec des panneaux clés clairs et des images vives de piétons. SD3 est également capable de montrer une composition équilibrée, un éclairage réaliste et des éléments soigneusement intégrés, mais la représentation des piétons est un peu mince.
Enfin, le média étranger Decrypt a également placé Flux et Midjourney dans deux évaluations, et a finalement jugé Flux plus fort.
La première invite de texte se lit comme suit : "Une photo en noir et blanc d'une femme aux longs cheveux raides, assise par terre devant un canapé moderne, vêtue d'une tenue entièrement noire qui met en valeur ses courbes. Elle regarde la caméra avec confiance. Posant, elle ses jambes fines sont exposées alors qu'elle s'accroupit sur un fond minimaliste qui accentuait sa pose élégante photographiée par Peter Lindbergh à l'aide d'un objectif Hasselblad X2D 105 mm à ouverture f/4 pour un attrait visuel amélioré.
Decrypt pense que Flux capture les exigences de l'invite avec des poses naturelles, des arrière-plans contextuels et un rendu détaillé. Morphologiquement parlant, c'est le plus précis. Midjourney montre des images vives et des détails riches dans les images, mais il lui manque la superposition d'images comme Flux, et la représentation de la posture du corps n'est pas aussi précise que Flux.
La deuxième invite de texte indiquait "Prise de vue complète d'un chat blanc jouant du piano, portant des lunettes de soleil et un chapeau, portant une tenue violette de style hawaïen sur un fond de studio gris, pour un usage commercial."
Decrypt estime que Flux répond aux exigences d'une photo du corps entier, d'un fond de studio gris et de vêtements désignés. La composition est professionnelle et exquise et répond pleinement aux exigences rapides. Midjourney fournit des plans rapprochés et l'image est expressive, mais elle ne répond pas aux exigences des prises de vue du corps entier et des arrière-plans de studio.
On peut voir que Flux a été à l'avant-garde de l'industrie en termes de détails photographiques et de compréhension de l'espace et de la stylisation. Il peut rivaliser avec Midjourney, et est encore meilleur que Midjourney à certains égards.
03
On peut dire que le domaine de l'IA Wenshengtu est actuellementIA générativeL'une des pistes les plus en vogue dans le domaine. Actuellement, Google, Meta et OpenAI se tournent tous vers ce domaine. Les capacités démontrées par FLUX.1 ont amené de nombreuses personnes à s'attendre à ce qu'il devienne le prochain Midjourney.
Mais la clé pour devenir le prochain Midjourney réside dans la commercialisation.
Le plan de base de Midjourney, le pionnier dans le même domaine, coûte 96 dollars américains par an et peut générer environ 200 images par mois, ce qui équivaut à 25 images par dollar. Le plan de base d'Ideogram coûte 84 $ par an et peut générer jusqu'à 400 images par mois, soit 50 images par dollar.
Black Forest s'est associé à Fal AI, le développeur du modèle open source Auraflow, pour prendre en charge la génération de cloud. Ces modèles sont également disponibles pour des tests gratuits sur Replicate.com. Une fois que les utilisateurs ont atteint leur quota quotidien gratuit, ils peuvent choisir d'utiliser le modèle Flux Pro pour générer 33 images pour 1 $ ou d'utiliser Flux Schell pour générer 333 images pour 1 $.
Par rapport à Midjourney et Ideogram, Black Forest offre aux utilisateurs plus de choix. Mais cela ne représente pas le succès commercial de la Forêt-Noire. Le coût du maintien d’un modèle d’IA générative est très élevé. Prenons l'exemple de Stability AI. Selon Forbes, Stability AI dépense environ 8 millions de dollars par mois en coûts et salaires, mais ses revenus ne s'élèvent qu'à 1,2 million de dollars, ce qui est loin de couvrir les coûts. Aujourd’hui, la commercialisation est également devenue un lien « bloqué » pour Ideogram et Pika Labs AI.
Par conséquent, afin de véritablement surpasser Midjourney, la manière dont la Forêt-Noire équilibre ses revenus et ses dépenses sera la clé de sa domination sur le grand modèle vincentien de l’IA.
04
Black Forest Labs et Musk semblent d'accord sur la création d'un "chatbot IA anti-éveil", et aucun des deux ne veut imposer trop de restrictions à l'IA.
Le « chatbot IA anti-éveillé » fait ici référence à un chatbot IA qui évite délibérément d’adopter certaines opinions politiquement correctes ou socialement éveillées. Il ne filtrera pas les sujets controversés lorsqu’il y sera confronté. Grok est évidemment porteur du concept de « chatbot IA anti-éveil » de Musk.
En termes d'évaluation de la sécurité, bien que Grok ait mentionné ses six « interdictions », y compris les restrictions de contenu, les droits d'auteur, la complexité du traitement des images, etc., en fait, à en juger par les photos générées, Grok n'a presque aucun tabou, y compris les célébrités, la pornographie, la violence, etc. Les images générées sont devenues populaires sur la plateforme sociale X.
Bien que plusieurs agences de réglementation aient exprimé leur mécontentement à l’égard de la plateforme sociale X, Musk semble toujours imperturbable. Après la sortie de Grok-2, Musk a également permis aux utilisateurs de publier des images d'IA générées par Grok directement sur la plate-forme sans aucune invite de filigrane générée par l'IA ou par Grok.
Musk a mentionné sur la plateforme sociale X en 2022 que fixer des limites à l’IA réduirait la sécurité du modèle d’IA. "Entraîner l'IA est facile à réveiller. En d'autres termes, le danger de mentir (de l'IA) est mortel." Certains médias ont émis l'hypothèse que c'était peut-être parce que le modèle de la série FLUX.1 n'imposait pas trop de restrictions qui ont conduit Musk à choisir Grok. pour prendre le relais Entrez dans les modèles de la série FLUX.1.
selonLe VergeSelon l'évaluation de nombreux médias, le modèle d'IA d'image similaire de Google, Imagen, et DALL·E 3 d'OpenAI ont également refusé de générer des mots rapides avec des « connotations dangereuses », mais Grok a répondu rapidement et a rapidement généré des images.
Il y a à peine un demi-mois, lors de la création de Black Forest Labs, l’objectif de l’entreprise était « d’accroître la confiance des gens dans la sécurité de ces modèles ». Un demi-mois plus tard, Black Forest Labs et Musk se sont rangés du côté de « l'absence de restrictions sur l'IA » et ont ouvert la boîte noire du modèle vincentien d'IA.
Face à de nombreuses controverses, les Black Forest Labs choisissent désormais d’éviter d’en parler et tentent de déplacer le débat vers d’autres directions. Son membre du conseil d'administration, Anjney Midha, a critiqué Google sur la plateforme sociale X le 14 août. GémeauxLors de sa première sortie, il existait une discrimination raciale cachée et d'autres situations dans le domaine du graphisme vincentien, et il a été déclaré que de telles situations ne se produiraient pas dans les modèles de la série FLUX.1.
Nous pouvons voir qu'en termes de capacités graphiques vincentiennes, les modèles de la série FLUX.1 sont en effet puissants et peuvent déjà rivaliser avec Midjourney. Mais en termes de sécurité, Black Forest Labs semble avoir choisi une voie différente des joueurs évoluant sur la même piste.
L'absence de garde-fous de sécurité fera-t-elle de Black Forest Labs l'acteur dominant absolu dans le domaine du graphisme vincentien ? Ou est-ce que cela détruira d'un seul coup la nouvelle popularité des modèles de la série FLUX.1 ? Nous verrons.