2024-08-19
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Nouveau rapport de sagesse
Editeur : Service éditorial
[Introduction à la nouvelle sagesse]Le roi de la cartographie IA qui prend d'assaut le monde open source est né ! Un demi-mois après sa sortie, Flux est devenu une alternative privilégiée à Midjourney. Des développeurs de tous horizons ont commencé à peaufiner LoRA avec leurs propres photos, permettant à une seule personne de maîtriser plusieurs styles.
Après Midjourney, je n’ai jamais vu des gens aussi fous d’une application d’imagerie IA.
L’émergence de Flux signifie que la génération d’images IA est entrée dans une nouvelle étape.
Musk lui-même a déclaré qu’il ne pouvait plus distinguer le vrai du faux.
Tout d’abord, une photo réaliste d’un conférencier TED a pris d’assaut Internet. Plus tard, Grok 2, qui a intégré le modèle Flux, a brisé les restrictions de garde-fou et est devenu fou parmi les internautes.
Récemment, les développeurs de Flux ont également commencé à affiner leurs propres modèles LoRA.
HuggingFace Lianchuang s'est exclamé que Flux a complètement pris d'assaut le monde de l'IA open source. Il n'a jamais vu un modèle avec autant de modèles dérivés/plateformes en ligne/démo occupant la hot list en même temps.
Le développeur qui l'a peaufiné a déclaré : « Flux+LoRA va renverser le marché de l'IA générative. Vous pouvez être n'importe où, porter n'importe quoi, porter n'importe quels vêtements que vous aimez et générer différentes versions de vous-même. »
Par exemple, transformez-vous en Superman.
Prenez l'épée rétractable de lumière et d'ombre et transformez-vous en chevalier Jedi. Que la Force soit avec vous.
De plus, les photos de sculptures de glace, de consoles de jeux Switch, d'oreilles d'elfe, de défilés de mode, etc. ne sont que des mots.
Balayez vers la gauche ou la droite pour afficher
Affiner votre propre LoRA est désormais devenu un nouveau jouet pour de nombreux développeurs.
Non, tout le réseau est inondé par Flux+LoRA.
Une seule personne peut former les "Avengers"
Rowan Cheung, le fondateur de Rundown AI, a utilisé ses propres photos comme données, a utilisé Flux pour entraîner un modèle LoRA, puis l'a lié à Runway pour le faire bouger.
Comme indiqué ci-dessous, une image similaire à un haut-parleur TED est générée.
Après avoir réalisé la vidéo, la personne sur la photo a vraiment pris vie et ressemblait à un orateur. Le seul inconvénient est qu'il n'y a que 2-3 doigts de la main droite vers l'arrière.
L'autre s'est généré en sauvant le monde sous le nom de Superman.
Avec l'animation, je suis enfin devenu un héros chez Marvel.
Régénérez-vous en photo de porter des vêtements à la mode et de marcher sur le podium.
Le public des deux côtés a applaudi avec enthousiasme, et cela a été considéré comme une expérience de podium sur scène T.
De plus, Rowan Cheung a également généré différents styles de lui-même, qui sont cohérents avec la scène et n'ont aucun sentiment de désobéissance.
Balayez vers la gauche ou la droite pour afficher
Il estime que même si les graphiques générés par l’IA ne peuvent toujours pas remplacer des films/publicités complets, ils ont déjà de nombreuses utilisations importantes, en particulier pour les créateurs de contenu.
Par exemple, ces images d’IA sont utilisées pour produire des aperçus et des images d’accompagnement pour les actualités, ainsi que du matériel supplémentaire (B-roll) dans des courts métrages.
Après l'avoir lu, l'internaute Min Choi a déclaré qu'elle pourrait former un "Avengers".
L'ancien directeur technique d'Intel a également peaufiné son propre modèle LoRA sur l'A100, ce qui lui a coûté 7 dollars (environ 50 yuans) en 75 minutes.
Balayez vers la gauche ou la droite pour afficher
Il y a aussi des développeurs qui se sont transformés en films d'horreur.
Balayez vers la gauche ou la droite pour afficher
Je ne peux pas faire la différence entre l'IA et la réalité
La plus populaire est la version affinée du « surréalisme » : il devient de plus en plus difficile de distinguer la frontière entre l'imagination et la réalité.
Est-ce une vraie photo ou une personne dessinée par l'IA ?
Après une formation avec LoRA dans Flux-Dev, des progrès incroyables ont été réalisés en termes de complexité et de réalisme des scènes.
N’importe quel style peut être peaufiné
En outre, différents styles de mise au point font également leur apparition.
style de pixels
Les développeurs ont utilisé le style du légendaire ZX Spectrum comme exemple pour affiner la génération d'images de type pixel LoRA.
Dans l'image générée ci-dessous, il y a des images telles que Dragon Ball Sun Wukong, Marvel Iron Man, Chuan Jianguo (apparemment), etc.
Balayez vers la gauche ou la droite pour afficher
griffonnages animés
Davis Brown, concepteur de produits d'IA générative PS, a peaufiné un modèle half_illustration basé sur Flux.
Les images qu'il génère sont en partie dans le style de vraies photos et en partie dans le style de graffitis animés.
Avant chaque dessin, il vous suffit d'ajouter - Dans le style TOK au début de l'invite.
Ensuite, décrivez en détail l’effet souhaité et le film peut être produit immédiatement.
À l’avenir, j’ai l’impression que je n’aurai plus besoin d’utiliser PS, je pourrai simplement utiliser l’IA pour générer des images.
invite : Dans le style de TOK, une pose d'action dramatique avant-gardiste éditoriale photo d'une femme aux cheveux bleus courts portant des lunettes de soleil rondes farfelues des années 70 tirant ses lunettes vers le bas en regardant vers l'avant, à Tokyo avec de grandes structures en marbre et des bonsaïs au coucher du soleil avec une veste illustrée vibrante entourée d'illustrations de fleurs, de fumée, de flammes, de glaces, d'étincelles, de rock and roll
invite : Dans le style de TOK, une pose d'action dramatique éditoriale photo d'une personne aux yeux perçants, aux tatouages sur le visage, avec un chapeau seau créatif, debout à Tokyo avec de grandes structures en marbre et des arbres blancs violets dans un terrain de basket, avec une veste bouffante vintage illustrée de style streetwear, une chemise noire, un volcan en arrière-plan, entouré d'illustrations de fumée, de flammes et de fleurs, de brouillard, de points d'exclamation, de lignes tirant vers l'extérieur, de personnages de minion, de papillons
Il existe d'autres photos de style graffiti.
Balayez vers la gauche ou la droite pour afficher
Jiugongge
La plate-forme de données open source LAION a utilisé le modèle Flux pour former un modèle capable de générer 3x3 photos de lui-même en grille de neuf carrés sous différents angles.
Désormais, un selfie suffira.
Balayez vers la gauche ou la droite pour afficher
différents âges
L'apparence de la vie d'une personne peut être vue à travers Flux+LoRA.
Balayez vers la gauche ou la droite pour afficher
Autre exemple :
Balayez vers la gauche ou la droite pour afficher
Super jouabilité
Le protagoniste d’aujourd’hui, FLUX.1, utilise une nouvelle technologie de « flow matching ».
Alors que les modèles de diffusion précédents créaient une image en supprimant progressivement le bruit à partir d'un point de départ aléatoire, la correspondance de flux adopte une approche plus directe, apprenant les changements précis nécessaires pour transformer le bruit en une image réelle.
Cette différence d'approche se traduit par une esthétique unique et de grands avantages en termes de vitesse et de contrôle.
Texte : La plupart d'entre eux peuvent être obtenus
L’un des défis de la génération texte-image est de convertir avec précision le texte en représentations visuelles. FLUX.1 gère cela très bien, même dans des scènes complexes comme les mèmes.
rapide:
C'est un mème de « bon chien » sous l'eau. Texte : « Le changement climatique est une bonne chose ». C'est un mème de « bon chien » sous l'eau. Texte : « Le changement climatique n'est pas un gros problème »
rapide:
Un mème d'un acteur célèbre faisant une drôle de tête avec le texte "Quand tu oublies tes lignes" dans une police originale Un mème d'un acteur célèbre faisant une drôle de tête avec le texte "Quand tu oublies tes lignes" dans une police originale
La lumière et la texture sont toutes deux bonnes
FLUX.1 possède une compréhension approfondie de la lumière, des ombres et des textures pour produire systématiquement des images de haute qualité.
rapide:
Une image détaillée d'un jardin où les fleurs sont faites de verre délicat, reflétant magnifiquement la lumière du soleil. Une image détaillée d'un jardin où les fleurs sont faites de verre délicat, reflétant magnifiquement la lumière du soleil.
Dans cette image, l'accent n'est pas seulement mis sur la texture du verre, mais également sur la façon dont la lumière est réfractée et transmise à travers les pétales, créant ainsi un effet lumineux.
rapide:
Plumes de hibou fusionnant avec les feuilles d'automne dans le vent Plumes de hibou fusionnant avec les feuilles d'automne dans le vent
Le style artistique : plus qu’une imitation
FLUX.1 semble avoir maîtrisé les principes qui sous-tendent différents styles artistiques, rendant possibles des réinterprétations créatives.
rapide:
aquarelle de peinture de vague célèbre aquarelle de peinture de vague célèbre
Cette version « aquarelle » de « La Grande Vague au large de Kanagawa » implique non seulement que les vagues emblématiques faisaient partie des données d'entraînement du modèle, mais souligne également comment les techniques de « flux » se rapprochent du mouvement de la peinture à travers l'eau, le papier et l'encre.
Composition : Donner du sens à la scène
FLUX.1 excelle dans la construction de scènes complexes, en plaçant les objets et les personnages de manière à la fois réaliste et visuellement attrayante.
rapide:
Une image réaliste d'une bibliothèque enchantée où les livres flottent dans les airs et les étagères sont faites de racines anciennes et tordues. Une image réaliste d'une bibliothèque enchantée où les livres flottent dans les airs et les étagères sont faites de racines anciennes et tordues.
"Flow" : un nouveau langage visuel
La technologie de correspondance de flux utilisée dans FLUX.1 donne à l'image une sensation unique de mouvement organique et de fluidité, comme si les pixels eux-mêmes coulaient.
rapide:
Chien avec des motifs de fourrure tourbillonnants à la Van Gogh
Il y a toujours un outil qui peut vous aider à le faire
Nous pouvons résumer le processus de génération d'image comme suit : prenez quelques pixels d'entrée, éloignez-les légèrement du bruit, vers le motif créé par votre saisie de texte, et répétez ce processus jusqu'à ce que vous atteigniez un nombre défini d'étapes.
Le processus de réglage fin prend chaque paire image/annotation de l'ensemble de données et met légèrement à jour son mappage interne.
Vous pouvez enseigner n'importe quoi à un modèle de cette façon, à condition qu'il puisse être représenté par une paire image-titre : personnage, décor, support, style, genre.
Gauche : généré à l'aide du modèle FLUX.1 d'origine ; droite : généré sur le modèle fofr/flux-bad-70s-food en utilisant les mêmes indices et graines
Au cours de la formation, le modèle apprendra à associer ces concepts à des chaînes de texte spécifiques. Dans l'invite, vous devez ajouter cette chaîne pour activer cette association.
Par exemple, vous souhaitez peaufiner un modèle de « super-héros de style bande dessinée ».
Premièrement, un grand nombre d'images sur les personnages doivent être collectées sous forme d'ensemble de données, comprenant, mais sans s'y limiter : différentes scènes, costumes, éclairages et peut-être même différents styles artistiques.
Ensuite, choisissez un mot ou une phrase courte et inhabituelle qui servira de déclencheur : quelque chose d'unique qui n'entrera pas en conflit avec d'autres concepts ou ajustements. Vous pouvez choisir des termes comme « mauvaise nourriture des années 70 » ou « JELLOMOLD ».
Après la formation, il vous suffit de donner une invite contenant un mot déclencheur, tel que "Scène de mauvaise nourriture des années 1970 lors d'une fête à San Francisco", et le modèle invoquera les concepts spécifiques que vous avez ajoutés lors du réglage fin.
C'est aussi simple que cela.
Après avoir compris le principe, nous pouvons choisir n’importe quel outil pour affiner le modèle.
Gauche : généré à l'aide du modèle FLUX.1 d'origine ; droite : généré sur le modèle fofr/flux-bad-70s-food en utilisant les mêmes indices et graines
Par exemple, un gars nommé Matt Wolfe, après avoir vu la génération cool ci-dessus, était curieux et l'a essayé.
En conséquence, il a renversé...
Les images d’IA créées peuvent être considérées comme la différence entre l’exposition d’un acheteur et l’exposition d’un vendeur.
C'est ce qu'il a généré——
C'est celui de quelqu'un d'autre -
Les deux images sont comparables. La différence réside dans l’utilisation ou non du réglage fin LoRA.
Le petit frère stimulé est immédiatement allé faire quelques recherches. Il a été agréablement surpris de constater que le modèle LoRA est très petit, seulement 2 à 500 Mo, et peut être facilement combiné avec les modèles existants.
Ce qui est encore plus surprenant, c'est que le modèle d'IA peut améliorer la qualité de l'image, produire un style unique ou générer des personnages spéciaux, tels que Mario ou Bob l'éponge, sans nécessiter de puissance de calcul supplémentaire ni de recyclage complet.
Malheureusement, sur Glif, que j'utilise si bien, LoRA ne peut pas être utilisé dans Flux.
Il a découvert qu'une façon d'utiliser Flux consiste à utiliser ComfyUI.
Je pense que beaucoup de gens connaissent cette image.
Alternativement, vous pouvez utiliser des plateformes telles que Replicate, HuggingFace Spaces ou Fal AI.
Après l'avoir essayé sur la plateforme Fal, j'ai découvert qu'il coûtait 0,035 USD par mégapixel. Vous pouvez donc exécuter le modèle 29 fois pour seulement 1 USD, ce qui est assez rentable.
Ici, FLUX.1 dev, Flux Realism LoRA, FLUX.1 pro, etc. sont tous disponibles.
Sans dire un mot, le petit frère a choisi Flux Realism LoRA.
Après un débogage minutieux, j'ai défini la taille du pas d'inférence sur 28 et CFG sur 2.
Les images obtenues sont incroyables !
S’il y a un défaut, c’est que l’éclairage des rides du front n’est toujours pas naturel.
Ensuite, le petit frère a importé avec enthousiasme l'image dans Gen-3 Alpha. Sur la base de l'invite qu'il a saisie, Gen-3 Alpha a généré une vidéo.
Sauf qu'à un certain moment, le micro dans ma main a soudainement "flotté", et il n'y avait rien de mal avec le reste de la vidéo.
Le gars a réessayé et a généré une deuxième vidéo.
Cette fois, le microphone semblait trop immobile, comme figé sur place.
De plus, le petit frère a également rejoint la tendance à se changer partout sur Internet, générant une série de photos hilarantes.
Balayez vers la gauche ou la droite pour afficher
Enfin, j'ai utilisé Gen-3 Alpha pour en faire une vidéo, me permettant ainsi qu'à Deadpool de marcher dans la même scène de film.
Références :
https://x.com/dr_cintas/status/1824480995317350401
https://x.com/Gorden_Sun/status/1824843049421484309
https://replicate.com/blog/fine-tune-flux
https://x.com/laion_ai/status/1824814210758459548
https://www.youtube.com/watch?v=_rjto4ix3rA
https://www.youtube.com/watch?v=rDu481JFwqM