nouvelles

Le processus de peinture peut être restauré avec une seule image. Ce document a été mis en œuvre avant Paints-UNDO.

2024-07-30

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

La rubrique AIxiv est une rubrique dans laquelle Machine Heart publie du contenu académique et technique. Au cours des dernières années, la rubrique Heart of the Machine AIxiv a reçu plus de 2 000 rapports, couvrant les meilleurs laboratoires des principales universités et entreprises du monde entier, favorisant efficacement les échanges et la diffusion académiques. Si vous souhaitez partager un excellent travail, n'hésitez pas à contribuer ou à nous contacter pour un rapport. Courriel de soumission : [email protected] ; [email protected] ;

Présentation de l'auteur : Song Yiren : doctorant au ShowLab, Université nationale de Singapour. Ses principaux domaines de recherche incluent la génération d'images et de vidéos et la sécurité de l'IA.

Huang Shijie : Étudiant en deuxième année de maîtrise à l'Université nationale de Singapour, il travaille actuellement comme stagiaire en ingénierie en algorithmie chez Tiamat AI. Son principal domaine de recherche est la génération visuelle. Actuellement à la recherche d'opportunités d'admission au doctorat pour l'automne 2025.

Récemment, lvmin a présenté le dernier modèle Paints-UNDO. Cet outil de génération d'IA peut restaurer l'intégralité du processus de peinture à partir d'images, et toute la communauté AIGC est choquée.



Démo Paints-UNDO.

Il y a déjà un mois, NUS, SJTU, Tiamat et d'autres institutions ont publié conjointement un ouvrage sur des tâches similaires : ProcessPainter : Learn Painting Process from Sequence Data. Le rapport technique Paints-UNDO n’a pas encore été publié, voyons comment ProcessPainter l’implémente !



  • Titre de l'article : ProcessPainter : Apprendre le processus de peinture à partir de données de séquence
  • Lien papier : https://arxiv.org/pdf/2406.06062
  • Lien du code : https://github.com/nicolaus-huang/ProcessPainter

Ouvrez n'importe quel manuel d'instructions de peinture et vous verrez des instructions étape par étape sur la façon de dessiner. Cependant, à l'ère de l'IA générative, la génération d'images via le processus de débruitage est complètement différente du processus de peinture des peintres humains. Le processus de peinture de l'IA ne peut pas être directement utilisé pour l'enseignement de la peinture.

Pour résoudre ce problème, ProcessPainter permet au modèle de diffusion de générer pour la première fois le processus de peinture en entraînant un modèle temporel sur des données synthétiques et des vidéos de peintres humains en train de peindre. De plus, les procédés de peinture des différents thèmes et peintres varient considérablement et les styles sont très différents. Cependant, il existe actuellement très peu d’études qui ont pris le processus de peinture comme objet d’étude. Sur la base du Motion Model pré-entraîné, l'auteur de l'article a appris les techniques de peinture de l'artiste en entraînant Motion LoRA sur un petit nombre de séquences de peinture d'un artiste spécifique.



Interprétation approfondie de la technologie de base de ProcessPainter



1. Mécanisme d'attention temporelle

Utiliser l'attention temporelle pour apprendre à générer un processus de peinture est l'innovation fondamentale de ProcessPainter. La clé pour générer une séquence de peinture est que la séquence entière est le processus de changement de la même image de l'abstrait au concret, et que les images précédentes et ultérieures sont cohérentes et pertinentes dans leur contenu et leur composition. Pour atteindre cet objectif, l'auteur a introduit le module d'attention temporelle d'AnimateDiff dans Unet. Ce module est situé après chaque couche de diffusion et absorbe les informations de différentes images via le mécanisme d'auto-attention inter-images pour assurer une transition en douceur et une continuité de l'ensemble de la séquence.

Les expériences montrent que cette stratégie de formation peut maintenir des effets de peinture cohérents entre les images. La différence entre les tâches de génération du processus de peinture et de génération vidéo réside dans le fait que les changements avant et après le processus de peinture sont plus drastiques. La première image est un bloc de couleur ou un dessin au trait avec un faible degré d'achèvement, tandis que la dernière image est une peinture complète. , ce qui pose un défi pour modéliser la formation. À cette fin, l'auteur de l'article a d'abord pré-entraîné le module de synchronisation sur un grand nombre d'ensembles de données synthétiques, permettant au modèle d'apprendre le processus de peinture étape par étape de diverses méthodes SBR (Stroke-based Rendering), et a ensuite utilisé les données du processus de peinture de dizaines d'artistes pour former le modèle Painting LoRA.

2. Réseau de réplication d’œuvres d’art

Dans la pratique de la peinture, nous préférons savoir comment une œuvre est peinte, et comment continuer à l'affiner à partir d'une peinture semi-finie pour obtenir l'effet fini souhaité. Cela conduit à deux tâches : la reconstruction et l'achèvement du processus de peinture. Étant donné que les deux tâches nécessitent une entrée d’image, l’auteur de l’article a proposé le réseau de réplication des œuvres d’art.

Cette conception de réseau peut gérer l'entrée d'image de n'importe quelle image et contrôler de manière flexible la génération du processus de peinture. Semblable aux méthodes de génération contrôlables précédentes, l'auteur de l'article introduit une variante de ControlNet pour contrôler des images spécifiques dans les résultats générés afin qu'elles soient cohérentes avec l'image de référence.

3. Ensembles de données synthétiques et stratégies de formation

Étant donné que les données réelles sur le processus de peinture sont difficiles à obtenir, leur quantité est insuffisante pour soutenir une formation à grande échelle. À cette fin, les auteurs de l’article ont construit un ensemble de données synthétiques pour la pré-formation.

Plus précisément, trois méthodes de données synthétiques sont utilisées :

1. Utilisez Apprendre à peindre pour générer une séquence de peinture de traits de courbe de Bézier translucides ;

2. Utilisez la peinture de style neuronal pour générer des séquences de style de peinture à l'huile et de style de peinture chinoise en personnalisant les traits.

3. La méthode SBR (Stroke base painting) mentionnée ci-dessus consiste à ajuster une image cible de grossière à fine, ce qui signifie que les parties déjà peintes peuvent être écrasées et modifiées. Cependant, de nombreux types de peintures, telles que les peintures chinoises. et les sculptures, en raison de limitations matérielles, la partie terminée ne peut pas être modifiée de manière significative et le processus de peinture est terminé dans des zones séparées. À cette fin, l'auteur de l'article utilise SAM (segment any) et des méthodes de détection de saillance pour ajouter le contenu du canevas vierge aux sous-régions une par une, dessiner d'abord les objets saillants, puis les diffuser progressivement en arrière-plan pour les synthétiser. une vidéo du processus de peinture.

Au cours de la phase de formation, l'auteur de l'article a d'abord pré-entraîné le modèle de mouvement sur l'ensemble de données synthétiques, puis a gelé les paramètres du modèle de mouvement et formé le réseau de réplication des œuvres d'art. Lors du réglage fin du modèle de peinture LoRA, la première étape consiste à utiliser uniquement le cadre final pour affiner l'attention spatiale LoRA afin d'éviter que l'ensemble d'entraînement de peinture semi-fini ne nuise à la qualité de génération du modèle.

Après cela, les auteurs de l’article ont gelé les paramètres de l’attention spatiale LoRA et ont affiné l’attention temporelle LoRA en utilisant la séquence de peinture complète. Pendant la phase d'inférence, lors de la génération de séquences de peinture à partir de texte, ProcessPainter n'utilise pas le réseau de réplication d'œuvres d'art. Dans le cadre de la reconstruction et de l'achèvement du processus de peinture, ProcessPainter utilise un réseau de réplication d'œuvres d'art pour recevoir une entrée de référence spécifique à l'image. Afin de garantir que les images de la séquence de peinture générée correspondent le plus possible à l'image d'entrée, ProcessPainter utilise la technique d'inversion DDIM pour obtenir le bruit initial de l'image de référence et remplacer le bruit initial de l'image spécifique dans UNet.

Affichage de l'effet ProcessPainter

Le modèle de base ProcessPainter formé sur un ensemble de données synthétiques peut générer des séquences de peinture de style procédural.



En formant séparément Motion Lora sur les séquences de peinture d'un petit nombre de peintres humains, ProcessPainter peut apprendre le processus de peinture et le style d'un artiste spécifique.



Spécifiez une image de référence et ProcessPainter peut déconstruire une œuvre d'art finie en étapes de peinture, ou déduire une peinture complète à partir d'un produit semi-fini.



La combinaison de ces composants techniques permet à ProcessPainter non seulement de générer des processus de peinture à partir de texte, mais également de convertir des dessins de référence en séquences de peinture ou en peintures inachevées complètes. Cela fournit sans aucun doute de nouveaux outils pour l’éducation artistique et ouvre également une nouvelle voie pour la communauté AIGC. Peut-être que dans un avenir proche, il y aura diverses Lora sur Civitai qui simuleront le processus de peinture des peintres humains.

Pour plus de détails, veuillez lire l'article original ou visiter la page d'accueil du projet Github.