nouvelles

L'IA produit des images plus rapidement et comprend mieux vos pensées. Quels secrets techniques le modèle d'image de grande beauté de Vincent a-t-il cultivé ?

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Avec le lancement de grands modèles et l'appui sur le bouton accélérateur, les diagrammes vincentiens sont sans aucun doute l'un des domaines d'application les plus en vogue.

Depuis la naissance de Stable Diffusion, il y a eu un flot incessant de grands modèles de figures vincentiennes au pays et à l'étranger, et pendant un moment, cela a eu l'impression d'être un « combat entre dieux ». En quelques mois seulement, le titre de « The Strongest AI Artist » a changé plusieurs fois de mains. Chaque itération technologique continue de repousser la limite supérieure de la qualité et de la vitesse de génération d’images IA.

Alors maintenant, nous pouvons obtenir n’importe quelle image que nous voulons en entrant quelques mots. Qu’il s’agisse d’une affiche commerciale de niveau professionnel ou d’une photo hyper réaliste, la fidélité de la cartographie IA nous a bluffé. AI a même remporté le Sony World Photography Award 2023. Avant l'annonce du grand prix, cette "photo" avait été exposée à Somerset House à Londres - si l'auteur ne la divulguait pas publiquement, personne ne pourrait découvrir que la photo a réellement été créée par l'IA.



Eldagse et son œuvre "Électricien" générée par l'IA

Comment rendre les images dessinées par l'IA plus belles ne peut être séparé des efforts persistants des techniciens de l'IA.Le sixième numéro de "AIGC Experience School" a invité Li Liang, expert technique de Doubao Vincent Chart, et Zhao Yijia, architecte de solutions NVIDIA, à nous fournir une analyse approfondie de la technologie derrière le modèle Vincent Chart pour produire des images plus belles, plus rapides, et mieux comprendre le lien dans l'esprit de l'utilisateur.

Au début de la diffusion en direct, Li Liang a d'abord disséqué en détail la mise à niveau technique du modèle de diagramme Vincent du récent grand modèle domestique « de premier plan » - le grand modèle ByteDance Doubao.

Li Liang a déclaré que les problèmes que l'équipe Doubao souhaite résoudre comprennent principalement trois aspects : premièrement, comment obtenir une correspondance plus forte des images et des textes pour répondre à l'idée de conception de l'utilisateur ; deuxièmement, comment générer des images plus belles pour offrir une expérience utilisateur plus ultime ; le troisième est de savoir comment produire des graphiques plus rapidement pour répondre aux appels de service à très grande échelle.

En termes de correspondance d'images et de textes, l'équipe Doubao a commencé avec les données, a affiné et filtré les données massives d'images et de textes, et a finalement stocké des centaines de milliards d'images de haute qualité dans la base de données. En outre, l’équipe a également spécialement formé un grand modèle de langage multimodal pour la tâche de récapitulation. Ce modèle décrira de manière plus complète et objective les relations physiques des images dans les images.



Après avoir obtenu des données d'image et de texte de haute qualité et très détaillées, si vous souhaitez mieux exploiter la force du modèle, vous devez améliorer la capacité du module de compréhension de texte. L'équipe utilise un grand modèle de langue bilingue natif comme encodeur de texte, ce qui améliore considérablement la capacité du modèle à comprendre le chinois. Par conséquent, face à des éléments nationaux tels que la « Dynastie Tang » et la « Fête des Lanternes », les modèles de diagramme Doubao et Vincent. montrer également une compréhension plus profonde.



Pour l'architecture du modèle Diffsuion, l'équipe Doubao a également injecté des secrets uniques. Elle a utilisé UNet pour une mise à l'échelle efficace, en augmentant le nombre de paramètres, le modèle graphique Doubao-Vensen a encore amélioré la compréhension des paires image-texte et les capacités de génération haute fidélité. .



Pour le style esthétique le plus évident que les utilisateurs ressentent intuitivement, l'équipe Doubao a introduit des conseils esthétiques professionnels et prête toujours attention aux préférences esthétiques des utilisateurs et du public. Parallèlement, l’équipe a également travaillé dur sur l’architecture des données et des modèles. Souvent, la comparaison entre les images obtenues par l'utilisateur et l'affichage de démonstration est comme une « exposition de l'acheteur » et une « exposition du vendeur ». En fait, l'invite donnée n'est pas suffisamment détaillée et claire pour le modèle et le diagramme Doubao Vincent. Le modèle introduit un « Rephraser », tout en suivant l'intention initiale de l'utilisateur, ajoute des descriptions plus détaillées aux mots d'invite, de sorte que tous les utilisateurs bénéficieront d'un effet de génération plus parfait.



Afin que le modèle produise des images plus rapidement et consomme moins d'argent par image, l'équipe Doubao a également donné de nouvelles idées de résolution de problèmes dans la méthode de distillation du modèle. Une réalisation représentative est Hyber-SD, qui est un nouveau modèle de distillation de diffusion. cadre qui maintient des performances quasiment sans perte tout en compressant le nombre d’étapes de débruitage.



Ensuite, l'architecte de solutions NVIDIA Zhao Yijia est parti de la technologie sous-jacente et a expliqué les deux architectures de modèles SD et DIT basées sur Unet les plus courantes de Vincent Graph et leurs caractéristiques correspondantes, et a présenté les outils Tensorrt, Tensorrt-LLM, Triton, How de NVIDIA tels que Nemo. Megatron prend en charge le déploiement de modèles et aide les grands modèles à raisonner plus efficacement.

Zhao Yijia a d'abord partagé une explication détaillée des principes du modèle derrière Stable Diffusion et a développé les principes de fonctionnement de composants clés tels que Clip, VAE et Unet. Au fur et à mesure que Sora est devenu populaire, il est également devenu populaire avec l'architecture DiT (Diffusion Transformer) derrière lui. Zhao Yijia a en outre effectué une comparaison complète des avantages du SD et du DiT sous trois aspects : la structure du modèle, les caractéristiques et la consommation d'énergie de calcul.



Lorsque vous utilisez la diffusion stable pour générer des images, vous avez souvent l'impression que le contenu des mots d'invite est présenté dans les résultats générés, mais l'image ne correspond pas à ce que vous souhaitez. En effet, la diffusion stable basée sur le rendu du texte n'est pas efficace pour contrôler les détails. de l'image, comme la composition, les mouvements, les traits du visage, les relations spatiales, etc. Par conséquent, sur la base du principe de fonctionnement de la diffusion stable, les chercheurs ont conçu de nombreux modules de contrôle pour compenser les défauts de la diffusion stable. Zhao Yijia a ajouté l'adaptateur IP représentatif et ControlNet.



Pour accélérer l'inférence du modèle de graphe vincentien intensif en calcul, le support technique de NVIDIA joue un rôle clé. Zhao Yijia a présenté les outils Nvidia TensorRT et TensorRT-LLM, qui optimisent le processus d'inférence des modèles de génération d'images et de texte grâce à une convolution haute performance, une planification efficace et des technologies de déploiement distribué. Dans le même temps, Ada, Hopper de NVIDIA et la prochaine architecture matérielle BlackWell prennent déjà en charge la formation et l'inférence FP8, ce qui apportera une expérience plus fluide à la formation des modèles.



Après six merveilleuses diffusions en direct, la « AIGC Experience Party » lancée conjointement par Volcano Engine, NVIDIA et CMO CLUB s'est conclue avec succès. Grâce à ces six programmes, je pense que tout le monde comprend mieux comment l'AIGC passe d'« intéressant » à « utile ». Nous attendons également avec impatience que « l'AIGC Experience School » non seulement reste dans la discussion sur le programme, mais accélère également le processus de mise à niveau intelligente dans le domaine du marketing dans la pratique.

Adresse de révision des six numéros de "AIGC Experience School":https://vtizr.xetlk.com/s/7CjTy