2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Coeur de machine original
Département éditorial de Machine Heart
Nous assistons à une nouvelle vague d'innovation technologique. Cette fois, l'AIGC offre aux individus des outils pour s'exprimer, rendant la création plus facile et plus populaire, mais le moteur qui la sous-tend n'est pas le « grand » modèle.
Au cours des deux dernières années, la technologie AIGC s’est développée plus rapidement que quiconque ne l’imaginait, s’étendant à tous les domaines, du texte aux images en passant par la vidéo. Les discussions sur la voie de commercialisation de l'AIGC ne se sont jamais arrêtées. Parmi elles, il existe des consensus et des divergences.
D’une part, les puissantes capacités des modèles généraux sont étonnantes et montrent un potentiel d’application dans diverses industries. En particulier, l’introduction d’architectures telles que DiT et VAR a permis à Scaling Law de passer de la génération textuelle à la génération visuelle. Sous la direction de cette règle, de nombreux grands fabricants de modèles continuent d'avancer dans le sens d'une augmentation des données de formation, des investissements en puissance de calcul et de l'accumulation de paramètres.
D'un autre côté, nous avons également vu qu'un modèle universel ne signifie pas « tout tuer ». Face à de nombreuses tâches de voie subdivisées, un modèle vertical « bien entraîné » peut obtenir de meilleurs résultats.
Alors que la technologie des grands modèles entre dans une période de mise en œuvre accélérée, cette dernière voie de commercialisation a suscité une attention croissante.
Au cours de cette évolution, FancyTech, une startup chinoise, s'est démarquée :Elle a rapidement élargi son marché avec des produits standardisés pour la génération de contenu visuel commercial et a vérifié la supériorité du « modèle vertical » au niveau de la mise en œuvre industrielle plus tôt que ses pairs.
En regardant le cercle entrepreneurial national des grands modèles, le bilan de FancyTech en matière de commercialisation est évident pour tous. Mais ce que l'on sait moins, c'est le modèle vertical et les avantages technologiques qui font que cette entreprise, née il y a seulement quelques années, est à l'avant-garde du secteur.
Dans une interview exclusive, Machine Heart a discuté avec FancyTech de l'exploration technologique qu'ils effectuent.
FancyTech lance un modèle vidéo vertical DeepVideo
Comment briser les barrières de l’industrie ?
D'une manière générale, une fois que la capacité de généralisation sans tir d'un modèle général atteint un certain niveau, il peut être utilisé pour des tâches en aval en l'affinant. C’est également ainsi que sont lancés aujourd’hui de nombreux produits grands modèles. Mais en réalité, un simple « réglage fin » ne peut pas répondre aux besoins des applications industrielles, car les tâches de génération de contenu de chaque industrie ont leur propre ensemble de normes spécifiques et complexes.
Un modèle général peut peut-être accomplir 70 % des tâches de routine, mais ce dont les clients ont réellement besoin, c'est d'un « modèle vertical » capable de répondre à 100 % de leurs besoins. Prenons l'exemple de la conception visuelle commerciale. Dans le passé, les travaux connexes étaient réalisés par des professionnels avec une accumulation à long terme, et ils devaient être conçus et ajustés en fonction des besoins spécifiques de la marque, ce qui impliquait beaucoup d'expérience manuelle. Par rapport à des indicateurs tels que l'esthétique et le respect des instructions, la « restauration des produits » est un point auquel les marques accordent plus d'attention dans cette tâche, et c'est également le facteur décisif pour savoir si les marques sont prêtes à payer.
Dans le processus d'auto-développement d'un modèle vertical pour les images/vidéos commerciales, FancyTech a démonté le défi principal : comment rendre le produit suffisamment restauré et intégré à l'arrière-plan, en particulier dans la vidéo générée, pour obtenir un mouvement contrôlable du produit sans déformation. .
Description du produit :https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef4b8 ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd
Avec le développement actuel de la technologie des grands modèles, pour la couche application, emprunter la voie de l'open source ou de la source fermée n'est plus le problème central. Le modèle vertical de FancyTech est basé sur le cadre d'algorithme sous-jacent open source, superposé à ses propres annotations de données et recyclé, et ne nécessite que quelques centaines de GPU pour des itérations de formation continue afin d'obtenir de bons résultats de génération. En revanche, les deux facteurs « données sur le produit » et « méthodes de formation » sont plus critiques pour l'effet final de la mise en œuvre.
Sur la base de l'accumulation massive de données d'entraînement 3D, FancyTech a introduit l'idée de l'intelligence spatiale pour guider la génération de contenu 2D du modèle.Plus précisément, pour la génération de contenu d'image, l'équipe a proposé un « dispositif de fonctionnalités multimodal » pour assurer la restauration des produits, et a utilisé une collecte de données spéciale pour assurer l'intégration naturelle des produits et des arrière-plans pour la génération de contenu vidéo, l'équipe a reconstruit la génération vidéo ; des liens sous-jacents, du cadre de conception directionnelle et de l'ingénierie des données pour parvenir à une génération vidéo centrée sur le produit.
Véritable frappe de réduction de la dimensionnalité : comment « l'intelligence spatiale » guide-t-elle la génération de contenu 2D ?
La principale raison pour laquelle les effets de nombreux produits de génération visuelle ne sont pas satisfaisants est que les modèles actuels de génération d'images et de vidéos apprennent souvent sur la base de données d'entraînement 2D et ne comprennent pas le monde physique réel.
Ce point a atteint un consensus dans le domaine, et certains chercheurs pensent même que dans le paradigme de l'apprentissage autorégressif, la compréhension du monde par le modèle est toujours superficielle.
Cependant, dans la tâche de subdivision de la génération visuelle commerciale, il n'est pas totalement insoluble d'améliorer la compréhension du monde physique 3D du modèle et de mieux générer du contenu 2D.
FancyTech a migré les idées de recherche dans le domaine de « l'intelligence spatiale » vers la construction de modèles visuels génératifs. Différent des modèles génératifs généraux, l'idée de l'intelligence spatiale est d'apprendre des signaux originaux obtenus par un grand nombre de capteurs et de calibrer avec précision les signaux originaux obtenus par les capteurs pour donner au modèle la capacité de percevoir et de comprendre le monde réel.
Par conséquent, FancyTech utilise le balayage lidar au lieu de la prise de vue traditionnelle en studio et a accumulé un grand nombre de paires de données 3D de haute qualité qui reflètent les différences avant et après l'intégration du produit. Il combine des données de nuages de points 3D avec des données 2D comme données de formation de modèles. pour améliorer la compréhension du modèle de la réalité.
Nous savons que lors de la génération de tout contenu visuel, la mise en forme des effets de lumière et d’ombre est une tâche très difficile. Des éléments tels que l'éclairage, les corps lumineux, le rétroéclairage et les points lumineux peuvent renforcer la superposition spatiale de l'image, mais il s'agit d'un « point de connaissance » difficile à comprendre pour les modèles génératifs.
Afin de collecter autant de données naturelles sur la lumière et les ombres que possible, FancyTech a construit des dizaines de lumières avec une luminosité et une température de couleur réglables dans chaque environnement, ce qui signifie que chaque paire dans les données massives peut être superposée avec plusieurs lumières et différentes luminosités et températures de couleur. .des changements.
Cette collecte de données à haute intensité simule l'éclairage de scènes de tournage réelles, ce qui la rend plus conforme aux caractéristiques des scènes de commerce électronique.
En combinant l'accumulation de données 3D de haute qualité, FancyTech a apporté une série d'innovations dans le cadre algorithmique, combinant de manière organique des algorithmes spatiaux avec des algorithmes d'image et vidéo, permettant au modèle de mieux comprendre l'interaction entre les objets principaux et l'environnement.
Au cours du processus de formation, le modèle peut « émerger » dans une certaine mesure une compréhension du monde physique et avoir une compréhension plus profonde de l'espace tridimensionnel, de la profondeur, de la réflexion et de la réfraction de la lumière, ainsi que des résultats de la lumière opérant dans différents médias. et différents matériaux Sachant cela, nous avons finalement obtenu une « forte réduction » et une « hyper-fusion » des produits dans les résultats générés.
Quelles sont les innovations algorithmiques derrière la « forte réduction » et l’« hyper-fusion » ?
Pour les tâches courantes de génération d'images de scènes de produits, la méthode traditionnelle actuelle utilise principalement des textures pour assurer la restauration de la partie du produit, puis met en œuvre l'édition de scènes d'images basées sur la technologie Inpainting. L'utilisateur sélectionne la zone qui doit être modifiée, entre dans l'invite ou fournit une image de référence pour guider la génération de la scène du produit. L'effet de fusion de cette méthode est meilleur, mais l'inconvénient est que la contrôlabilité des résultats de génération de scène n'est pas élevée, par exemple, elle n'est pas assez claire ou trop simple, et elle ne peut pas garantir le taux de disponibilité élevé d'une seule sortie.
En réponse à des problèmes qui ne peuvent pas être résolus par les méthodes actuelles, FancyTech a proposé un « générateur de fonctionnalités multimodal » propriétaire pour extraire les caractéristiques du produit dans plusieurs dimensions, puis utiliser ces fonctionnalités pour générer des graphiques de scène intégrés.
Le travail d'extraction des caractéristiques peut être divisé en « caractéristiques globales » et « caractéristiques locales ». Les caractéristiques globales incluent le contour, la couleur et d'autres éléments du produit, qui sont extraits à l'aide des encodeurs VAE ; les caractéristiques locales incluent les détails du produit partout, qui sont extraits ; en utilisant des réseaux de neurones graphiques. L'un des grands avantages du réseau neuronal graphique est qu'il peut extraire les informations de chaque pixel clé du produit et la relation entre les pixels clés, et améliorer la restauration des détails à l'intérieur du produit.
Dans la génération de contenu de produits en matériaux flexibles, l'effet obtenu par cette méthode est considérablement amélioré :
Description du produit :https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef4b8 ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd
Par rapport aux images, la génération de vidéos implique également le contrôle des mouvements du produit lui-même et des changements de lumière et d’ombre qu’il apporte. Pour les modèles généraux de génération vidéo, la difficulté réside dans l'incapacité de protéger indépendamment une certaine partie de la vidéo. Afin de résoudre ce problème, FancyTech a divisé la tâche en deux branches : « génération de mouvements de produits » et « intégration de scènes vidéo ».
Au niveau des données, en plus d'utiliser les ressources de données de produits uniques de FancyTech pour fournir une formation au contrôle et à la protection des produits, plusieurs ensembles de données open source sont également ajoutés pour garantir les capacités de généralisation des scènes. Le plan de formation combine l'apprentissage comparatif et l'apprentissage en cours, et permet finalement d'obtenir l'effet de protection des biens.
Laissez les dividendes de l'ère AIGC
Du modèle vertical aux gens plus ordinaires
Qu'elle soit « universelle » ou « verticale », le point final des deux voies est la commercialisation.
Le bénéficiaire le plus direct du modèle vertical de FancyTech est la marque. Dans le passé, le cycle de production d'une vidéo publicitaire pouvait durer plusieurs semaines, depuis la planification, le tournage et le montage. Mais à l'ère de l'AIGC, il ne faut que dix minutes pour créer une telle vidéo publicitaire, et le coût ne représente qu'un cinquième du coût initial.
Grâce aux avantages de données massives et uniques et à un savoir-faire industriel, FancyTech a acquis une large reconnaissance au pays et à l'étranger grâce aux avantages du modèle vertical. Elle a signé des contrats avec Samsung et LG avec des partenaires coréens et a coopéré avec Lazada, une société bien connue. plateforme de commerce électronique connue en Asie du Sud-Est ; aux États-Unis, elle a été favorisée par des marques locales telles que Kate Sommerville et Solawave ; en Europe, elle a remporté le LVMH Innovation Award et coopère en profondeur avec les clients européens.
En plus du modèle vertical de base, FancyTech fournit également des fonctionnalités de publication automatique de liens complets et de retour de données pour les courtes vidéos d'IA, entraînant une croissance continue des ventes de produits.
Plus important encore,Le modèle vertical visualise la voie à suivre par le grand public pour utiliser la technologie AIGC pour améliorer la productivité.Par exemple, un studio photo traditionnel dans la rue peut achever la transformation de son entreprise d'une simple prise de vue de portrait à une production de matériel visuel commercial de niveau professionnel sans ajouter d'équipement professionnel et de professionnels avec l'aide des produits FancyTech.
Description du produit :https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef4b8 ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd
Désormais, il suffit de prendre un téléphone portable pour que presque tout le monde puisse prendre des vidéos, enregistrer de la musique et partager ses créations avec le monde. Imaginez un avenir où l'AIGC libère à nouveau la créativité individuelle——
Permettre aux gens ordinaires de franchir les seuils professionnels et de transformer plus facilement leurs idées en réalité, permettant ainsi à la productivité de chaque industrie de faire un bond en avant et de générer davantage d'industries émergentes. À partir de ce moment, les dividendes de l'époque apportés par la technologie AIGC deviendront véritablement monnaie courante. personnes.