nouvelles

Révéler les secrets de FancyTech : l’innovation algorithmique derrière la « forte réduction » et « l’hyper-convergence »

2024-08-25

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Dans la récente vague de changements technologiques, l’AIGC (contenu généré par l’intelligence artificielle) est en train de devenir un outil important pour l’expression et la création des gens. La force motrice de cette vague d’innovation technologique ne réside pas seulement dans de vastes modèles d’algorithmes, mais également dans des solutions profondément personnalisées axées sur les besoins de domaines spécifiques. Au cours des deux dernières années, AIGC s'est développé plus rapidement que prévu, et ses applications se sont étendues de la génération de texte à la gamme complète d'images et de vidéos.
Récemment, "Heart of the Machine" a mené une interview exclusive avec une startup chinoise appelée FancyTech. L'entreprise a non seulement rapidement élargi son marché en proposant des produits de génération de contenu visuel commercial standardisés, mais a également été la première à prouver les avantages du modèle vertical dans des applications pratiques.
"Heart of the Machine" présente également en détail le dernier modèle vidéo vertical de FancyTech, DeepVideo, qui relève avec succès le défi consistant à restaurer avec précision et à intégrer naturellement les produits dans les vidéos, garantissant que les produits restent inchangés en mouvement.
Le modèle vertical de FancyTech est basé sur le cadre d'algorithme sous-jacent open source, superposé à ses propres annotations de données et recyclé, et ne nécessite que quelques centaines de GPU pour des itérations de formation continue afin d'obtenir de bons résultats de génération. En revanche, les deux facteurs « données sur le produit » et « méthodes de formation » sont plus critiques pour l'effet final de la mise en œuvre.
Basé sur l'accumulation d'une grande quantité de données d'entraînement 3D, FancyTech a introduit l'idée de​​l'intelligence spatiale pour guider la génération de contenu 2D du modèle. En termes de génération de contenu d'image, l'équipe a proposé un « dispositif de fonctionnalités multimodal » pour assurer la restauration des biens, et a assuré l'intégration naturelle des biens et de l'arrière-plan grâce à une collecte de données spéciale. En termes de génération de contenu vidéo, l'équipe a reconstruit les liens sous-jacents entre la génération vidéo, le cadre de conception directionnelle et l'ingénierie des données pour générer des vidéos centrées sur les produits.
De plus, « Heart of the Machine » révèle en profondeur comment FancyTech applique les idées de recherche sur l'intelligence spatiale aux modèles de génération visuelle. Contrairement aux modèles génératifs traditionnels, l’intelligence spatiale analyse de grandes quantités de données de capteurs et effectue un calibrage précis, permettant au modèle de percevoir et de comprendre le monde réel.
FancyTech utilise le balayage lidar au lieu de la prise de vue traditionnelle en studio et a accumulé une grande quantité de données 3D de haute qualité. Ces données sont combinées avec des données 2D pour servir de données d'entraînement du modèle, ce qui améliore considérablement la compréhension du modèle du monde réel.
Pour la tâche difficile de façonner les effets de lumière et d'ombre dans la génération de contenu visuel, FancyTech a déployé plusieurs lumières avec une luminosité et une température de couleur réglables dans chaque environnement pour collecter autant de données de lumière naturelle et d'ombre que possible afin d'améliorer la superposition spatiale des images générées.
Cette collecte de données à haute intensité simule l'éclairage de scènes de tournage réelles, ce qui la rend plus conforme aux caractéristiques des scènes de commerce électronique. En combinant l'accumulation de données 3D de haute qualité, FancyTech a apporté une série d'innovations dans le cadre algorithmique, combinant de manière organique des algorithmes spatiaux avec des algorithmes d'image et vidéo, permettant au modèle de mieux comprendre l'interaction entre les objets principaux et l'environnement.
L'exploration de la commercialisation ne s'est jamais arrêtée dans le domaine de l'AIGC. Bien qu'il existe un consensus, il existe également différentes orientations de développement. "Heart of the Machine" révèle dans l'article l'innovation algorithmique de FancyTech derrière la "forte réduction" et "l'hyper-fusion".
Le « générateur de fonctionnalités multimodal » de FancyTech extrait les caractéristiques du produit dans plusieurs dimensions, puis utilise ces fonctionnalités pour générer des images qui se fondent dans la scène. L'extraction de caractéristiques est divisée en caractéristiques globales et caractéristiques locales : les caractéristiques globales incluent des éléments de base tels que le contour et la couleur du produit, qui sont extraits à l'aide d'encodeurs VAE ; les caractéristiques locales se concentrent sur les détails du produit et sont extraites via des réseaux neuronaux graphiques. Cette méthode peut capturer en détail les caractéristiques internes du produit. La relation entre les détails et les pixels clés, améliorant ainsi la précision de la restauration des détails du produit.
Sur le chemin de la commercialisation, qu’il s’agisse d’un modèle général ou d’un modèle vertical, le but ultime est d’atteindre le succès commercial. FancyTech a exploité sa richesse de données uniques et son expertise industrielle pour acquérir une large reconnaissance sur les marchés nationaux et étrangers et a établi des relations de coopération avec des partenaires internationaux tels que Samsung, LG et la plateforme de commerce électronique Lazada d'Asie du Sud-Est aux États-Unis ; Kate Somerville et favorisée par des marques locales telles que Solawave ; en Europe, elle a remporté le LVMH Innovation Award et entretient une coopération approfondie avec des clients européens.
En outre, FancyTech fournit également des fonctions de publication automatique de liens complets et de retour de données de courtes vidéos d'IA, stimulant ainsi efficacement la croissance continue des ventes de produits.
L'application réussie du modèle vertical favorise non seulement le développement du marché commercial, mais permet également au grand public d'utiliser plus facilement la technologie AIGC pour améliorer la productivité.
Avec la diffusion de la technologie, presque tout le monde peut désormais filmer des vidéos, enregistrer de la musique et partager ses créations avec le monde via son téléphone mobile. Nous attendons avec impatience un avenir dans lequel la technologie AIGC libérera à nouveau la créativité personnelle, permettant aux gens ordinaires de franchir facilement les seuils professionnels et de transformer leurs idées en réalité, favorisant ainsi des gains de productivité dans tous les domaines et donnant naissance à des industries plus émergentes.
Text/Lin Ke qui se concentre sur l'IA
Rapport/Commentaires