Nachricht

Enthüllung der Geheimnisse von FancyTech: die Algorithmusinnovation hinter „starker Reduktion“ und „Hyperkonvergenz“

2024-08-25

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

In der jüngsten Welle des technologischen Wandels wird AIGC (durch künstliche Intelligenz generierte Inhalte) zu einem wichtigen Werkzeug für den Selbstausdruck und die Kreation von Menschen. Die treibende Kraft dieser Welle technologischer Innovationen sind nicht nur riesige Algorithmenmodelle, sondern tiefgreifend angepasste Lösungen, die sich auf die Bedürfnisse bestimmter Bereiche konzentrieren. In den letzten zwei Jahren hat sich AIGC schneller entwickelt als viele erwartet, und seine Anwendungen haben sich von der Textgenerierung auf die gesamte Palette von Bildern und Videos ausgeweitet.
Kürzlich führte „Heart of the Machine“ ein exklusives Interview mit einem chinesischen Startup-Unternehmen namens FancyTech. Das Unternehmen erweiterte nicht nur schnell den Markt durch die Bereitstellung standardisierter kommerzieller Produkte zur Generierung visueller Inhalte, sondern war auch das erste Unternehmen, das die Vorteile des vertikalen Modells in praktischen Anwendungen unter Beweis stellte.
„Heart of the Machine“ stellt außerdem FancyTechs neuestes vertikales Videomodell DeepVideo im Detail vor, das die Herausforderung, Produkte präzise wiederherzustellen und auf natürliche Weise in Videos zu integrieren, erfolgreich meistert und sicherstellt, dass Produkte unverändert in Bewegung bleiben.
Das vertikale Modell von FancyTech basiert auf dem zugrunde liegenden Open-Source-Algorithmus-Framework, überlagert es mit eigenen Datenanmerkungen und trainiert es neu. Es erfordert nur einige hundert GPUs für kontinuierliche Trainingsiterationen, um gute Generierungsergebnisse zu erzielen. Im Gegensatz dazu sind die beiden Faktoren „Produktdaten“ und „Trainingsmethoden“ entscheidender für den endgültigen Implementierungseffekt.
Basierend auf der Ansammlung einer großen Menge an 3D-Trainingsdaten führte FancyTech die Idee der räumlichen Intelligenz ein, um die 2D-Inhaltsgenerierung des Modells zu steuern. Im Hinblick auf die Generierung von Bildinhalten schlug das Team ein „multimodales Feature-Gerät“ vor, um die Wiederherstellung von Waren sicherzustellen, und stellte durch spezielle Datenerfassung die natürliche Integration von Waren und Hintergrund sicher. Im Hinblick auf die Generierung von Videoinhalten baute das Team die zugrunde liegenden Verknüpfungen von Videogenerierung, Richtungsdesign-Framework und Datentechnik neu auf, um Videos zu erstellen, die sich auf Produkte konzentrieren.
Darüber hinaus zeigt „Heart of the Machine“ ausführlich, wie FancyTech Forschungsideen zur räumlichen Intelligenz auf Modelle zur visuellen Generierung anwendet. Im Gegensatz zu herkömmlichen generativen Modellen analysiert die räumliche Intelligenz große Mengen an Sensordaten und führt eine präzise Kalibrierung durch, sodass das Modell die reale Welt wahrnehmen und verstehen kann.
FancyTech verwendet Lidar-Scanning anstelle herkömmlicher Studioaufnahmen und hat eine große Menge hochwertiger 3D-Daten gesammelt. Diese Daten werden mit 2D-Daten kombiniert, um als Modelltrainingsdaten zu dienen, was das Verständnis des Modells für die reale Welt erheblich verbessert.
Für die anspruchsvolle Aufgabe, Licht- und Schatteneffekte bei der Generierung visueller Inhalte zu formen, setzte FancyTech in jeder Umgebung mehrere Lichter mit einstellbarer Helligkeit und Farbtemperatur ein, um so viele natürliche Licht- und Schattendaten wie möglich zu sammeln und die räumliche Schichtung der generierten Bilder zu verbessern.
Diese hochintensive Datenerfassung simuliert die Beleuchtung realer Aufnahmeszenen und passt so besser zu den Eigenschaften von E-Commerce-Szenen. Durch die Kombination hochwertiger 3D-Datensammlung hat FancyTech eine Reihe von Innovationen im Algorithmus-Framework vorgenommen und räumliche Algorithmen mit Bild- und Videoalgorithmen organisch kombiniert, sodass das Modell die Interaktion zwischen Kernobjekten und der Umgebung besser verstehen kann.
Die Erforschung der Kommerzialisierung hat im Bereich AIGC nie aufgehört. Obwohl ein Konsens besteht, gibt es auch unterschiedliche Entwicklungsrichtungen. „Heart of the Machine“ enthüllte in dem Artikel FancyTechs Algorithmusinnovation hinter „starker Reduktion“ und „Hyperfusion“.
Der „multimodale Feature-Generator“ von FancyTech extrahiert Produktfeatures in mehreren Dimensionen und nutzt diese Features dann, um Bilder zu generieren, die sich in die Szene einfügen. Die Merkmalsextraktion ist in globale Merkmale und lokale Merkmale unterteilt: Zu den globalen Merkmalen gehören grundlegende Elemente wie der Umriss und die Farbe des Produkts, die mithilfe von VAE-Encodern extrahiert werden. Lokale Merkmale konzentrieren sich auf die Details des Produkts und werden über grafische neuronale Netze extrahiert. Diese Methode kann die internen Merkmale des Produkts im Detail erfassen und die Beziehung zwischen Details und Schlüsselpixeln verbessern, wodurch die Genauigkeit der Wiederherstellung von Produktdetails verbessert wird.
Auf dem Weg zur Kommerzialisierung besteht das ultimative Ziel darin, kommerziellen Erfolg zu erzielen, unabhängig davon, ob ein allgemeines oder ein vertikales Modell übernommen wird. FancyTech hat seinen Reichtum an einzigartigen Daten und Branchenkenntnissen genutzt, um sich auf inländischen und ausländischen Märkten große Anerkennung zu verschaffen, und hat Kooperationsbeziehungen mit internationalen Partnern wie Samsung, LG und der südostasiatischen E-Commerce-Plattform Lazada in den Vereinigten Staaten aufgebaut Kate Somerville und wird von lokalen Marken wie Solawave in Europa bevorzugt, hat den LVMH Innovation Award gewonnen und verfügt über eine intensive Zusammenarbeit mit europäischen Kunden.
Darüber hinaus bietet FancyTech auch vollverknüpfte automatische Veröffentlichungs- und Datenrückmeldungsfunktionen für KI-Kurzvideos, wodurch das kontinuierliche Wachstum der Produktverkäufe effektiv vorangetrieben wird.
Die erfolgreiche Anwendung des vertikalen Modells fördert nicht nur die Entwicklung des kommerziellen Marktes, sondern erleichtert auch der breiten Öffentlichkeit den Einsatz der AIGC-Technologie zur Verbesserung der Produktivität.
Mit der Verbreitung der Technologie kann mittlerweile fast jeder über sein Mobiltelefon Videos drehen, Musik aufnehmen und seine Kreationen mit der Welt teilen. Wir freuen uns auf eine Zukunft, in der die AIGC-Technologie erneut die persönliche Kreativität entfesseln wird – indem sie es gewöhnlichen Menschen ermöglicht, problemlos berufliche Grenzen zu überschreiten und Ideen in die Realität umzusetzen, wodurch Produktivitätssprünge in allen Lebensbereichen gefördert und weitere aufstrebende Industrien entstehen.
Text/Lin Ke, der sich auf KI konzentriert
Bericht/Feedback