Nachricht

Welchen technischen Weg verfolgt FancyTech, wenn es die Kommerzialisierung von AIGC mit einem „vertikalen Modell“ anführt?

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Maschinenherz Original

Redaktion von Machine Heart

Wir erleben eine weitere Runde technologischer Innovationen. Dieses Mal stellt AIGC den Menschen Werkzeuge zur Verfügung, mit denen sie ihre Kreativität einfacher und populärer machen können, aber die treibende Kraft dahinter ist nicht das „große“ Modell.

In den letzten zwei Jahren hat sich die AIGC-Technologie schneller entwickelt, als irgendjemand gedacht hätte, und sie hat alle Bereiche erfasst, von Text über Bilder bis hin zu Videos. Die Diskussionen über den Kommerzialisierungsweg von AIGC haben nie aufgehört. Dabei gibt es Konsens und unterschiedliche Routen.

Einerseits sind die leistungsstarken Fähigkeiten allgemeiner Modelle erstaunlich und zeigen Anwendungspotenzial in verschiedenen Branchen. Insbesondere die Einführung von Architekturen wie DiT und VAR hat es Scaling Law ermöglicht, von der Textgenerierung zur visuellen Generierung überzugehen. Unter der Führung dieser Regel schreiten viele große Modellhersteller weiterhin in Richtung einer Erhöhung der Trainingsdaten, der Investition in Rechenleistung und der Akkumulation von Parametern voran.

Andererseits haben wir auch gesehen, dass ein universelles Modell nicht bedeutet, „alle zu töten“. Angesichts der vielen unterteilten Streckenaufgaben kann ein „gut trainiertes“ vertikales Modell bessere Ergebnisse erzielen.

Da die Technologie großer Modelle in eine Phase der beschleunigten Umsetzung eintritt, hat der letztgenannte Kommerzialisierungsweg rasch an Aufmerksamkeit gewonnen.

Bei dieser Entwicklung stach FancyTech, ein Startup-Unternehmen aus China, heraus:Es hat den Markt mit standardisierten Produkten für die Generierung kommerzieller visueller Inhalte rasch erweitert und die Überlegenheit des „vertikalen Modells“ auf der Ebene der industriellen Umsetzung früher als seine Mitbewerber nachgewiesen.

Wenn man sich im Kreis der inländischen Großunternehmer umsieht, ist die Kommerzialisierungsbilanz von FancyTech für jeden offensichtlich. Was jedoch weniger bekannt ist, ist das vertikale Modell und die technologischen Vorteile, mit denen dieses erst vor wenigen Jahren gegründete Unternehmen an der Spitze der Branche steht.

In einem exklusiven Interview unterhielt sich Machine Heart mit FancyTech über die technologische Erkundung, die sie unternehmen.

FancyTech veröffentlicht das vertikale Videomodell DeepVideo

Wie kann man Branchenbarrieren überwinden?

Im Allgemeinen kann die Zero-Shot-Generalisierungsfähigkeit eines allgemeinen Modells, nachdem sie ein bestimmtes Niveau erreicht hat, durch Feinabstimmung für nachgelagerte Aufgaben verwendet werden. Auf diese Weise werden heute auch viele Großmodellprodukte auf den Markt gebracht. Aufgrund der tatsächlichen Wirkung kann jedoch nur eine „Feinabstimmung“ die Anforderungen industrieller Anwendungen nicht erfüllen, da die Aufgaben der Inhaltsgenerierung in jeder Branche ihre eigenen spezifischen und komplexen Standards haben.

Ein allgemeines Modell kann möglicherweise 70 % der Routineaufgaben erledigen, aber was Kunden wirklich brauchen, ist ein „vertikales Modell“, das 100 % ihrer Anforderungen erfüllen kann. Nehmen wir als Beispiel kommerzielles visuelles Design. In der Vergangenheit wurden entsprechende Arbeiten von Fachleuten mit langjähriger Erfahrung durchgeführt und mussten entsprechend den spezifischen Anforderungen der Marke entworfen und angepasst werden, was viel manuelle Erfahrung erforderte. Im Vergleich zu Indikatoren wie Ästhetik und Einhaltung von Anweisungen ist die „Produktrestaurierung“ ein Punkt, dem Marken bei dieser Aufgabe mehr Aufmerksamkeit schenken, und sie ist auch der entscheidende Faktor dafür, ob Marken bereit sind zu zahlen.

Bei der Eigenentwicklung eines vertikalen Modells für kommerzielle Bilder/Videos hat FancyTech die Kernherausforderung zerlegt: Wie kann das Produkt ausreichend wiederhergestellt und in den Hintergrund integriert werden, insbesondere im generierten Video, um eine kontrollierbare Bewegung des Produkts ohne Verformung zu erreichen? .







视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef4 b8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd

Mit der heutigen Entwicklung großer Modelltechnologien ist für die Anwendungsschicht die Wahl des Open-Source- oder Closed-Source-Weges nicht mehr das Kernproblem. Das vertikale Modell von FancyTech basiert auf dem zugrunde liegenden Open-Source-Algorithmus-Framework, überlagert es mit eigenen Datenanmerkungen und trainiert es neu. Es erfordert nur einige hundert GPUs für kontinuierliche Trainingsiterationen, um gute Generierungsergebnisse zu erzielen. Im Gegensatz dazu sind die beiden Faktoren „Produktdaten“ und „Trainingsmethoden“ entscheidender für den endgültigen Implementierungseffekt.

Unter der Voraussetzung, umfangreiche 3D-Trainingsdaten zu sammeln, führte FancyTech die Idee der räumlichen Intelligenz ein, um die 2D-Inhaltsgenerierung des Modells zu steuern.Insbesondere für die Generierung von Bildinhalten schlug das Team ein „multimodales Feature-Gerät“ vor, um die Wiederherstellung von Produkten sicherzustellen, und nutzte eine spezielle Datenerfassung, um die natürliche Integration von Produkten und Hintergründen für die Generierung von Videoinhalten sicherzustellen, rekonstruierte das Team die Videogenerierung Die zugrunde liegenden Verknüpfungen, das Richtungsdesign-Framework und die Datentechnik ermöglichen die Realisierung einer produktzentrierten Videogenerierung.

True Dimensionality Reduction Strike: Wie steuert „räumliche Intelligenz“ die Generierung von 2D-Inhalten?

Der Hauptgrund dafür, dass die Wirkung vieler Produkte zur visuellen Generierung unbefriedigend ist, besteht darin, dass aktuelle Modelle zur Bild- und Videogenerierung häufig auf der Grundlage von 2D-Trainingsdaten lernen und die reale physische Welt nicht verstehen.

Über diesen Punkt besteht auf diesem Gebiet Konsens, und einige Forscher glauben sogar, dass das Weltverständnis des Modells unter dem autoregressiven Lernparadigma immer oberflächlich ist.

Bei der Unterteilungsaufgabe der kommerziellen visuellen Generierung ist es jedoch nicht völlig unlösbar, das Verständnis der physischen 3D-Welt des Modells zu verbessern und 2D-Inhalte besser zu generieren.

FancyTech hat Forschungsideen im Bereich „räumliche Intelligenz“ auf die Konstruktion visueller generativer Modelle übertragen. Anders als bei allgemeinen generativen Modellen besteht die Idee der räumlichen Intelligenz darin, aus den von einer großen Anzahl von Sensoren erhaltenen Originalsignalen zu lernen und die von den Sensoren erhaltenen Originalsignale genau zu kalibrieren, um dem Modell die Fähigkeit zu geben, das wahrzunehmen und zu verstehen reale Welt.

Daher verwendet FancyTech Lidar-Scanning anstelle herkömmlicher Studioaufnahmen und hat eine große Anzahl hochwertiger 3D-Datenpaare gesammelt, die die Unterschiede vor und nach der Produktintegration widerspiegeln. Es kombiniert 3D-Punktwolkendaten mit 2D-Daten als Modelltrainingsdaten um das Verständnis des Modells für die Realität zu verbessern.

Wir wissen, dass die Gestaltung von Licht- und Schatteneffekten bei der Generierung jeglicher visueller Inhalte eine sehr anspruchsvolle Aufgabe ist. Elemente wie Beleuchtung, Leuchtkörper, Hintergrundbeleuchtung und Lichtpunkte können die räumliche Schichtung des Bildes verstärken, dies ist jedoch ein „Wissenspunkt“, der für generative Modelle schwer zu verstehen ist.

Um so viele natürliche Licht- und Schattendaten wie möglich zu sammeln, baute FancyTech Dutzende Lichter mit einstellbarer Helligkeit und Farbtemperatur in jeder Umgebung, was bedeutet, dass jedes Paar in den umfangreichen Daten mit mehreren Lichtern und unterschiedlicher Helligkeit und Farbtemperatur überlagert werden kann . Änderungen.



Diese hochintensive Datenerfassung simuliert die Beleuchtung realer Aufnahmeszenen und passt so besser zu den Eigenschaften von E-Commerce-Szenen.



Durch die Kombination hochwertiger 3D-Datensammlung hat FancyTech eine Reihe von Innovationen im Algorithmus-Framework vorgenommen und räumliche Algorithmen mit Bild- und Videoalgorithmen organisch kombiniert, sodass das Modell die Interaktion zwischen Kernobjekten und der Umgebung besser verstehen kann.

Während des Trainingsprozesses kann das Modell bis zu einem gewissen Grad ein Verständnis der physischen Welt „entwickeln“ und ein tieferes Verständnis des dreidimensionalen Raums, der Tiefe, der Reflexion und Brechung des Lichts sowie der Ergebnisse der Lichtwirkung in verschiedenen Medien erlangen Mit diesem Wissen erreichten wir schließlich eine „starke Reduktion“ und „Hyperverschmelzung“ der Produkte in den generierten Ergebnissen.

Welche Algorithmusinnovationen stecken hinter „starker Reduktion“ und „Hyperfusion“?

Für gängige Bildgenerierungsaufgaben für Produktszenen verwendet die aktuelle Mainstream-Methode hauptsächlich Texturen, um die Wiederherstellung von Produktteilen sicherzustellen, und implementiert dann die Bearbeitung von Bildszenen basierend auf der Inpainting-Technologie. Der Benutzer wählt den Bereich aus, der geändert werden muss, und gibt eine Eingabeaufforderung ein oder stellt ein Referenzbild bereit, um die Generierung der Produktszene zu steuern. Der Fusionseffekt dieser Methode ist besser, der Nachteil besteht jedoch darin, dass die Ergebnisse der Szenengenerierung nicht gut kontrollierbar sind. Sie ist beispielsweise nicht klar genug oder zu einfach und kann die hohe Verfügbarkeitsrate einer einzelnen Ausgabe nicht garantieren.

Als Reaktion auf Probleme, die mit aktuellen Methoden nicht gelöst werden können, schlug FancyTech einen proprietären „multimodalen Merkmalsgenerator“ vor, um Produktmerkmale in mehreren Dimensionen zu extrahieren und diese Merkmale dann zur Generierung integrierter Szenendiagramme zu verwenden.



Die Arbeit zum Extrahieren von Merkmalen kann in „globale Merkmale“ und „lokale Merkmale“ unterteilt werden. Zu den globalen Merkmalen gehören der Umriss, die Farbe und andere Elemente des Produkts, die mithilfe von VAE-Encodern extrahiert werden unter Verwendung graphischer neuronaler Netze. Einer der großen Vorteile des graphischen neuronalen Netzwerks besteht darin, dass es die Informationen jedes Schlüsselpixels im Produkt und die Beziehung zwischen den Schlüsselpixeln extrahieren und die Wiederherstellung von Details im Produkt verbessern kann.

Bei der Inhaltsgenerierung flexibler Materialprodukte wird der mit dieser Methode erzielte Effekt deutlich verbessert:



视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef4 b8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd

Im Vergleich zu Bildern erfordert die Erstellung von Videos auch die Bewegungssteuerung des Produkts selbst und die damit verbundenen Licht- und Schattenveränderungen. Bei allgemeinen Videogenerierungsmodellen liegt die Schwierigkeit darin, dass ein bestimmter Teil des Videos nicht unabhängig geschützt werden kann. Um dieses Problem zu lösen, teilte FancyTech die Aufgabe in zwei Zweige auf: „Generierung von Produktbewegungen“ und „Integration von Videoszenen“.

  • Im ersten Schritt hat FancyTech einige gezielte Bewegungsplanungslösungen entwickelt, um die Bewegung des Produkts auf dem Bildschirm zu steuern, was einer „Fixierung“ des Produkts in jedem Bild des Videos im Voraus entspricht;
  • Im zweiten Schritt wird durch das Steuermodul eine steuerbare Videogenerierung erreicht. Das Steuermodul verfügt über ein flexibles Design und ist mit verschiedenen Architekturen wie U-net und DiT kompatibel, sodass es einfach erweitert und optimiert werden kann.

Auf Datenebene werden nicht nur die einzigartigen Produktdatenressourcen von FancyTech zur Bereitstellung von Kontrolltraining und Produktschutz genutzt, sondern auch mehrere Open-Source-Datensätze hinzugefügt, um Funktionen zur Szenenverallgemeinerung sicherzustellen. Der Trainingsplan kombiniert vergleichendes Lernen und Kurslernen und erzielt letztendlich die Schutzwirkung von Gütern.

Lassen Sie die Dividenden der AIGC-Ära zu

Angefangen vom vertikalen Modell bis hin zu eher gewöhnlichen Menschen

Ob „universal“ oder „vertikal“, der Endpunkt beider Wege ist die Kommerzialisierung.

Der direkteste Nutznießer des vertikalen Modells von FancyTech ist die Marke. In der Vergangenheit konnte der Produktionszyklus eines Werbevideos von der Planung über die Aufnahme bis zum Schnitt mehrere Wochen dauern. Aber in der AIGC-Ära dauert die Erstellung eines solchen Werbevideos nur zehn Minuten und die Kosten betragen nur ein Fünftel der ursprünglichen Kosten.

Mit den Vorteilen umfangreicher einzigartiger Daten und Branchen-Know-how hat FancyTech durch die Vorteile des vertikalen Modells große Anerkennung erlangt. Es hat Verträge mit Samsung und LG unterzeichnet und mit Lazada zusammengearbeitet. Bekannte E-Commerce-Plattform in Südostasien; in den Vereinigten Staaten wurde sie von lokalen Marken wie Kate Sommerville und Solawave bevorzugt, sie wurde mit dem LVMH Innovation Award ausgezeichnet und steht für eine intensive Zusammenarbeit mit europäischen Kunden.

Zusätzlich zum vertikalen Kernmodell bietet FancyTech auch vollverknüpfte automatische Veröffentlichungs- und Datenrückmeldungsfunktionen für KI-Kurzvideos, was zu einem kontinuierlichen Wachstum der Produktverkäufe führt.

Noch wichtiger ist,Das vertikale Modell visualisiert den Weg für die breite Öffentlichkeit, die AIGC-Technologie zur Verbesserung der Produktivität zu nutzen.Beispielsweise kann ein traditionelles Fotostudio auf der Straße mit Hilfe der Produkte von FancyTech die Geschäftstransformation von einer einfachen Porträtaufnahme zu einer kommerziellen Bildmaterialproduktion auf professionellem Niveau vollziehen, ohne professionelle Ausrüstung und Fachkräfte hinzuzufügen.



视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650930567&idx=1&sn=b5fc3170aa4c3be6701f2a21fb898120&chksm=84e439f9b393b0ef4 b8ce1756e95c59a9dce6205478feea33a68b6a594d400cd0ac1b62e037f&token=2065772502&lang=zh_CN#rd

Mittlerweile kann fast jeder, indem er einfach ein Mobiltelefon in die Hand nimmt, Videos aufnehmen, Musik aufnehmen und seine Kreationen mit der Welt teilen. Stellen Sie sich eine Zukunft vor, in der AIGC erneut die individuelle Kreativität freisetzt –

Dadurch können normale Menschen berufliche Grenzen überschreiten und Ideen leichter in die Realität umsetzen, wodurch die Produktivität jeder Branche gesteigert und weitere aufstrebende Branchen entstehen können. Von diesem Moment an werden die Vorteile der AIGC-Technologie wirklich alltäglich sein. Menschen.