Nachricht

KI produziert Bilder schneller und versteht Ihre Gedanken besser. Welche technischen Geheimnisse hat das hochschöne Vincent-Bildmodell gepflegt?

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Mit der Einführung großer Modelle und dem Drücken des Gaspedals gehören Vincentian-Diagramme zweifellos zu den angesagtesten Anwendungsrichtungen.

Seit der Geburt von Stable Diffusion gab es im In- und Ausland einen endlosen Strom großer Modelle vinzentinischer Figuren, und es fühlte sich eine Zeit lang wie ein „Kampf zwischen Göttern“ an. In nur wenigen Monaten wechselte der Titel „The Strongest AI Artist“ mehrfach den Besitzer. Jede technologische Iteration verschiebt weiterhin die Obergrenze der Qualität und Geschwindigkeit der KI-Bilderzeugung.

Jetzt können wir jedes gewünschte Bild erhalten, indem wir ein paar Wörter eingeben. Ob es sich um ein professionelles Werbeplakat oder ein hyperrealistisches Foto handelt, die Genauigkeit der KI-Kartierung hat uns erstaunt. AI gewann sogar die Sony World Photography Awards 2023. Bevor der Hauptpreis bekannt gegeben wurde, war dieses „Foto“ im Somerset House in London ausgestellt worden – wenn der Autor es nicht öffentlich preisgab, erfuhr vielleicht niemand, dass das Foto tatsächlich von KI erstellt wurde.



Eldagse und sein KI-generiertes Werk „Electrician“

Wie man die von der KI gezeichneten Bilder schöner macht, kann nicht von den beharrlichen Bemühungen der KI-Techniker getrennt werden.In der sechsten Ausgabe der „AIGC Experience School“ wurden der technische Experte von Doubao Vincent Chart, Li Liang, und der NVIDIA-Lösungsarchitekt Zhao Yijia eingeladen, uns eine eingehende Analyse der Technologie hinter dem Vincent Chart-Modell zu liefern, um ein schöneres, schnelleres und besseres Verständnis zu erzielen des Geistes des Benutzers.

Zu Beginn der Live-Übertragung analysierte Li Liang zunächst ausführlich die technische Aufrüstung des Vincent-Diagrammmodells des jüngsten inländischen Großmodells der „Spitzenklasse“ – des Großmodells ByteDance Doubao.

Li Liang sagte, dass die Probleme, die das Doubao-Team lösen möchte, hauptsächlich drei Aspekte umfassen: erstens, wie eine stärkere Bild- und Textanpassung erreicht werden kann, um den Vorstellungen des Benutzers gerecht zu werden, und zweitens, wie schönere Bilder generiert werden können, um ein ultimativeres Benutzererlebnis zu bieten; Die dritte Möglichkeit besteht darin, Diagramme schneller zu erstellen, um extrem große Serviceeinsätze zu bewältigen.

Was den Bild- und Textabgleich angeht, begann das Doubao-Team mit Daten, verfeinerte und filterte die riesigen Bild- und Textdaten und speicherte schließlich Hunderte Milliarden hochwertiger Bilder in der Datenbank. Darüber hinaus trainierte das Team speziell ein multimodales großes Sprachmodell für die Rekapitulationsaufgabe. Dieses Modell wird die physikalischen Beziehungen von Bildern in Bildern umfassender und objektiver beschreiben.



Wenn Sie über qualitativ hochwertige und detaillierte Bild- und Textdaten verfügen und die Stärke des Modells besser nutzen möchten, müssen Sie die Fähigkeit des Textverständnismoduls verbessern. Das Team verwendet ein muttersprachliches zweisprachiges Großsprachenmodell als Textkodierer, was die Fähigkeit des Modells, Chinesisch zu verstehen, erheblich verbessert. Daher werden im Vergleich zu nationalen Elementen wie „Tang-Dynastie“ und „Laternenfest“ die Doubao- und Vincent-Diagrammmodelle verwendet zeigen auch ein tieferes Verständnis.



Für die Diffsuion-Modellarchitektur hat das Doubao-Team auch einzigartige Geheimnisse eingebracht. Durch die Erhöhung der Anzahl der Parameter verbesserte das Doubao-Vensen-Graphmodell das Verständnis von Bild-Text-Paaren und die Möglichkeiten zur Generierung von High-Fidelity .



Für den offensichtlichsten ästhetischen Stil, den Benutzer intuitiv spüren, hat das Doubao-Team professionelle ästhetische Beratung eingeführt und achtet stets auf die ästhetischen Vorlieben der Benutzer und der Öffentlichkeit. Gleichzeitig arbeitete das Team intensiv an der Daten- und Modellarchitektur. Oftmals ähnelt der Vergleich zwischen den Bildern, die der Benutzer erhält, und der Demo-Anzeige einer „Käufershow“ und einer „Verkäufershow“. Tatsächlich ist die Eingabeaufforderung für das Modell und das Doubao-Vincent-Diagramm nicht detailliert und klar genug Das Modell führt einen „Rephraser“ ein, folgt dabei der ursprünglichen Absicht des Benutzers und fügt den Eingabeaufforderungswörtern detailliertere Beschreibungen hinzu, sodass alle Benutzer einen perfekteren Generierungseffekt erleben.



Um das Modell schneller zu machen und weniger Geld pro Bild zu verbrauchen, lieferte das Doubao-Team auch neue Ideen zur Problemlösung in der Destillationsmethode des Modells. Eine repräsentative Errungenschaft ist Hyber-SD, eine neuartige Diffusionsmodelldestillation Framework, das eine nahezu verlustfreie Leistung beibehält und gleichzeitig die Anzahl der Entrauschungsschritte komprimiert.



Als nächstes ging der NVIDIA-Lösungsarchitekt Zhao Yijia von der zugrunde liegenden Technologie aus und erläuterte die beiden gängigsten Unet-basierten SD- und DIT-Modellarchitekturen von Vincent Graph und ihre entsprechenden Eigenschaften und stellte NVIDIAs Tensorrt-, Tensorrt-LLM-, Triton- und How-Tools wie Nemo vor Megatron bietet Unterstützung bei der Bereitstellung von Modellen und hilft großen Modellen dabei, effizienter zu argumentieren.

Zhao Yijia gab zunächst eine ausführliche Erläuterung der Prinzipien des Modells hinter Stable Diffusion und erläuterte die Funktionsprinzipien wichtiger Komponenten wie Clip, VAE und Unet. Mit der Popularität von Sora wurde auch die dahinter stehende DiT-Architektur (Diffusion Transformer) immer beliebter. Zhao Yijia führte außerdem einen umfassenden Vergleich der Vorteile von SD und DiT unter drei Aspekten durch: Modellstruktur, Eigenschaften und Rechenleistungsverbrauch.



Wenn Sie die stabile Diffusion zum Generieren von Bildern verwenden, haben Sie häufig das Gefühl, dass der Inhalt der Eingabeaufforderungswörter in den generierten Ergebnissen dargestellt wird, das Bild jedoch nicht Ihren Wünschen entspricht. Dies liegt daran, dass die auf der Textwiedergabe basierende stabile Diffusion die Details nicht gut steuern kann des Bildes, wie Komposition, Bewegungen, Gesichtszüge, räumliche Beziehungen usw. Basierend auf dem Arbeitsprinzip der stabilen Diffusion haben Forscher daher viele Steuermodule entwickelt, um die Mängel der stabilen Diffusion auszugleichen. Zhao Yijia fügte den repräsentativen IP-Adapter und ControlNet hinzu.



Um die Schlussfolgerung des rechenintensiven Vincentschen Graphenmodells zu beschleunigen, spielt der technische Support von NVIDIA eine Schlüsselrolle. Zhao Yijia stellte die Nvidia TensorRT- und TensorRT-LLM-Tools vor, die den Inferenzprozess von Bild- und Textgenerierungsmodellen durch leistungsstarke Faltung, effiziente Planung und verteilte Bereitstellungstechnologien optimieren. Gleichzeitig unterstützen NVIDIAs Ada, Hopper und die kommende BlackWell-Hardwarearchitektur bereits FP8-Training und -Inferenz, was für ein reibungsloseres Modelltraining sorgen wird.



Nach sechs wunderbaren Live-Übertragungen ging die gemeinsam von Volcano Engine, NVIDIA und CMO CLUB ins Leben gerufene „AIGC Experience Party“ erfolgreich zu Ende. Ich glaube, dass jeder durch diese sechs Programme ein tieferes Verständnis dafür hat, wie sich AIGC von „interessant“ zu „nützlich“ verändert. Wir freuen uns auch darauf, dass die „AIGC Experience School“ nicht nur in der Diskussion des Programms bleibt, sondern auch den Prozess der intelligenten Weiterentwicklung im Marketingbereich in der Praxis beschleunigt.

Rezensionsadresse aller sechs Ausgaben der „AIGC Experience School“:https://vtizr.xetlk.com/s/7CjTy