Metas neue Forschungs- und Entwicklungsmethode: Integration von Sprach- und Diffusions-KI-Modellen, um die Anzahl der Berechnungen zu reduzieren, die Recheneffizienz zu verbessern und die Bilderzeugung zu optimieren

2024-08-24

IT House berichtete am 24. August, dass die Meta AI Company kürzlich eine neue Methode namens Transfusion auf den Markt gebracht habe, mit der Sprachmodelle und Bilderzeugungsmodelle in einem einheitlichen KI-System kombiniert werden können.

IT Home zitierte das Team mit den Worten, dass Transfusion die Vorteile von Sprachmodellen bei der Verarbeitung diskreter Daten wie Text und die Fähigkeit von Diffusionsmodellen bei der Generierung kontinuierlicher Daten wie Bilder kombiniert.

Meta erklärt, dass aktuelle Bilderzeugungssysteme typischerweise vorab trainierte Textkodierer verwenden, um eingegebene Stichworte zu verarbeiten, die dann mit einem separaten Diffusionsmodell kombiniert werden, um Bilder zu erzeugen.

Viele multimodale Sprachmodelle funktionieren ähnlich und verketten vorab trainierte Textmodelle mit speziellen Encodern für andere Modalitäten.

Transfusion verwendet jedoch eine einzige, einheitliche Transformer-Architektur, die für alle Modi geeignet ist und ein End-to-End-Training für Text- und Bilddaten durchführt. Text und Bilder verwenden unterschiedliche Verlustfunktionen: Text verwendet die Vorhersage des nächsten Tokens und Bilder verwenden Diffusion.

Um Text und Bilder gleichzeitig zu verarbeiten, werden Bilder in Sequenzen von Bildfragmenten umgewandelt. Auf diese Weise kann das Modell Text-Tags und Bildfragmente gleichzeitig in einer Sequenz verarbeiten, und eine spezielle Aufmerksamkeitsmaske ermöglicht es dem Modell, die Beziehungen innerhalb des Bildes zu erfassen.

Im Gegensatz zu Metas bestehenden Methoden wie Chameleon (das Bilder in diskrete Markierungen umwandelt und sie dann auf die gleiche Weise wie Text verarbeitet) behält Transfusion die kontinuierliche Darstellung von Bildern bei und vermeidet den durch Quantisierung verursachten Informationsverlust.

Experimente zeigen auch, dass Fusion effizienter skaliert als ähnliche Methoden. Bei der Bilderzeugung werden ähnliche Ergebnisse wie bei spezialisierten Modellen erzielt, jedoch mit deutlich geringerem Rechenaufwand. Überraschenderweise verbessert die Integration von Bilddaten auch die Textverarbeitungsfähigkeiten.

Die Forscher trainierten ein 7-Milliarden-Parameter-Modell anhand von 2 Billionen Text- und Bild-Tags. Das Modell erzielt ähnliche Ergebnisse wie ausgereifte Systeme wie DALL-E 2 bei der Bilderzeugung und gleichzeitiger Verarbeitung von Text.

Nachricht

Metas neue Forschungs- und Entwicklungsmethode: Integration von Sprach- und Diffusions-KI-Modellen, um die Anzahl der Berechnungen zu reduzieren, die Recheneffizienz zu verbessern und die Bilderzeugung zu optimieren

Einführung

Meine Kontaktdaten