Nachricht

Jia Yangqings zehnjähriger Klassiker gewann den Time Test Award! ICML 2024: Verlosung der zehn besten Paper-Preise, beliebter SD3, Gu

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Neuer Weisheitsbericht

Herausgeber: Taozi ist so schläfrig

[Einführung in die neue Weisheit] Die jährliche ICML-Top-Auszeichnung wurde endlich bekannt gegeben! In diesem Jahr wurden insgesamt zehn Arbeiten mit dem Best Paper Award ausgezeichnet, drei davon sind bekannte Namen – das Bilderzeugungsmodell SD3, das Videogenerierungsmodell VideoPoet und das Basisweltmodell Genie. Darüber hinaus wurde der Time Test Award an das von Jia Yangqing und seinem Team vor zehn Jahren vorgeschlagene Framework DeCAF verliehen.

Die ICML 2024 Awards wurden frisch bekannt gegeben!

Gerade wurde die ICML-Eröffnungszeremonie offiziell abgehalten. Auf dem Treffen wurden die zehn besten Papierpreise bekannt gegeben, und vor zehn Jahren gewann ein Papier den Time Test Award.

Zu den besten Artikeln zählen mehrere beliebte Arbeiten im Bereich der KI-Bild- und Videogenerierung, darunter der technische Bericht SD3, das CMU Google AI-Videomodell VideoPoet und das Google Basic World Model Genie.



Erwähnenswert ist, dass das vom KI-Guru Jia Yangqing und anderen im Oktober 2013 veröffentlichte Papier DeCAF den Time Test Award gewonnen hat.

Gerade eben schrieb er, dass es ihm eine große Ehre sei, diese Ehre zu erhalten.


Russ Salakhutdinov, Professor an der CMU und Vizepräsident von Meta GenAI, gab eine Zusammenfassung der gesamten Rekrutierungsergebnisse von ICML 2024:

Bei dieser Konferenz gingen insgesamt 9.473 Beiträge ein, von denen 2.610 angenommen wurden, mit einer Annahmequote von 27,55 %. 144 Artikel sind mündlich und 191 Artikel sind Spotlight.

In diesem Jahr wurden Positionspapiere neu eingeführt. 286 Beiträge wurden eingereicht und 75 wurden angenommen (26 %). 15 Artikel sind mündlich und 11 Artikel sind Spotlight.

Darüber hinaus gab es im Workshop 145 Vorschläge, von denen 30 angenommen wurden. Tutorial hatte 55 Vorschläge und 12 wurden angenommen.


Dieses Jahr ist es die 41. Jahreskonferenz der ICML 2024 (einmal im Jahr), die vom 21. bis 27. Juli in Wien, Österreich, stattfindet.


8.675 Personen kamen einer nach dem anderen, um der Versammlung beizuwohnen, und es gab keine Sitzplätze im Publikum.



Überblick über den ICML-Gipfel 2024

Vor der Preisverleihung stellte das Organisationskomitee zunächst die Gesamtsituation der diesjährigen Konferenz vor:

· 9 EXPO-Talk-Panels

· 12 Tutorials

· 6 eingeladene Redner

· 2.610 Vorträge (Hauptkonferenz)

· 30 Workshops

· 12.345 Autoren und Referenten

· 39 % der Teilnehmer sind Studierende

· 10 soziale Offline-Aktivitäten

· 3 Affinitätsereignisse

· 52 Freiwillige

· 97 Senior Area Chairs (SAC), 492 Area Chairs (AC), 7473 Gutachter

· 9.406 registrierte Teilnehmer (davon 8.675 vor Ort)


Basierend auf den akzeptierten Beiträgen fasste ICML die aufgetauchten Hochfrequenzwörter zusammen, die auch die heißen Wörter dieses Jahres sind:

Große Modelle erscheinen am häufigsten, mehr als 600 Mal.

Gefolgt von Reinforcement Learning, Deep Learning, graphischem neuronalem Netzwerk, maschinellem Lernen, föderiertem Lernen, Diffusionsmodell, Transformer, LLM, Repräsentationslernen, generativem Modell usw.


Bezogen auf die registrierten Länder/Regionen haben die Vereinigten Staaten 2.463 Einwohner und China liegt mit mehr als 1.100 Einwohnern an zweiter Stelle.

Bewährte Auszeichnung

Im Allgemeinen wird der Time Test Award an wissenschaftliche Arbeiten verliehen, die seit mehr als 10 Jahren eine wichtige und nachhaltige Wirkung haben.


Dieses Papier ist auch ein klassisches Werk von Jia Yangqing, dem Vater von Caffe, der an der UC Berkeley studierte und während seines Praktikums bei Google mit dem Team zusammenarbeitete.

Er sagte einmal in einem Interview, dass er während seines Praktikums bei Google im Jahr 2013 zu viel Kaffee getrunken habe, und nannte es deshalb DeCAF, um sich dazu zu bewegen, mit dem Kaffeetrinken aufzuhören.


Während er Überstunden machte, schrieb er: „DeCAF sollte grundlegende Funktionen haben und tief in das Sichtfeld eingebettet sein und dem Bereich des Computersehens auch eine verallgemeinerbare Funktion verleihen …“

Die Wirkung der DeCAF-Forschung besteht darin, dass sie das allgemeine Objekterkennungs-Framework R-CNN und das leistungsstarke heterogene Computer-Framework Caffe hervorbrachte und indirekt zur Zusammenarbeit zwischen Berkeley und NVIDIA bei der Entwicklung des Beschleunigungs-Frameworks der ersten Generation CuDNN beitrug Die groß angelegte Verbreitung der Yahoo Labs-Erstellung Eine Reihe von Arbeiten wie die CaffeOnSpark-Schulung haben Berkeleys führende Position in der Deep-Learning-Welle etabliert.


Titel: DeCAF: Eine Funktion zur Aktivierung tiefer Faltungsvorgänge für die allgemeine visuelle Erkennung

Von: Jeff Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, Trevor Darrell

Institution: University of California, Berkeley


Papieradresse: https://arxiv.org/abs/1310.1531

Um ein besseres probabilistisches Framework zum Ausdrücken menschlichen Verhaltens zu verwenden, hat das Team persönlich das erste Framework geschrieben – DeCAF.

In dieser Arbeit bewerten die Autoren, ob Merkmale, die aus einem tiefen Faltungsnetzwerk extrahiert wurden, das vollständig überwacht auf einer großen Menge von Erkennungsaufgaben fester Objekte trainiert wurde, für neue Allzweckaufgaben wiederverwendet werden können.

Diese allgemeinen Aufgaben können sich erheblich von den ursprünglichen Trainingsaufgaben unterscheiden und es fehlen möglicherweise ausreichend oder überhaupt keine annotierten Daten, sodass herkömmliche Methoden nicht zum Trainieren oder Feinabstimmen des tiefen Netzwerks zur Anpassung an die neue Aufgabe verwendet werden können.

Darüber hinaus visualisierte der Autor auch die semantische Clusterbildung tiefer Faltungsmerkmale bei Aufgaben wie Szenenerkennung, Domänenanpassung und feinkörniger Erkennung und schlug durch den Vergleich der Auswirkungen der Definition fester Merkmale, die von verschiedenen Ebenen des Netzwerks abhängen, mehrere vor Wichtiges neues SOTA bei visuellen Herausforderungen erreicht.

Schließlich veröffentlichen die Autoren eine Open-Source-Implementierung dieser tiefen Faltungsaktivierungsfunktionen – DeCA, zusammen mit allen zugehörigen Netzwerkparametern. Dies hilft visuellen Autoren, mit tiefgreifenden Darstellungen in verschiedenen Lernparadigmen visueller Konzepte zu experimentieren.


Die zehn besten Aufsätze

In diesem Jahr gibt es zehn beste Arbeiten.



Die oben genannten Ranglisten sind alle in der Reihenfolge der mündlichen Präsentation geordnet.

Verwandte Themen: Diskrete Diffusionsmodellierung durch Schätzung der Verhältnisse der Datenverteilung

Autor: Aaron Lou, Chenlin Meng, Stefano Ermon

Institution: Stanford University, Pika Labs


Papieradresse: https://arxiv.org/abs/2310.16834

Diese Forschung schlägt ein neues Modell für maschinelles Lernen SEDD (Score Entropy Discrete Diffusion) vor, das hauptsächlich auf diskrete Datengenerierungsaufgaben abzielt.

Derzeit zeigen Diffusionsmodelle bei vielen generativen Modellierungsaufgaben eine bahnbrechende Leistung, in diskreten Datenfeldern wie natürlicher Sprache sind sie jedoch schlecht.

In dem Artikel schlug der Autor das Konzept der Score-Entropie vor, um diese Lücke zu schließen.

Hierbei handelt es sich um eine neuartige Verlustfunktion, die den Score-Matching auf natürliche Weise auf den diskreten Raum ausdehnt, sich nahtlos in die Erstellung diskreter Diffusionsmodelle integriert und die Leistung erheblich verbessert.

Während des experimentellen Bewertungsprozesses schnitt SEDD besser ab als bestehende Sprachdiffusionsmodelle (die Ratlosigkeit wurde um 25–75 % reduziert).

Darüber hinaus übertrifft es in einigen Aspekten auch autoregressive Modelle wie GPT-2.


Zusammenfassend sind die Vorteile von SEDD:

- Hochwertiger Text kann ohne den Einsatz von Techniken wie Temperaturskalierung generiert werden (die Generierung von Perplexität ist etwa 6-8-mal besser als ungetempertes GPT-2).

- Flexibler Kompromiss zwischen Rechenressourcen und Ausgabequalität (benötigt 32-mal weniger Netzwerkauswertungen, um eine ähnliche Leistung zu erzielen)

- Unterstützt steuerbare Textfüllung und bietet so mehr Flexibilität. (Anpassung der Qualität der Kernprobenahme bei gleichzeitiger Unterstützung anderer Strategien als der Eingabeaufforderung von links nach rechts).

Artikel 2: Skalierung gleichgerichteter Strömungstransformatoren für die hochauflösende Bildsynthese

Vorstände: Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Kyle Lacey, Alex Goodwin, Yannik Marek, Robin Rombach

Organisation: Stabilitäts-KI


Papieradresse: https://arxiv.org/abs/2403.03206

Wie eingangs erwähnt handelt es sich bei diesem Artikel um einen technischen Bericht über die beliebte Stable Diffusion 3.

Ähnlich wie Sora verwendet SD3 eine verbesserte Version des Diffusionsmodells und eine neue Architektur, die auf dem Vincentian-Graphen von DiT basiert.

Konkret nutzten die Autoren drei verschiedene Text-Encoder – zwei CLIP-Modelle und einen T5 – zur Verarbeitung von Textinformationen, während sie gleichzeitig ein fortschrittlicheres Autoencoding-Modell zur Verarbeitung von Bildinformationen verwendeten.


Die neu vorgeschlagene MMDiT-Architektur (Multimodal Diffusion Transformer) verwendet unabhängige Gewichtssätze für die Bild- bzw. Sprachdarstellung. Im Vergleich zur frühen Version von SD3 verbessert sie das Textverständnis und die Textbuchstabierfähigkeiten erheblich.

Die Evaluierungsergebnisse zeigen, dass SD3 den aktuellen Stand der Technologie zur Generierung vinzentinischer Diagramme erreicht oder übertrifft, was die Genauigkeit bei der Befolgung von Eingabeaufforderungen, die klare Darstellung von Text und die visuelle Schönheit von Bildern betrifft.


Nächster Artikel: Probabilistische Inferenz in Sprachmodellen mittels Twisted Sequential Monte Carlo

Mitwirkende: Stephen Zhao, Rob Brekelmans, Alireza Makhzani, Roger Grosse

Institution: University of Toronto, Vector Institute


Papieradresse: https://arxiv.org/abs/2404.17546

Diese Forschung konzentriert sich auf Stichproben- und Inferenzprobleme in großen Modellen.

Viele der Fähigkeiten und Sicherheitstechnologien von LLM, wie RLHF, automatisierte Red-Team-Tests, Prompt Engineering und Padding, können in Betracht gezogen werden:

Nehmen Sie bei gegebener Belohnung oder potenzieller Funktion eine Stichprobe aus der definierten nicht normalisierten Zielverteilung. Diese Verteilung ist für die gesamte Sequenz definiert.

In dem Artikel schlägt der Autor vor, die sequentielle Monte-Carlo-Methode (SMC) zu verwenden, um diese Stichprobenwahrscheinlichkeitsprobleme zu lösen.

In diesem Zusammenhang schlug der Autor Twist-Funktionen vor, um potenzielle zukünftige Werte in jedem Zeitschritt abzuschätzen und so den Stichprobenprozess zu optimieren.

Darüber hinaus schlugen sie eine Methode zur Verwendung neuartiger bidirektionaler SMC-Grenzen vor, um die Genauigkeit von LLM-Inferenztechniken zu bewerten.

Die Endergebnisse zeigen, dass Twisted SMC eine hohe Effektivität beim Sampling schlechter Ergebnisse aus vorab trainierten Modellen aufweist, Bewertungen mit unterschiedlichen Stimmungen generiert und Füllaufgaben durchführt.

Papier 4: Position: Datensatzvielfalt messen, nicht nur behaupten

Darsteller: Dora Zhao, Jerone TA Andrews, Orestis Papakyriakopoulos, Alice Xiang

Institutionen: Stanford University, Technische Universität München, Sony AI


Papieradresse: https://arxiv.org/abs/2407.08188

Derzeit bezeichnen sich viele Datensätze als Diversität, verkörpern aber tatsächlich abstrakte und kontroverse gesellschaftliche Konzepte.

In dieser Arbeit gehen die Autoren dieser Frage nach, indem sie „Diversität“ in 135 Bild- und Textdatensätzen analysieren.

Wie unten gezeigt, stützen sich die Autoren auf die Messtheorie der sozialwissenschaftlichen Theorie als zu berücksichtigende Faktoren und geben Vorschläge für die Konzeptualisierung, Operationalisierung und Bewertung der Diversität in Datensätzen.

Der ultimative Zweck dieser Forschung besteht darin, KI-Wissenschaftler dazu aufzufordern, detailliertere und präzisere Verarbeitungsmethoden für Attributdaten mit Werturteilen in der Forschung zum maschinellen Lernen einzuführen, insbesondere im Prozess der Datensatzkonstruktion.


Papier 5: Diebstahl eines Teils eines Produktionssprachenmodells

Mitwirkende: Nicholas Carlini, Daniel Paleka, Krishnamurthy Dj Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasr, Arthur Conmy, Itay Yona, Eric Wallace, David Rolnick, Florian Tramèr

Institutionen: ETH Zürich, University of Washington, McGill University, Google DeepMind, OpenAI


Papieradresse: https://arxiv.org/abs/2403.06634

In dieser Arbeit stellen die Autoren den ersten Model-Stealing-Angriff vor, der in der Lage ist, präzise und komplexe Informationen aus Black-Box-Sprachmodellen wie ChatGPT von OpenAI oder PaLM-2 von Google zu extrahieren.

Konkret ist dieser Angriff in der Lage, die eingebettete Projektionsschicht des Transformer-Modells (unter Symmetriebedingungen) durch regulären API-Zugriff zu rekonstruieren.

Und für weniger als 20 US-Dollar können Sie die gesamte Projektionsmatrix der Ada- und Babbage-Sprachmodelle von OpenAI extrahieren. Damit wurde erstmals bestätigt, dass diese beiden Black-Box-Modelle versteckte Abmessungen von 1024 bzw. 2048 haben.

Darüber hinaus hat der Autor auch die genaue Größe der verborgenen Dimensionen des Modells gpt-3.5-turbo wiederhergestellt. Diesmal betrugen die Extraktionskosten der gesamten Projektionsmatrix nur 2.000 US-Dollar.

Abschließend schlagen die Autoren mögliche Abwehr- und Schadensbegrenzungsmaßnahmen vor und diskutieren Implikationen für zukünftige Arbeiten.


Titel: Informationskomplexität der stochastischen konvexen Optimierung: Anwendungen für Generalisierung und Memorisierung

Mitwirkende: Idan Attias, Gintare Karolina Dziugaite, Mahdi Haghifam, Roi Livni, Daniel M. Roy

Institutionen: Ben Gurion University, Northeastern University, Tel Aviv University, University of Toronto, Vector Institute, Google DeepMind


Papieradresse: https://arxiv.org/abs/2402.09327

In dieser Arbeit untersuchen die Autoren die Interaktion zwischen Auswendiglernen und Lernen im Kontext stochastischer konvexer Optimierungsprobleme (SCO).

Erstens wird die Memoisierung durch Lernalgorithmen definiert, um Informationen über Trainingsdatenpunkte offenzulegen. Anschließend wird das Conditional Mutual Information (CMI)-Framework zur Quantifizierung verwendet. Dadurch wird eine präzise Beschreibung des Kompromisses zwischen der Genauigkeit eines Lernalgorithmus und seinem CMI erreicht.

Die Ergebnisse zeigen, dass unter der L^2-Lipschitz-begrenzten Einstellung und den Bedingungen starker Konvexität der CMI jedes Lernenden mit überschüssigem Fehler ε untere Grenzen bei Ω(1/ε^2) bzw. Ω(1/ε) hat.

Darüber hinaus demonstrieren die Autoren die wichtige Rolle der Memoisierung bei SCO-Lernproblemen, indem sie einen Gegner entwerfen, der die meisten Trainingsbeispiele in einem bestimmten SCO-Problem genau identifizieren kann.

Abschließend führen die Autoren mehrere wichtige Implikationen an, beispielsweise die Einschränkungen CMI-basierter Generalisierungsgrenzen und die Inkompressibilität der Stichprobe im SCO-Problem.

Position: Überlegungen zum differentiell privaten Lernen mit groß angelegtem öffentlichem Vortraining

Autoren: Florian Tramèr, Gautam Kamath, Nicholas Carlini

Institutionen: ETH Zürich, University of Waterloo, Vector Institute, Google DeepMind


Papieradresse: https://arxiv.org/abs/2212.06470

Die Leistung des differenziell privaten maschinellen Lernens kann erheblich verbessert werden, indem die Transferlernfähigkeiten nicht privater Modelle genutzt werden, die anhand großer öffentlicher Datensätze vorab trainiert wurden.

In dieser Arbeit stellen die Autoren die Frage, ob die Verwendung großer Web-Scraping-Datensätze mit einem differenzierten Datenschutz vereinbar ist. Es wurde auch davor gewarnt, dass die Bezeichnung „privat“ dieser Modelle, die vorab auf Netzwerkdaten trainiert wurden, viele Nachteile mit sich bringen könnte, beispielsweise eine Schwächung des öffentlichen Vertrauens in das Konzept der differenzierten Privatsphäre.

Zusätzlich zu den Datenschutzaspekten bei der Verwendung öffentlicher Daten stellen die Autoren außerdem die Praktikabilität dieses Ansatzes in Frage.

Die Auswirkungen des Vortrainings machen sich besonders bei Modellen bemerkbar, die zu groß sind, als dass Endbenutzer sie auf ihren eigenen Geräten ausführen könnten. Da dies die Auslagerung privater Daten an einen Dritten mit größerer Rechenleistung erfordern würde, würde der Einsatz eines solchen Modells zu einem Nettoverlust der Privatsphäre führen.

Abschließend diskutieren die Autoren mögliche Entwicklungspfade für den Bereich des Datenschutzlernens, da öffentliche Vorschulungen immer beliebter und leistungsfähiger werden.

Papier 8: Die Debatte mit überzeugenderen LLMs führt zu wahrheitsgemäßeren Antworten

Mitwirkende: Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel R. Bowman, Tim Rocktäschel, Ethan Perez

Institutionen: University College London, Speechmatics, MATS, Anthropic, FAR AI


Papieradresse: https://arxiv.org/abs/2402.06782

Derzeit häufig verwendete LLM-Ausrichtungsmethoden basieren stark auf manuell annotierten Daten.

Je komplexer die Modelle jedoch werden, desto mehr werden sie das menschliche Fachwissen übersteigen und die Rolle menschlicher Bewerter wird sich zu der von Nicht-Experten entwickeln, die Experten beaufsichtigen.

Auf dieser Grundlage stellte der Autor die Frage: Kann ein schwächeres Modell die Richtigkeit eines stärkeren Modells bewerten?

Stärkere Modelle (Experten) verfügen von Natur aus über die notwendigen Informationen zur Beantwortung der Frage, während schwächere Modelle (Nicht-Experten) über diese Informationen verfügen.

Die Bewertungsmethode ist eine Debatte, bei der jeweils zwei LLM-Experten unterschiedliche Antworten verteidigen und nicht die Experten die Antworten auswählen.


Die Ergebnisse zeigten, dass die Debatte durchweg dazu beitrug, dass Nicht-Experten-Modelle und Menschen Fragen besser beantworteten und eine Genauigkeit von 76 % bzw. 88 % erreichten (der Ausgangswert lag bei 48 % bzw. 60 %).

Darüber hinaus verbessert die Optimierung der Überzeugungskraft von Expertendebattierern durch unbeaufsichtigte Mittel die Fähigkeit von Nichtexperten, die Wahrheit in Debatten zu erkennen.


Artikel 9: Genie: Generative interaktive Umgebungen

Darsteller: Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes, Matthew Lai, Aditi Mavalankar, Richie Steigerwald, Chris Apps, Yusuf Aytar, Sarah Bechtle, Feryal Behbahani, Stephanie Chan, Nicolas Heess, Lucy Gonzalez, Simon Osindero, Sherjil Ozair, Scott Reed, Jingwei Zhang, Konrad Zolna, Jeff Clune, Nando de Freitas, Satinder Singh, Tim Rocktäschel

Institution: Columbia University, Google DeepMind


Papieradresse: https://arxiv.org/pdf/2402.15391

Das vom Google DeepMind-Team veröffentlichte grundlegende Weltmodell – Genie „Elf“.

Aus einem Bild, einem Foto, einer Skizze kann eine endlose Welt entstehen.


Das Verrückte an Genie ist, dass es aus 200.000 Stunden unbeschrifteter Internetvideos gelernt und ohne Aufsicht trainiert hat.

Ohne jegliche Aktionsanmerkungen ist es möglich, den Protagonisten zu bestimmen und dem Benutzer die Kontrolle über ihn in der generierten Welt zu geben.

Konkret wird es durch drei Kernkomponenten implementiert: latentes Aktionsmodell, Videosegmentierer und autoregressives dynamisches Modell.


Der daraus resultierende erlernte latente Aktionsraum ermöglicht nicht nur die Benutzerinteraktion, sondern hilft auch dabei, Agenten darin zu schulen, Verhaltensweisen in unsichtbaren Videos nachzuahmen.

Alles in allem eröffnet Genie eine neue Möglichkeit, zukünftige generalistische Agenten zu kultivieren und die Landschaft interaktiver generativer Umgebungen neu zu gestalten.

Artikel 10: VideoPoet: Ein großes Sprachmodell für die Zero-Shot-Videogenerierung

Mitwirkende: Dan Kondratyuk, Lijun Yu, Xiuye ​​Gu, José Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh Birodkar, Jimmy Yan, Ming-Chang Chiu, Krishna Somandepalli, Hassan Akbari, Yair Alon, Yong Cheng, Josh Dillon, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, Michail Sirotenko, Kihyuk Sohn, Xuan Yang, Hartwig Adam, Ming-Hsuan Yang, Irfan Essa, Huisheng Wang, David A. Ross, Bryan Seybold, Lu Jiang

Institution: Carnegie Mellon University, Google


Papieradresse: https://arxiv.org/pdf/2312.14125

Vor der Veröffentlichung von Sora haben Google und das CMU-Team im Dezember 2023 VideoPoet, eine Videogenerierungstechnologie ähnlich wie Sora, im Rahmen einer technischen Roadmap eingeführt.

VideoPoet kann jeweils 10 Sekunden ultralanges, kohärentes Action-Video generieren, und für die Erstellung des Videos sind keine spezifischen Daten erforderlich.


Konkret umfasst VideoPoet hauptsächlich die folgenden Komponenten:

- Der vorab trainierte MAGVIT V2-Video-Tokenizer und SoundStream-Audio-Tokenizer können Bilder, Videos und Audioclips unterschiedlicher Länge in diskrete Codesequenzen in einem einheitlichen Vokabular konvertieren. Diese Codes sind mit textuellen Sprachmodellen kompatibel und können problemlos mit anderen Modalitäten wie Text kombiniert werden.

– Das autoregressive Sprachmodell kann modalübergreifendes Lernen zwischen Video, Bild, Audio und Text durchführen und das nächste Video- oder Audio-Token in der Sequenz auf autoregressive Weise vorhersagen.

- Im Schulungsrahmen für große Sprachmodelle werden verschiedene Lernziele für die multimodale Generierung eingeführt, darunter Text zu Video, Text zu Bild, Bild zu Video, Fortsetzung von Videobildern, Videoreparatur/-erweiterung, Videostilisierung und Video zu Audio usw . Darüber hinaus können diese Aufgaben miteinander kombiniert werden, um zusätzliche Zero-Sample-Funktionen zu erreichen (z. B. Text in Audio).


Im Gegensatz zu führenden Modellen basiert VideoPoet nicht auf einem Diffusionsmodell, sondern auf einem großen multimodalen Modell, das über T2V-, V2A- und andere Funktionen verfügen kann.

Kurz gesagt, VideoPoet bietet drei große Vorteile: die Erstellung längerer Videos, eine präzisere Steuerung und kraftvolle Kamerabewegungen.


Auszeichnung als bester Rezensent

Das Beste daran: Auf der ICML 2024-Konferenz wurde auch der Best Reviewer Award bekannt gegeben.


Verweise:

https://x.com/icmlconf/status/1815646373791842545

https://x.com/icmlconf/status/1815646856241672211