berita

Film klasik sepuluh tahun Jia Yangqing memenangkan Time Test Award! Pengundian sepuluh hadiah kertas terbaik ICML 2024, SD3 populer, Gu

2024-07-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Laporan Kebijaksanaan Baru

Editor: Taozi sangat mengantuk

[Pengantar Kebijaksanaan Baru] Penghargaan tertinggi ICML tahunan akhirnya diumumkan! Tahun ini, total sepuluh makalah memenangkan Penghargaan Kertas Terbaik, dan tiga di antaranya adalah karya terkenal - model pembuatan gambar SD3, model pembuatan video VideoPoet, dan model dunia dasar Genie. Selain itu, Time Test Award diberikan kepada kerangka DeCAF yang diusulkan oleh Jia Yangqing dan timnya sepuluh tahun lalu.

Penghargaan ICML 2024 baru saja diumumkan!

Baru saja upacara pembukaan ICML resmi diadakan. 10 penghargaan makalah terbaik diumumkan pada pertemuan tersebut, dan sebuah makalah sepuluh tahun lalu memenangkan Time Test Award.

Di antara makalah terbaik, terdapat beberapa karya populer di bidang pembuatan gambar dan video AI, antara lain laporan teknis SD3, model video Google AI CMU VideoPoet, dan model dunia dasar Google Genie.



Perlu disebutkan bahwa makalah DeCAF yang diterbitkan oleh guru AI Jia Yangqing dan lainnya pada bulan Oktober 2013 memenangkan Time Test Award.

Baru saja, dia menulis bahwa dia merasa sangat tersanjung menerima kehormatan ini.


Russ Salakhutdinov, profesor CMU dan wakil presiden Meta GenAI, memberikan rangkuman hasil rekrutmen ICML 2024 secara keseluruhan:

Konferensi ini menerima total 9.473 makalah, 2.610 di antaranya diterima, dengan tingkat penerimaan 27,55%. 144 artikel bersifat Lisan, dan 191 artikel bersifat Spotlight.

Makalah posisi baru diperkenalkan tahun ini. 286 makalah telah diserahkan dan 75 diterima (26%). 15 artikel bersifat Lisan dan 11 artikel bersifat Spotlight.

Selain itu, terdapat 145 proposal dalam Workshop tersebut, 30 diantaranya diterima. Tutorial memiliki 55 proposal dan 12 diterima.


Tahun ini merupakan konferensi tahunan ICML 2024 ke-41 (setiap tahun sekali), yang akan diadakan di Wina, Austria pada tanggal 21 hingga 27 Juli.


8.675 orang datang menghadiri pertemuan tersebut satu demi satu, dan tidak ada kursi yang tersedia untuk hadirin.



Ikhtisar KTT ICML 2024

Sebelum memberikan penghargaan, panitia penyelenggara terlebih dahulu memperkenalkan situasi konferensi tahun ini secara keseluruhan:

· 9 Panel Bicara EXPO

· 12 Tutorial

· 6 pembicara yang diundang

· 2.610 makalah (konferensi utama)

· 30 lokakarya

· 12,345 penulis dan pembicara

· 39% peserta adalah pelajar

· 10 kegiatan sosial offline

· 3 acara afinitas

· 52 sukarelawan

· 97 Senior Area Chairs (SAC), 492 Area Chairs (AC), 7473 pengulas

· 9,406 peserta terdaftar (8,675 di antaranya hadir di tempat)


Berdasarkan makalah yang diterima, ICML merangkum kata-kata berfrekuensi tinggi yang muncul, yang juga menjadi kata-kata hangat tahun ini:

Model besar paling sering muncul, lebih dari 600+ kali.

Diikuti dengan pembelajaran penguatan, pembelajaran mendalam, jaringan saraf grafik, pembelajaran mesin, pembelajaran gabungan, model difusi, Transformer, LLM, pembelajaran representasi, model generatif, dll.


Dalam hal negara/wilayah yang terdaftar, Amerika Serikat memiliki 2.463 orang, dan Tiongkok berada di peringkat kedua dengan lebih dari 1.100 orang.

Penghargaan yang Telah Teruji Waktu

Secara umum, Time Test Award diberikan kepada makalah akademis yang memiliki dampak penting dan bertahan lama selama lebih dari 10 tahun.


Makalah ini juga merupakan karya klasik yang diselesaikan oleh Jia Yangqing, ayah dari Caffe, yang belajar di UC Berkeley dan berkolaborasi dengan tim selama magang di Google.

Dia pernah mengatakan dalam sebuah wawancara bahwa dia minum terlalu banyak kopi saat magang di Google pada tahun 2013, sehingga dia menamakannya DeCAF untuk mendesak dirinya berhenti minum kopi.


Saat bekerja lembur, dia memposting, "DeCAF harus menjadi fitur dasar dan tertanam secara mendalam di bidang penglihatan, dan juga memberikan bidang visi komputer fitur yang dapat digeneralisasikan..."

Dampak dari penelitian DeCAF adalah melahirkan kerangka deteksi objek umum R-CNN, kerangka komputasi heterogen berkinerja tinggi Caffe, dan secara tidak langsung berkontribusi pada kolaborasi antara Berkeley dan NVIDIA untuk menulis kerangka akselerasi generasi pertama CuDNN, dan distribusi skala besar ciptaan Yahoo Labs Serangkaian pekerjaan seperti pelatihan CaffeOnSpark telah menetapkan posisi terdepan Berkeley dalam gelombang pembelajaran mendalam.


Artikel ini berisi: DeCAF: Fitur Aktivasi Konvolusional Mendalam untuk Pengenalan Visual Umum

Penulis: Jeff Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, Trevor Darrell

Institusi: Universitas California, Berkeley


Alamat makalah: https://arxiv.org/abs/1310.1531

Untuk menggunakan kerangka probabilistik yang lebih baik untuk mengekspresikan perilaku manusia, tim secara pribadi menulis kerangka kerja pertama-DeCAF.

Dalam karya ini, penulis mengevaluasi apakah fitur yang diekstraksi dari jaringan konvolusional mendalam yang dilatih dengan pengawasan penuh pada sejumlah besar tugas pengenalan objek tetap dapat digunakan kembali pada tugas tujuan umum yang baru.

Tugas umum ini mungkin berbeda secara signifikan dari tugas pelatihan awal, dan mungkin kekurangan data beranotasi, atau tidak ada data beranotasi sama sekali, sehingga metode konvensional tidak dapat digunakan untuk melatih atau menyempurnakan jaringan dalam agar dapat beradaptasi dengan tugas baru.

Selain itu, penulis juga memvisualisasikan pengelompokan semantik fitur konvolusional mendalam dalam tugas-tugas seperti pengenalan adegan, adaptasi domain, dan pengenalan terperinci, dan dengan membandingkan efek pendefinisian fitur tetap yang bergantung pada berbagai tingkat jaringan, mengusulkan beberapa penting SOTA baru dicapai dalam tantangan visual.

Terakhir, penulis merilis implementasi open source dari fitur aktivasi konvolusional mendalam ini - DeCA, bersama dengan semua parameter jaringan terkait. Hal ini membantu penulis visual untuk bereksperimen dengan representasi mendalam dalam berbagai paradigma pembelajaran konsep visual.


Sepuluh makalah terbaik

Tahun ini, ada sepuluh makalah terbaik.



Pemeringkatan di atas semuanya berdasarkan tampilan lisan.

Materi yang dipelajari: Pemodelan Difusi Diskrit dengan Memperkirakan Rasio Distribusi Data

Penulis: Aaron Lou, Chenlin Meng, Stefano Ermon

Institusi: Universitas Stanford, Pika Labs


Alamat makalah: https://arxiv.org/abs/2310.16834

Penelitian ini mengusulkan model pembelajaran mesin baru SEDD (Score Entropy Discrete Diffusion), yang terutama ditargetkan pada tugas-tugas pembuatan data diskrit.

Saat ini, model difusi menunjukkan kinerja terobosan dalam banyak tugas pemodelan generatif, namun kinerjanya buruk dalam bidang data diskrit seperti bahasa alami.

Dalam makalahnya, penulis mengusulkan konsep entropi skor untuk menjembatani kesenjangan ini.

Ini adalah fungsi kerugian baru yang secara alami memperluas pencocokan skor ke ruang diskrit, berintegrasi dengan mulus untuk membangun model difusi diskrit, dan meningkatkan kinerja secara signifikan.

Selama proses evaluasi eksperimental, kinerja SEDD lebih baik daripada model difusi bahasa yang ada (kebingungan berkurang 25-75%).

Selain itu, model ini juga melampaui model autoregresif seperti GPT-2 dalam beberapa aspek.


Singkatnya, kelebihan SEDD adalah:

- Teks berkualitas tinggi dapat dihasilkan tanpa menggunakan teknik seperti penskalaan suhu (menghasilkan kebingungan sekitar 6-8 kali lebih baik daripada GPT-2 yang tidak dianil)

- Pertukaran fleksibel antara sumber daya komputasi dan kualitas keluaran (menggunakan evaluasi jaringan 32 kali lebih sedikit untuk mencapai kinerja serupa)

- Mendukung pengisian teks yang dapat dikontrol, memberikan lebih banyak fleksibilitas. (mencocokkan kualitas pengambilan sampel inti, sekaligus mendukung strategi selain dorongan dari kiri ke kanan).

Makalah 2: Penskalaan Transformator Aliran yang Diperbaiki untuk Sintesis Gambar Resolusi Tinggi

Pemain: Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Kyle Lacey, Alex Goodwin, Yannik Marek, Robin Rombach

Organisasi: Stabilitas AI


Alamat makalah: https://arxiv.org/abs/2403.03206

Seperti disebutkan di awal, makalah ini adalah laporan teknis tentang Difusi Stabil 3 yang populer.

Mirip dengan Sora, SD3 menggunakan versi model Difusi yang ditingkatkan dan arsitektur baru berdasarkan grafik Vinsensian DiT.

Secara khusus, penulis menggunakan tiga encoder teks yang berbeda—dua model CLIP dan T5—untuk memproses informasi teks, sementara menggunakan model autoencoding yang lebih canggih untuk memproses informasi gambar.


Arsitektur Multi-modal Diffusion Transformer (MMDiT) yang baru diusulkan menggunakan kumpulan bobot independen untuk representasi gambar dan bahasa, dibandingkan dengan versi awal SD3, arsitektur ini secara signifikan meningkatkan pemahaman teks dan kemampuan ejaan teks.

Hasil evaluasi menunjukkan bahwa SD3 mencapai atau melampaui teknologi pembuatan diagram Vinsensian terkini dalam hal akurasi dalam mengikuti petunjuk, penyajian teks yang jelas, dan keindahan visual gambar.


Artikel utama: Inferensi Probabilistik dalam Model Bahasa melalui Twisted Sequential Monte Carlo

Penulis: Stephen Zhao, Rob Brekelmans, Alireza Makhzani, Roger Grosse

Institusi: Universitas Toronto, Institut Vektor


Alamat makalah: https://arxiv.org/abs/2404.17546

Penelitian ini berfokus pada permasalahan sampling dan inferensi pada model berukuran besar.

Banyak kemampuan dan teknologi keamanan LLM, seperti RLHF, pengujian tim merah otomatis, rekayasa cepat, dan padding, dapat dipertimbangkan:

Diberikan imbalan atau fungsi potensial, ambil sampel dari distribusi target tidak normal yang ditentukan. Distribusi ini ditentukan untuk urutan lengkap.

Dalam makalah ini, penulis mengusulkan untuk menggunakan metode sekuensial Monte Carlo (SMC) untuk menyelesaikan masalah probabilitas pengambilan sampel ini.

Dalam hal ini, penulis mengusulkan fungsi twist untuk memperkirakan nilai potensial di masa depan pada setiap langkah waktu untuk mengoptimalkan proses pengambilan sampel.

Selain itu, mereka juga mengusulkan metode untuk menggunakan batas SMC dua arah yang baru untuk mengevaluasi keakuratan teknik inferensi LLM.

Hasil akhir menunjukkan bahwa Twisted SMC menunjukkan efektivitas yang kuat dalam mengambil sampel keluaran buruk dari model yang telah dilatih sebelumnya, menghasilkan ulasan dengan sentimen berbeda, dan melakukan tugas pengisi.

Makalah 4: Posisi: Ukur Keanekaragaman Kumpulan Data, Jangan Hanya Mengklaimnya

Penulis: Dora Zhao, Jerone TA Andrews, Orestis Papakyriakopoulos, Alice Xiang

Institusi: Universitas Stanford, Universitas Teknik Munich, Sony AI


Alamat makalah: https://arxiv.org/abs/2407.08188

Saat ini, banyak kumpulan data yang menyebut dirinya keberagaman, namun kenyataannya mengandung konsep sosial yang abstrak dan kontroversial.

Dalam karya ini, penulis mengeksplorasi pertanyaan ini dengan menganalisis “keberagaman” di 135 kumpulan data gambar dan teks.

Seperti yang ditunjukkan di bawah ini, penulis memanfaatkan teori pengukuran dari teori ilmu sosial sebagai faktor untuk dipertimbangkan dan memberikan saran untuk membuat konsep, mengoperasionalkan, dan menilai keragaman dalam kumpulan data.

Tujuan akhir dari penelitian ini adalah untuk menyerukan agar para pakar AI mengadopsi metode pemrosesan yang lebih detail dan tepat untuk data atribut dengan penilaian nilai dalam penelitian pembelajaran mesin, khususnya dalam proses konstruksi kumpulan data.


Makalah 5: Mencuri Bagian dari Model Bahasa Produksi

Pemain:Nicholas Carlini,Daniel Paleka,Krishnamurthy Dj Dvijotham,Thomas Steinke,Jonathan Hayase,A. Feder Cooper,Katherine Lee,Matthew Jagielski,Milad Nasr,Arthur Conmy,Itay Yona,Eric Wallace,David Rolnick,Florian Tramèr

Institusi: ETH Zurich, Universitas Washington, Universitas McGill, Google DeepMind, OpenAI


Alamat makalah: https://arxiv.org/abs/2403.06634

Dalam karya ini, penulis menyajikan serangan pencurian model pertama yang mampu mengekstraksi informasi yang tepat dan kompleks dari model bahasa kotak hitam seperti ChatGPT OpenAI atau PaLM-2 Google.

Secara khusus, serangan ini mampu merekonstruksi lapisan proyeksi tertanam model Transformer (dalam kondisi simetri) melalui akses API reguler.

Dan, dengan biaya kurang dari $20, Anda dapat mengekstrak seluruh matriks proyeksi model bahasa Ada dan Babbage OpenAI. Hal ini untuk pertama kalinya menegaskan bahwa kedua model kotak hitam ini memiliki dimensi tersembunyi masing-masing 1024 dan 2048.

Selain itu, penulis juga mengembalikan ukuran dimensi tersembunyi yang tepat dari model gpt-3.5-turbo. Kali ini, biaya ekstraksi seluruh matriks proyeksi hanya US$2.000.

Yang terakhir, penulis mengusulkan langkah-langkah pertahanan dan mitigasi yang potensial serta mendiskusikan implikasinya terhadap upaya di masa depan.


Bidang terkait: Kompleksitas Informasi dari Optimasi Konveks Stokastik: Aplikasi untuk Generalisasi dan Hafalan

Pemain: Idan Attias, Gintare Karolina Dziugaite, Mahdi Haghifam, Roi Livni, Daniel M. Roy

Institusi: Universitas Ben Gurion, Universitas Northeastern, Universitas Tel Aviv, Universitas Toronto, Institut Vektor, Google DeepMind


Alamat makalah: https://arxiv.org/abs/2402.09327

Dalam karya ini, penulis mempelajari interaksi antara memoisasi dan pembelajaran dalam konteks masalah optimasi cembung stokastik (SCO).

Pertama, memoisasi ditentukan oleh algoritma pembelajaran untuk mengungkapkan informasi tentang titik data pelatihan. Kemudian, kerangka informasi timbal balik bersyarat (CMI) digunakan untuk kuantifikasi. Dengan demikian, gambaran yang tepat tentang trade-off antara keakuratan algoritma pembelajaran dan CMI-nya dapat dicapai.

Hasilnya menunjukkan bahwa di bawah pengaturan batas L^2 Lipschitz dan kondisi konveksitas kuat, CMI setiap pelajar dengan kesalahan berlebih ε memiliki batas bawah masing-masing pada Ω(1/ε^2) dan Ω(1/ε).

Lebih lanjut, penulis menunjukkan peran penting memoisasi dalam masalah pembelajaran SCO dengan merancang musuh yang dapat secara akurat mengidentifikasi sebagian besar sampel pelatihan dalam masalah SCO tertentu.

Terakhir, penulis mengutip beberapa implikasi penting, seperti keterbatasan batasan generalisasi berbasis CMI dan incompressibility sampel dalam masalah SCO.

Artikel terkait: Posisi: Pertimbangan untuk Pembelajaran Privat Berbeda dengan Pra-pelatihan Publik Skala Besar

Penulis: Florian Tramèr, Gautam Kamath, Nicholas Carlini

Institusi: ETH Zurich, Universitas Waterloo, Institut Vektor, Google DeepMind


Alamat makalah: https://arxiv.org/abs/2212.06470

Kinerja pembelajaran mesin privat yang berbeda dapat ditingkatkan secara signifikan dengan memanfaatkan kemampuan pembelajaran transfer model non-pribadi yang telah dilatih sebelumnya pada kumpulan data publik yang besar.

Dalam karya ini, penulis mempertanyakan apakah penggunaan kumpulan data web yang besar konsisten dengan perlindungan privasi diferensial. Ia juga memperingatkan bahwa menyebut model data jaringan yang telah dilatih sebelumnya sebagai “pribadi” dapat membawa banyak kerugian, seperti melemahkan kepercayaan publik terhadap konsep privasi diferensial.

Selain pertimbangan privasi dalam penggunaan data publik, penulis juga mempertanyakan kepraktisan pendekatan ini.

Dampak pra-pelatihan terutama terlihat pada model yang terlalu besar untuk dijalankan oleh pengguna akhir di perangkat mereka sendiri. Karena hal ini memerlukan outsourcing data pribadi kepada pihak ketiga dengan kekuatan komputasi yang lebih besar, penerapan model seperti itu akan mengakibatkan hilangnya privasi.

Terakhir, penulis membahas jalur pengembangan potensial dalam bidang pembelajaran privasi seiring dengan semakin populer dan kuatnya pra-pelatihan publik.

Makalah 8: Berdebat dengan LLM yang Lebih Persuasif Menghasilkan Jawaban yang Lebih Jujur

Pemeran: Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel R. Bowman, Tim Rocktäschel, Ethan Perez

Institusi: University College London, Speechmatics, MATS, Anthropic, FAR AI


Alamat makalah: https://arxiv.org/abs/2402.06782

Saat ini metode penyelarasan LLM yang umum digunakan sangat bergantung pada data yang dianotasi secara manual.

Namun, ketika model menjadi lebih kompleks, model tersebut akan melampaui keahlian manusia dan peran penilai manusia akan berkembang menjadi peran non-ahli yang mengawasi para ahli.

Berdasarkan hal ini, penulis mengajukan pertanyaan: Dapatkah model yang lebih lemah mengevaluasi kebenaran model yang lebih kuat?

Secara desain, model yang lebih kuat (ahli) memiliki informasi yang diperlukan untuk menjawab pertanyaan, sedangkan model yang lebih lemah (non-ahli) tidak memiliki informasi tersebut.

Metode evaluasinya adalah debat, di mana dua pakar LLM masing-masing mempertahankan jawaban yang berbeda, bukan pakar yang memilih jawaban.


Hasilnya menunjukkan bahwa debat secara konsisten membantu model non-ahli dan manusia menjawab pertanyaan dengan lebih baik, mencapai akurasi masing-masing 76% dan 88% (dasarnya masing-masing adalah 48% dan 60%).

Lebih jauh lagi, mengoptimalkan daya persuasif para pendebat ahli melalui cara-cara tanpa pengawasan akan meningkatkan kemampuan non-ahli dalam mengidentifikasi kebenaran dalam perdebatan.


Makalah 9: Genie: Lingkungan Interaktif Generatif

Pemain: Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes, Matthew Lai, Aditi Mavalankar, Richie Steigerwald, Chris Apps, Yusuf Aytar, Sarah Bechtle, Feryal Behbahani, Stephanie Chan, Nicolas Heess, Lucy Gonzalez,Simon Osindero,Sherjil Ozair,Scott Reed,Jingwei Zhang,Konrad Zolna,Jeff Clune,Nando de Freitas,Satinder Singh,Tim Rocktäschel

Institusi: Universitas Columbia, Google DeepMind


Alamat makalah: https://arxiv.org/pdf/2402.15391

Model dunia dasar yang dirilis oleh tim Google DeepMind - Genie "Elf".

Dari sebuah gambar, foto, sketsa, bisa menghasilkan dunia yang tak ada habisnya.


Hal yang gila tentang Genie adalah ia belajar dari 200.000 jam video Internet tanpa label dan dilatih tanpa pengawasan.

Tanpa anotasi tindakan apa pun, dimungkinkan untuk menentukan siapa protagonisnya dan memberi pengguna kendali atas dirinya di dunia yang dihasilkan.

Secara khusus, ini diterapkan melalui tiga komponen inti: model tindakan laten, segmenter video, dan model dinamis autoregresif.


Ruang tindakan laten yang dipelajari yang dihasilkan tidak hanya memungkinkan interaksi pengguna tetapi juga membantu melatih agen untuk meniru perilaku dalam video yang tidak terlihat.

Secara keseluruhan, Genie membuka cara baru untuk mengembangkan agen generalis masa depan dan membentuk kembali lanskap lingkungan generatif interaktif.

Makalah 10: VideoPoet: Model Bahasa Besar untuk Pembuatan Video Zero-Shot

Pemain: Dan Kondratyuk,Lijun Yu,Xiuye ​​Gu,José Lezama,Jonathan Huang,Grant Schindler,Rachel Hornung,Vighnesh Birodkar,Jimmy Yan,Ming-Chang Chiu,Krishna Somandepalli,Hassan Akbari,Yair Alon,Yong Cheng,Josh Dillon,Agrim Gupta,Meera Hahn,Anja Hauth,David Hendon,Alonso Martinez,David Minnen,Mikhail Sirotenko,Kihyuk Sohn,Xuan Yang,Hartwig Adam,Ming-Hsuan Yang,Irfan Essa,Huisheng Wang,David A. Ross, Bryan Seybold, Lu Jiang

Institusi: Universitas Carnegie Mellon, Google


Alamat makalah: https://arxiv.org/pdf/2312.14125

Sebelum Sora dirilis, Google dan tim CMU meluncurkan VideoPoet, teknologi pembuatan video yang mirip dengan Sora, berdasarkan peta jalan teknis pada bulan Desember 2023.

VideoPoet dapat menghasilkan video aksi besar yang sangat panjang dan koheren berdurasi 10 detik dalam satu waktu, dan tidak diperlukan data khusus untuk menghasilkan video tersebut.


Secara khusus, VideoPoet terutama mencakup komponen-komponen berikut:

- Tokenizer video MAGVIT V2 dan tokenizer audio SoundStream yang telah dilatih sebelumnya dapat mengonversi gambar, video, dan klip audio dengan panjang berbeda menjadi urutan kode diskrit dalam kosakata terpadu. Kode-kode ini kompatibel dengan model bahasa tekstual dan dapat dengan mudah digabungkan dengan modalitas lain seperti teks.

- Model bahasa autoregresif dapat melakukan pembelajaran lintas modal antara video, gambar, audio dan teks, dan memprediksi token video atau audio berikutnya dalam urutan dengan cara autoregresif.

- Berbagai tujuan pembelajaran generasi multi-modal diperkenalkan dalam kerangka pelatihan model bahasa besar, termasuk teks ke video, teks ke gambar, gambar ke video, kelanjutan bingkai video, perbaikan/ekspansi video, stilisasi video dan video ke audio, dll. . Selain itu, tugas-tugas ini dapat digabungkan satu sama lain untuk mencapai kemampuan tambahan tanpa sampel (misalnya, teks ke audio).


Berbeda dengan model terkemuka, VideoPoet tidak didasarkan pada model difusi, melainkan model multi-modal besar, yang dapat memiliki kemampuan T2V, V2A, dan lainnya.

Singkatnya, VideoPoet memiliki tiga keunggulan utama: menghasilkan video yang lebih panjang, mencapai kontrol yang lebih presisi, dan pergerakan kamera yang kuat.


Penghargaan Peninjau Terbaik

Hebatnya lagi, pada konferensi ICML 2024 juga diumumkan Penghargaan Reviewer Terbaik.


Referensi:

https://x.com/icmlconf/status/1815646373791842545

https://x.com/icmlconf/status/1815646856241672211