berita

Jia Yangqing memenangkan Time Test Award untuk salah satu makalahnya, tetapi tidak lolos ke 10 makalah terbaik di Tiongkok dan Penghargaan ICML 2024

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Laporan Jantung Mesin

Departemen Editorial Jantung Mesin

Nama lengkap ICML adalah International Conference on Machine Learning yang diselenggarakan oleh International Machine Learning Society (IMLS) dan merupakan konferensi teratas di bidang kecerdasan buatan komputer.

Konferensi ICML tahun ini merupakan yang ke-41 dan saat ini diselenggarakan di Wina, Austria. Pada upacara pembukaan yang baru saja diadakan, ICML, yang semakin populer setiap tahunnya, mengumumkan data konferensi dan informasi penghargaan tahun ini.



Konferensi utama ini menerima total 9473 penyerahan makalah valid, dimana 2610 makalah diterima, dengan tingkat penerimaan 27,5%, termasuk 144 makalah lisan dan 191 makalah sorotan.



Kata kunci subjek dari makalah yang diterima adalah: model bahasa besar, pembelajaran penguatan, pembelajaran mendalam, jaringan saraf grafik, pembelajaran mesin, pembelajaran gabungan, model difusi, Transformer, LLM, pembelajaran representasi, model generatif... Kata kunci ini juga mewakili arus Arah penelitian paling populer di bidang AI.

Selain data tersebut, Time Test Awards dan Best Papers tahun ini juga diumumkan pada konferensi tersebut. DeCAF, makalah yang diselesaikan bersama Jia Yangqing saat berada di Berkeley sepuluh tahun lalu, memenangkan Time Test Award tahun ini. Dibandingkan dengan 6 tahun lalu, 10 studi memenangkan makalah terbaik tahun ini, termasuk model dunia Google DeepMind Genie, model video VideoPoet, dll. yang menjadi populer beberapa waktu lalu.

Penghargaan yang Telah Teruji Waktu

Mengenai DeCAF yang memenangkan penghargaan, Jia Yangqing berkata di antara teman-temannya, "Dari terminologi saat ini, DeCAF harus menjadi fitur dasar dan tertanam secara mendalam di bidang visi, dan juga memberikan bidang visi komputer fitur yang dapat digeneralisasikan. Karya DeCAF kemudian melahirkan Kerangka kerja deteksi objek Umum R-CNN, kerangka kerja komputasi heterogen berkinerja tinggi Caffe, secara tidak langsung berkontribusi pada kerja sama Berkeley dan NVidia dalam menulis kerangka akselerasi generasi pertama CuDNN, pelatihan terdistribusi skala besar CaffeOnSpark yang dibuat oleh Yahoo Labs , dan serangkaian karya lainnya, yang mengukuhkan posisi Berkeley sebagai pemimpin dalam gelombang pembelajaran mendalam.”



Artikel ini ditulis oleh: DeCAF: Fitur Aktivasi Konvolusional Mendalam untuk Pengenalan Visual Umum

Dibintangi oleh: Jeffrey Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, Trevor Darrell

Institusi: UC Berkeley & ICSI, Berkeley, CA, AS

Tautan makalah: https://arxiv.org/pdf/1310.1531

Tim peneliti mengevaluasi apakah fitur yang diekstraksi dari aktivasi jaringan konvolusional mendalam yang dilatih dengan pengawasan penuh pada serangkaian tugas pengenalan objek tetap berskala besar dapat digunakan kembali untuk tugas tujuan umum yang baru. Tugas-tugas umum ini mungkin berbeda secara signifikan dari tugas-tugas yang awalnya dilatih, dan mungkin tidak ada cukup data berlabel atau tidak berlabel untuk secara rutin melatih atau mengadaptasi arsitektur mendalam ke tugas-tugas baru. Mereka mempelajari dan memvisualisasikan pengelompokan semantik fitur konvolusional mendalam dalam berbagai tugas, termasuk pengenalan adegan, adaptasi domain, dan tantangan pengenalan yang terperinci. Para peneliti membandingkan efek mengandalkan lapisan jaringan yang berbeda untuk menentukan fitur tetap dan melaporkan hasil baru yang secara signifikan mengungguli teknik yang ada pada beberapa tantangan visual penting. Mereka merilis DeCAF, sebuah implementasi sumber terbuka dari fitur aktivasi konvolusional mendalam yang berisi semua parameter jaringan yang relevan untuk memungkinkan peneliti visi bereksperimen dengan representasi mendalam di berbagai paradigma pembelajaran konsep visual.

kertas terbaik

Makalah 1: Penskalaan Transformator Aliran yang Diperbaiki untuk Sintesis Gambar Resolusi Tinggi

Pemain: Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Robin Rombach

Organisasi: Stabilitas AI

Alamat kertas: https://proceedings.mlr.press/v235/esser24a.html

Laporan Jantung Mesin: Makalah Stable Diffusion 3 akhirnya dirilis, dan detail arsitekturnya terungkap. Akankah ini membantu mereproduksi Sora?

Makalah ini persis dengan makalah Difusi Stabil 3. Dibandingkan dengan versi sebelumnya, kualitas gambar yang dihasilkan oleh Stable Diffusion 3 telah meningkat pesat, mendukung perintah multi-tema, dan efek penulisan teks juga lebih baik.



Arsitektur model Difusi Stabil 3.

Model difusi, yang menghasilkan data dari derau dengan membalikkan jalur majunya menjadi derau, telah muncul sebagai teknik pemodelan generatif yang ampuh untuk data sensorik berdimensi tinggi seperti gambar dan video. Rectified Flow (RF) merupakan formulasi model generatif terkini yang menghubungkan data dan noise dalam satu garis lurus. Meskipun memiliki sifat teoritis dan kesederhanaan konseptual yang lebih baik, hal ini belum ditetapkan secara jelas sebagai praktik standar.

Penelitian ini menyempurnakan teknik pengambilan sampel kebisingan yang ada dengan melatih model RF dengan membiaskannya ke skala yang relevan secara persepsi. Melalui penelitian berskala besar, penelitian ini menunjukkan kinerja yang unggul dari pendekatan ini dibandingkan dengan formulasi difusi yang ada untuk sintesis teks-ke-gambar resolusi tinggi.

Selain itu, penelitian ini juga mengusulkan arsitektur berbasis Transformer baru untuk pembuatan teks-ke-gambar, yang menggunakan bobot terpisah untuk dua mode dan memungkinkan aliran informasi dua arah antara token gambar dan teks, sehingga meningkatkan Pemahaman teks, peringkat preferensi manusia, dll. . Studi ini menunjukkan bahwa arsitektur mengikuti tren penskalaan yang dapat diprediksi dan mengamati bahwa kehilangan validasi berkurang secara bertahap seiring dengan bertambahnya ukuran model dan langkah-langkah pelatihan.



Transformator difusi multimodal yang ditingkatkan: blok MMDiT.

Makalah 2: Genie: Lingkungan Interaktif Generatif

Dibintangi oleh: Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes

Institusi: Google DeepMind, Universitas British Columbia

Alamat makalah: https://arxiv.org/pdf/2402.15391.pdf

Makalah ini mendefinisikan paradigma baru AI generatif – Lingkungan Interaktif Generatif – Genie (Generative Interactive Environments). Genie adalah model dunia berbasis 11 miliar parameter yang dapat menghasilkan lingkungan interaktif yang dapat dimainkan dari satu perintah gambar.

Laporan Jantung Mesin: Baru saja, Google merilis model dunia dasar: parameter 11B, yang dapat menghasilkan dunia virtual interaktif

Beberapa komponen dalam arsitektur Genie dibangun di atas Vision Transformer (ViT). Perlu dicatat bahwa karena biaya memori sekunder Transformer, yang membawa tantangan pada bidang video, video dapat berisi hingga (10^4) token. Oleh karena itu, Google menggunakan arsitektur ST-transformator yang hemat memori di semua komponen model untuk menyeimbangkan kapasitas model dan batasan komputasi.



Genie terdiri dari tiga komponen utama (seperti yang ditunjukkan pada gambar di bawah):

1) Latent Action Model (LAM), digunakan untuk mempertimbangkan kemungkinan tindakan antara setiap pasangan frame;

2) Tokenizer video (Tokenizer), digunakan untuk mengubah frame video asli menjadi token diskrit;

3) Model dinamis, dengan mempertimbangkan potensi tindakan dan token dari frame sebelumnya, digunakan untuk memprediksi frame video berikutnya.



Untuk mencapai pembuatan video yang terkendali, Google menggunakan tindakan yang diambil pada frame sebelumnya sebagai ketentuan untuk prediksi frame berikutnya. Namun, label tindakan seperti itu jarang tersedia dalam video di Internet, dan biaya untuk mendapatkan anotasi tindakan bisa jadi mahal. Sebaliknya, Google mempelajari tindakan potensial dengan cara yang sepenuhnya tanpa pengawasan.



Makalah 3: Pertimbangan Pembelajaran Privat yang Berbeda dengan Pra-Pelatihan Publik Skala Besar

Penulis: Florian Tramèr, Gautam Kamath, Nicholas Carlini

Institusi: ETH Zurich, Universitas Waterloo, Google DeepMind

Alamat makalah: https://arxiv.org/abs/2212.06470

Kinerja pembelajaran mesin privat yang berbeda dapat ditingkatkan secara signifikan dengan memanfaatkan kemampuan pembelajaran transfer model non-pribadi yang telah dilatih sebelumnya pada kumpulan data publik yang besar. Makalah ini mempertanyakan apakah penggunaan kumpulan data web-scrap yang besar harus dianggap sebagai privasi yang berbeda.

Studi ini percaya bahwa menetapkan model yang telah dilatih sebelumnya tentang data jaringan sebagai model "pribadi" dapat merusak dan melemahkan kepercayaan publik terhadap privasi diferensial. Selain pertimbangan privasi dalam penggunaan data publik, penelitian ini juga mempertanyakan kegunaan paradigma ini. Studi ini meneliti apakah tolok ukur pembelajaran mesin yang ada cocok untuk mengukur kemampuan model terlatih dalam menggeneralisasi domain sensitif yang mungkin sulit direpresentasikan dalam data jaringan publik.

Selain itu, penelitian ini mencatat bahwa penerapan model berukuran besar dapat mengakibatkan hilangnya privasi karena kebutuhan untuk mengalihkan data pribadi ke pihak ketiga dengan daya komputasi yang lebih besar.

Makalah 4: Pemodelan Difusi Diskrit dengan Memperkirakan Rasio Distribusi Data

Penulis: Aaron Lou, Chenlin Meng, Stefano Ermon

Institusi: Universitas Stanford, Pika Labs

Alamat kertas: https://proceedings.mlr.press/v235/lou24a.html

Meskipun model difusi bekerja dengan baik dalam banyak tugas pemodelan generatif, model tersebut gagal bekerja seperti yang diharapkan dalam domain data diskrit seperti bahasa alami. Model difusi standar mengandalkan teori pencocokan skor yang sudah mapan, namun upaya untuk menggeneralisasikannya pada struktur terpisah tidak menghasilkan keuntungan empiris yang sama.

Dalam penelitian ini, tim peneliti menjembatani kesenjangan ini dengan mengusulkan kerugian baru yang disebut entropi skor. Entropi yang diberi skor secara alami memperluas pencocokan skor ke ruang diskrit, berintegrasi dengan mulus untuk membangun model difusi diskrit, dan secara signifikan meningkatkan kinerja.

Dalam eksperimennya, mereka menguji Scored Entropy Discrete Diffusion Model (SEDD) pada tugas pemodelan bahasa standar. Pada ukuran model yang sebanding, SEDD mengungguli paradigma difusi bahasa yang ada (pengurangan kebingungan sebesar 25-75%) dan bersaing dengan model autoregresif, terutama mengungguli GPT-2. Selain itu, dibandingkan dengan model autoregresif, SEDD mampu menghasilkan teks nyata (menghasilkan kebingungan sekitar 6-8 kali lebih tinggi dibandingkan GPT-2 yang tidak dianil) tanpa memerlukan teknik anil terdistribusi (seperti penskalaan suhu), dan dapat digunakan dalam Tradeoffs antara upaya komputasi dan kualitas (mencapai kualitas serupa dengan evaluasi jaringan 32x lebih sedikit), dan mendukung padding yang dapat dikontrol (mencocokkan kualitas pengambilan sampel kernel sekaligus memungkinkan strategi lain selain petunjuk dari kiri ke kanan).

Makalah 5: Inferensi Probabilistik dalam Model Bahasa melalui Twisted Sequential Monte Carlo

Pemain: Stephen Zhao, Rob Brekelmans, Alireza Makhzani, Roger Grosse

Institusi: Universitas Toronto, Institut Vektor

Alamat kertas: https://proceedings.mlr.press/v235/zhao24c.html

Berbagai kemampuan dan teknik keamanan model bahasa besar (LLM), termasuk RLHF, pengujian tim merah otomatis, rekayasa petunjuk, dan padding, dapat dilihat sebagai pengambilan sampel dari distribusi target yang didenormalisasi yang ditentukan oleh penghargaan tertentu atau fungsi laten. Dalam karya ini, penulis memanfaatkan toolbox Sequential Monte Carlo (SMC) yang kaya untuk menangani masalah inferensi probabilistik ini. Secara khusus, mereka menggunakan fungsi warp yang dipelajari untuk memperkirakan potensi nilai masa depan yang diharapkan pada setiap langkah waktu, memungkinkan komputasi pada waktu inferensi untuk fokus pada bagian urutan yang menjanjikan.

Kami mengusulkan pendekatan kontrastif baru untuk mempelajari fungsi warping dan menghubungkan dengan banyak literatur tentang pembelajaran penguatan lunak. Sebagai aplikasi pelengkap kerangka SMC terpelintir, mereka mengusulkan metode untuk mengevaluasi keakuratan teknik inferensi model bahasa pada fungsi partisi log menggunakan ikatan SMC dua arah yang baru. Batasan ini dapat digunakan untuk memperkirakan perbedaan KL dua arah antara distribusi inferensi dan distribusi target. Dengan menerapkan teknik evaluasi inferensi, mereka menunjukkan bahwa Twisted SMC efektif dalam mengambil sampel keluaran yang tidak diinginkan dari model yang telah dilatih sebelumnya (berguna untuk pelatihan yang tidak berbahaya dan pengujian tim merah otomatis), menghasilkan ulasan dengan berbagai sentimen, dan melakukan tugas padding.

Makalah 6: Berdebat dengan LLM yang Lebih Persuasif Menghasilkan Jawaban yang Lebih Jujur

Pemain: Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel Bowman, Tim Rocktäschel, Ethan Perez

Institusi: University College London, Speechmatics, MATS, Anthropic, FAR AI

Alamat kertas: https://proceedings.mlr.press/v235/khan24a.html

Pendekatan umum untuk menyelaraskan model bahasa besar (LLM) dengan perilaku yang diinginkan sangat bergantung pada data yang diberi label manusia. Namun, ketika model menjadi lebih kompleks, model tersebut akan melampaui keahlian manusia, dan peran penilai manusia akan berkembang menjadi peran non-ahli yang mengawasi para ahli. Berdasarkan ekspektasi tersebut, peneliti mengajukan pertanyaan: Dapatkah model yang lebih lemah mengevaluasi kebenaran model yang lebih kuat? Mereka mempelajari masalah ini dengan membuat skenario serupa: model yang lebih kuat (pakar) memiliki informasi latar belakang yang dibutuhkan untuk menjawab pertanyaan, sedangkan model yang lebih lemah (yang bukan ahli) tidak memiliki informasi latar belakang. Para peneliti memilih debat sebagai metode tes - yaitu, membiarkan dua pakar LLM masing-masing mempertahankan jawaban yang berbeda, dan non-ahli memilih jawaban akhir.

Tim peneliti menemukan bahwa debat secara efektif membantu model non-ahli dan manusia menjawab pertanyaan, mencapai akurasi masing-masing 76% dan 88% (dasar awal masing-masing adalah 48% dan 60%).



Selain itu, mengoptimalkan daya persuasif para pendebat ahli tanpa pengawasan akan meningkatkan kemampuan non-ahli dalam mengidentifikasi kebenaran dalam perdebatan. Hasil ini memberikan referensi dengan memperdebatkan kelayakan model yang selaras tanpa adanya label kebenaran dasar.

Bab 7: Kompleksitas Informasi dari Optimasi Konveks Stokastik: Aplikasi untuk Generalisasi, Hafalan, dan Penelusuran

Pemain: Idan Attias, Gintare Karolina Dziugaite, Mahdi Haghifam, Roi Livni, Daniel Roy

Institusi: Universitas Ben-Gurion, Universitas Toronto, DeepMind, dll.

Alamat kertas: https://proceedings.mlr.press/v235/attias24a.html

Dalam karya ini, penulis mempelajari interaksi antara memori dan pembelajaran dalam konteks stochastic convex optimizer (SCO). Mereka mendefinisikan memori dengan mempelajari informasi yang diungkapkan algoritme tentang titik data pelatihannya dan mengukur informasi ini menggunakan kerangka informasi timbal balik bersyarat (CMI) yang diusulkan oleh Steinke dan Zakynthinou (2020).

Hasil utama dari penelitian ini adalah untuk secara akurat mengkarakterisasi trade-off antara keakuratan algoritma pembelajaran dan CMI-nya, menjawab pertanyaan terbuka yang diajukan oleh Livni (2023). Makalah ini menunjukkan bahwa di bawah pengaturan L² Lipschitz-bounded dan kondisi konveksitas kuat, CMI setiap pelajar dengan kesalahan berlebihan ϵ dibatasi lebih rendah oleh Ω(1/ϵ²) dan Ω(1/) masing-masing. Para penulis selanjutnya menunjukkan peran memori yang sangat diperlukan dalam masalah SCO dengan merancang musuh yang dapat secara akurat mengidentifikasi sejumlah besar sampel pelatihan dalam masalah SCO tertentu. Terakhir, mereka mengutip beberapa implikasi dari hasil tersebut, seperti keterbatasan batasan generalisasi berbasis CMI dan sampel yang tidak dapat dikompres dalam masalah SCO.

Makalah 8: Mengukur Keberagaman Kumpulan Data, Jangan Hanya Mengklaimnya

Pemain: Dora Zhao, Jerone Andrews, Orestis Papakyriakopoulos, Alice Xiang

Institusi: Universitas Stanford, Sony AI (London, Inggris), Universitas Teknik Munich, Sony AI (Seattle, AS)

Alamat makalah: https://arxiv.org/html/2407.08188v1

Kumpulan data pembelajaran mesin (ML) sering kali dianggap netral, namun pada dasarnya berisi konstruksi sosial yang abstrak dan kontroversial. Kurator kumpulan data sering kali menggunakan istilah sarat nilai seperti keragaman, bias, dan kualitas untuk mendeskripsikan kumpulan data. Meskipun istilah-istilah ini digunakan secara luas, namun definisi dan validasinya kurang jelas. Studi tim peneliti mengeksplorasi dampak masalah ini dengan menganalisis “keberagaman” di 135 kumpulan data gambar dan teks. Berdasarkan ilmu-ilmu sosial, prinsip-prinsip teori pengukuran diterapkan untuk mengidentifikasi pertimbangan dan memberikan rekomendasi untuk membuat konsep, mengoperasionalkan, dan menilai keragaman dalam kumpulan data. Temuan mereka memiliki implikasi luas terhadap penelitian ML, dan menganjurkan pendekatan yang lebih bernuansa dan tepat saat menangani atribut yang sarat nilai dalam konstruksi kumpulan data.

Makalah 9: VideoPoet: Model Bahasa Besar untuk Pembuatan Video Zero-Shot

Pengisi suara: Dan Kondratyuk, Lijun Yu, Xiuye ​​Gu, Jose Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh N Birodkar, Jimmy Yan, Ming-Chang Chiu, Krishna Somandepalli, Hassan Akbari, Yair Alon, Yong Cheng, Joshua V Dillon 、Agrim Gupta、Meera Hahn、Anja Hauth、David Hendon、Alonso Martinez、David Minnen、Mikhail Sirotenko、Kihyuk Sohn、Xuan Yang、Hartwig Adam、Ming-Hsuan Yang、Irfan Essa、Huisheng Wang、David Ross、Bryan Seybold dan Lu Jiang

Organisasi: Google, Universitas Carnegie Mellon

Alamat kertas: https://proceedings.mlr.press/v235/kondratyuk24a.html

Tautan proyek: http://sites.research.google/videopoet/

Laporan Machine Heart: Apakah pembuatan video bisa berdurasi tanpa batas?Model besar Google VideoPoet sedang online, netizen: teknologi revolusioner

Tim peneliti merilis VideoPoet, model bahasa yang mampu mensintesis video berkualitas tinggi dari berbagai sinyal kondisional. VideoPoet menggunakan arsitektur Transformer khusus decoder untuk menangani input multi-modal termasuk gambar, video, teks, dan audio.



Protokol pelatihan mengikuti alur model bahasa besar (LLM) dan terdiri dari dua tahap: pra-pelatihan dan adaptasi tugas spesifik. Pada tahap pra-pelatihan, VideoPoet menggabungkan target pembangkitan multi-modal dalam kerangka Transformer autoregresif. LLM terlatih berfungsi sebagai dasar dan dapat disesuaikan dengan berbagai tugas pembuatan video. Mereka mendemonstrasikan kemampuan model yang canggih dalam pembuatan video zero-shot, khususnya kemampuan untuk menghasilkan gerakan dengan ketelitian tinggi.

Makalah 10: Mencuri bagian dari model bahasa produksi

Pemain:Nicholas Carlini、Daniel Paleka、Krishnamurthy Dvijotham、Thomas Steinke、Jonathan Hayase、A. Feder Cooper、Katherine Lee、Matthew Jagielski、Milad Nasresfahani、Arthur Conmy、Eric Wallace、David Rolnick、Florian Tramer

Institusi: OpenAI, Google DeepMind, ETH Zurich, Universitas Washington, Universitas McGill

Alamat makalah: https://arxiv.org/pdf/2403.06634

Makalah ini mengusulkan metode baru untuk menyerang model AI. Ia dapat mengekstrak informasi secara akurat dari model bahasa generatif kotak hitam ChatGPT OpenAI atau PaLM-2 Google. Metode ini dapat membobol lapisan proyeksi tertanam Transformer (yang merupakan bagian penting dari pemahaman bahasa model), dan hanya memerlukan akses API, melalui situs web atau aplikasi, dan mengobrol dengan model untuk "mengalahkannya". Berdasarkan metode di makalah, para peneliti memecahkan seluruh matriks proyeksi dari dua model dasar seri GPT, Ada dan Babbage. Informasi penting seperti dimensi tersembunyi juga langsung dipecahkan: yang satu adalah 1024 dan yang lainnya adalah 2048. Mereka juga menerobos dimensi tersembunyi gpt-3.5-turbo, dan jika Anda ingin memulihkan seluruh matriks proyeksi model, biayanya tidak akan melebihi $2000. Para peneliti telah mengusulkan serangkaian langkah pertahanan dan strategi mitigasi untuk mencegah terjadinya serangan semacam itu.