Il classico decennale di Jia Yangqing ha vinto il Time Test Award! Estrazione a premi dei dieci migliori articoli ICML 2024, popolare SD3, Gu

Il classico decennale di Jia Yangqing ha vinto il Time Test Award! Estrazione dei dieci migliori premi cartacei ICML 2024, popolare SD3, Gu

2024-07-24

Nuovo rapporto sulla saggezza

Editor: Taozi è così assonnato

[Introduzione alla Nuova Saggezza] Il premio annuale ICML è stato finalmente annunciato! Quest'anno, un totale di dieci articoli hanno vinto il Best Paper Award, e tre di loro sono nomi familiari: il modello di generazione di immagini SD3, il modello di generazione di video VideoPoet e il modello di mondo di base Genie. Inoltre, il Time Test Award è stato assegnato al framework DeCAF proposto da Jia Yangqing e dal suo team dieci anni fa.

Gli ICML Awards 2024 sono stati appena annunciati!

Proprio adesso si è tenuta ufficialmente la cerimonia di apertura dell'ICML. Durante l'incontro sono stati annunciati i 10 migliori premi per gli articoli e un articolo dieci anni fa ha vinto il Time Test Award.

Tra i migliori articoli, ci sono diversi lavori popolari nel campo della generazione di immagini e video tramite intelligenza artificiale, tra cui il rapporto tecnico SD3, il modello video AI di Google CMU VideoPoet e il modello mondiale di base di Google Genie.

Vale la pena ricordare che l’articolo DeCAF pubblicato dal guru dell’intelligenza artificiale Jia Yangqing e altri nell’ottobre 2013 ha vinto il Time Test Award.

Proprio ora ha scritto di essere profondamente onorato di ricevere questo onore.

Russ Salakhutdinov, professore alla CMU e vicepresidente di Meta GenAI, ha fornito un riepilogo dei risultati complessivi del reclutamento dell'ICML 2024:

Questa conferenza ha ricevuto un totale di 9.473 documenti, di cui 2.610 accettati, con un tasso di accettazione del 27,55%. 144 articoli sono orali e 191 articoli sono Spotlight.

Quest'anno sono stati presentati nuovi documenti di sintesi, di cui 75 accettati (26%). 15 articoli sono orali e 11 articoli sono Spotlight.

Inoltre, nel Workshop sono pervenute 145 proposte, 30 delle quali sono state accettate. Il tutorial aveva 55 proposte e 12 sono state accettate.

Quest'anno si tratta della 41a conferenza annuale dell'ICML 2024 (una volta all'anno), che si terrà a Vienna, in Austria, dal 21 al 27 luglio.

All'incontro sono accorse una dopo l'altra 8.675 persone e non c'erano posti a sedere nel pubblico.

Panoramica del vertice ICML 2024

Prima di assegnare i premi, il comitato organizzatore ha presentato la situazione generale della conferenza di quest’anno:

· 9 pannelli di discussione EXPO

· 12 tutorial

· 6 relatori invitati

· 2.610 articoli (conferenza principale)

· 30 laboratori

· 12.345 autori e relatori

· Il 39% dei partecipanti sono studenti

· 10 attività sociali offline

· 3 eventi di affinità

· 52 volontari

· 97 presidenti di area senior (SAC), 492 presidenti di area (AC), 7473 revisori

· 9.406 partecipanti registrati (di cui 8.675 presenti in sede)

Sulla base dei documenti accettati, l'ICML ha riassunto le parole ad alta frequenza apparse, che sono anche le parole calde di quest'anno:

I modelli di grandi dimensioni compaiono più frequentemente, più di 600 volte.

Seguito da apprendimento per rinforzo, apprendimento profondo, rete neurale a grafo, apprendimento automatico, apprendimento federato, modello di diffusione, trasformatore, LLM, apprendimento di rappresentazione, modello generativo, ecc.

In termini di paesi/regioni registrati, gli Stati Uniti hanno 2.463 persone e la Cina è al secondo posto con oltre 1.100 persone.

Premio testato nel tempo

In generale, il Time Test Award viene assegnato a documenti accademici che hanno avuto un impatto importante e duraturo per più di 10 anni.

Questo articolo è anche un classico lavoro completato da Jia Yangqing, il padre di Caffe, che ha studiato alla UC Berkeley e ha collaborato con il team durante il suo tirocinio presso Google.

Una volta in un'intervista ha detto di aver bevuto troppo caffè durante il tirocinio presso Google nel 2013, quindi l'ha chiamato DeCAF per esortarsi a smettere di bere caffè.

Mentre faceva gli straordinari, ha pubblicato: "DeCAF dovrebbe essere una caratteristica fondamentale e profondamente radicata nel campo visivo, e anche dare al campo della visione artificiale una caratteristica generalizzabile..."

L'impatto della ricerca DeCAF è che ha dato vita al framework generale di rilevamento degli oggetti R-CNN, al framework di calcolo eterogeneo ad alte prestazioni Caffe, e ha contribuito indirettamente alla collaborazione tra Berkeley e NVIDIA per scrivere il framework di accelerazione di prima generazione CuDNN, e la distribuzione su larga scala della creazione di Yahoo Labs Una serie di lavori come la formazione CaffeOnSpark ha stabilito la posizione di leader di Berkeley nell'ondata del deep learning.

Titolo: DeCAF: una funzionalità di attivazione convoluzionale profonda per il riconoscimento visivo generico

Autori: Jeff Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, Trevor Darrell

Istituzione: Università della California, Berkeley

Indirizzo del documento: https://arxiv.org/abs/1310.1531

Per utilizzare un quadro probabilistico migliore per esprimere il comportamento umano, il team ha scritto personalmente il primo quadro DeCAF.

In questo lavoro, gli autori valutano se le caratteristiche estratte da una rete convoluzionale profonda addestrata in modo completamente supervisionato su un ampio insieme di compiti di riconoscimento di oggetti fissi possano essere riproposte su nuovi compiti di uso generale.

Questi compiti generali possono essere significativamente diversi dai compiti di formazione originali e potrebbero non avere abbastanza dati annotati o nessun dato annotato, in modo che i metodi convenzionali non possano essere utilizzati per addestrare o mettere a punto la rete profonda per adattarsi al nuovo compito.

Inoltre, l'autore ha anche visualizzato il raggruppamento semantico di caratteristiche convoluzionali profonde in compiti come il riconoscimento della scena, l'adattamento del dominio e il riconoscimento a grana fine e, confrontando gli effetti della definizione di caratteristiche fisse che dipendono da diversi livelli della rete, ha proposto diversi importante Nuovo SOTA raggiunto nelle sfide visive.

Infine, gli autori rilasciano un'implementazione open source di queste funzionalità di attivazione convoluzionale profonda: DeCA, insieme a tutti i parametri di rete associati. Ciò aiuta gli autori visivi a sperimentare rappresentazioni profonde in vari paradigmi di apprendimento dei concetti visivi.

I dieci migliori articoli

Quest'anno ci sono i dieci migliori articoli.

Le classifiche di cui sopra sono tutte in ordine di esposizione orale.

Articolo principale: Modellazione della diffusione discreta mediante la stima dei rapporti della distribuzione dei dati

Autore: Aaron Lou, Chenlin Meng, Stefano Ermon

Istituzione: Stanford University, Pika Labs

Indirizzo del documento: https://arxiv.org/abs/2310.16834

Questa ricerca propone un nuovo modello di apprendimento automatico SEDD (Score Entropy Discrete Diffusion), che è principalmente mirato a compiti di generazione di dati discreti.

Attualmente, i modelli di diffusione mostrano prestazioni rivoluzionarie in molte attività di modellazione generativa, ma hanno prestazioni scarse in campi di dati discreti come il linguaggio naturale.

Nell'articolo, l'autore ha proposto il concetto di entropia del punteggio per colmare questa lacuna.

Si tratta di una nuova funzione di perdita che estende naturalmente la corrispondenza dei punteggi allo spazio discreto, si integra perfettamente per creare modelli di diffusione discreta e migliora significativamente le prestazioni.

Durante il processo di valutazione sperimentale, il SEDD ha ottenuto risultati migliori rispetto ai modelli di diffusione del linguaggio esistenti (la perplessità è stata ridotta del 25-75%).

Inoltre, per alcuni aspetti supera anche i modelli autoregressivi come GPT-2.

In sintesi i vantaggi del SEDD sono:

- È possibile generare testo di alta qualità senza utilizzare tecniche come il ridimensionamento della temperatura (generare perplessità è circa 6-8 volte migliore rispetto a GPT-2 non ricotto)

- Compromesso flessibile tra risorse di elaborazione e qualità di output (utilizza 32 volte meno valutazioni di rete per ottenere prestazioni simili)

- Supporta il riempimento controllabile del testo, offrendo maggiore flessibilità. (corrispondenza della qualità del campionamento del nucleo, supportando al contempo strategie diverse dal suggerimento da sinistra a destra).

Articolo 2: Trasformatori di flusso rettificati in scala per la sintesi di immagini ad alta risoluzione

Interpreti: Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Kyle Lacey, Alex Goodwin, Yannik Marek, Robin Rombach

Organizzazione: Stabilità AI

Indirizzo del documento: https://arxiv.org/abs/2403.03206

Come accennato all'inizio, questo articolo è un rapporto tecnico sul popolare Stable Diffusion 3.

Similmente a Sora, SD3 utilizza una versione migliorata del modello Diffusion e una nuova architettura basata sul grafo vincenziano di DiT.

Nello specifico, gli autori hanno utilizzato tre diversi codificatori di testo, due modelli CLIP e un T5, per elaborare le informazioni di testo, utilizzando al contempo un modello di codifica automatica più avanzato per elaborare le informazioni sulle immagini.

L'architettura MMDiT (Multi-Modal Diffusion Transformer) recentemente proposta utilizza set di pesi indipendenti rispettivamente per la rappresentazione delle immagini e della lingua. Rispetto alla prima versione di SD3, migliora significativamente la comprensione del testo e le capacità di ortografia del testo.

I risultati della valutazione mostrano che SD3 raggiunge o supera l'attuale stato dell'arte della tecnologia di generazione dei diagrammi vincenziani in termini di precisione nel seguire le istruzioni, presentazione chiara del testo e bellezza visiva delle immagini.

Articolo principale: Inferenza probabilistica nei modelli linguistici tramite Twisted Sequential Monte Carlo

Titolo: Stephen Zhao, Rob Brekelmans, Alireza Makhzani, Roger Grosse

Istituzione: Università di Toronto, Vector Institute

Indirizzo del documento: https://arxiv.org/abs/2404.17546

Questa ricerca si concentra su problemi di campionamento e inferenza in modelli di grandi dimensioni.

Molte delle funzionalità e delle tecnologie di sicurezza di LLM, come RLHF, test automatizzati del team rosso, ingegneria rapida e riempimento, possono essere considerate:

Data una ricompensa o una funzione potenziale, campionare dalla sua distribuzione target non normalizzata definita. Questa distribuzione è definita per la sequenza completa.

Nell'articolo, l'autore propone di utilizzare il metodo sequenziale Monte Carlo (SMC) per risolvere questi problemi di probabilità di campionamento.

A questo proposito, l’autore ha proposto funzioni twist per stimare i potenziali valori futuri in ogni fase temporale per ottimizzare il processo di campionamento.

Inoltre, hanno anche proposto un metodo per utilizzare nuovi limiti SMC bidirezionali per valutare l'accuratezza delle tecniche di inferenza LLM.

I risultati finali mostrano che Twisted SMC mostra una forte efficacia nel campionare output errati da modelli pre-addestrati, nel generare revisioni con sentimenti diversi e nell'eseguire attività di riempimento.

Documento 4: Posizione: misurare la diversità dei set di dati, non limitarsi a rivendicarla

Titolo: Dora Zhao, Jerone TA Andrews, Orestis Papakyriakopoulos, Alice Xiang

Istituzioni: Stanford University, Università Tecnica di Monaco, Sony AI

Indirizzo del documento: https://arxiv.org/abs/2407.08188

Attualmente, molti set di dati si etichettano come diversità ma in realtà incorporano concetti sociali astratti e controversi.

In questo lavoro, gli autori esplorano questa domanda analizzando la "diversità" in 135 set di dati di immagini e testo.

Come mostrato di seguito, gli autori attingono alla teoria della misurazione dalla teoria delle scienze sociali come fattori da considerare e forniscono suggerimenti per concettualizzare, rendere operativo e valutare la diversità nei set di dati.

Lo scopo ultimo di questa ricerca è invitare gli studiosi di intelligenza artificiale ad adottare metodi di elaborazione più dettagliati e precisi per i dati degli attributi con giudizi di valore nella ricerca sull'apprendimento automatico, in particolare nel processo di costruzione del set di dati.

Documento 5: Rubare parte di un modello linguistico di produzione

作者：Nicholas Carlini,Daniel Paleka,Krishnamurthy Dj Dvijotham,Thomas Steinke,Jonathan Hayase,A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasr, Arthur Conmy, Itay Yona, Eric Wallace, David Rolnick, Florian Tramèr

Istituzioni: ETH Zurigo, Università di Washington, McGill University, Google DeepMind, OpenAI

Indirizzo del documento: https://arxiv.org/abs/2403.06634

In questo lavoro, gli autori presentano il primo attacco model-stealing in grado di estrarre informazioni precise e complesse da modelli linguistici black-box come ChatGPT di OpenAI o PaLM-2 di Google.

Nello specifico, questo attacco è in grado di ricostruire lo strato di proiezione incorporato del modello Transformer (in condizioni di simmetria) attraverso un regolare accesso API.

E, per meno di 20 dollari, puoi estrarre l’intera matrice di proiezione dei modelli linguistici Ada e Babbage di OpenAI. Ciò ha confermato per la prima volta che questi due modelli di scatola nera hanno dimensioni nascoste rispettivamente di 1024 e 2048.

Inoltre, l'autore ha anche ripristinato l'esatta dimensione nascosta del modello gpt-3.5-turbo. Questa volta, il costo di estrazione dell’intera matrice di proiezione è stato di soli 2.000 dollari.

Infine, gli autori propongono potenziali misure di difesa e mitigazione e discutono le implicazioni per il lavoro futuro.

Titolo: Complessità informativa dell'ottimizzazione convessa stocastica: applicazioni alla generalizzazione e alla memorizzazione

Titolo: Idan Attias, Gintare Karolina Dziugaite, Mahdi Haghifam, Roi Livni, Daniel M. Roy

Istituzioni: Ben Gurion University, Northeastern University, Tel Aviv University, University of Toronto, Vector Institute, Google DeepMind

Indirizzo del documento: https://arxiv.org/abs/2402.09327

In questo lavoro, gli autori studiano l'interazione tra memorizzazione e apprendimento nel contesto di problemi di ottimizzazione convessa stocastica (SCO).

Innanzitutto, la memorizzazione è definita da algoritmi di apprendimento per rivelare informazioni sui punti dati di addestramento. Quindi, per la quantificazione viene utilizzato il quadro delle informazioni reciproche condizionali (CMI). In questo modo si ottiene una descrizione precisa del compromesso tra l'accuratezza di un algoritmo di apprendimento e il suo CMI.

I risultati mostrano che con l'impostazione L^2 limitata da Lipschitz e condizioni di forte convessità, il CMI di ogni studente con errore in eccesso ε ha limiti inferiori rispettivamente a Ω(1/ε^2) e Ω(1/ε).

Inoltre, gli autori dimostrano l'importante ruolo della memorizzazione nei problemi di apprendimento SCO progettando un avversario in grado di identificare accuratamente la maggior parte dei campioni di formazione in uno specifico problema SCO.

Infine, gli autori citano diverse importanti implicazioni, come le limitazioni dei limiti di generalizzazione basati su CMI e l'incomprimibilità del campione nel problema SCO.

Titolo: Posizione: Considerazioni per l'apprendimento privato differenziale con pre-formazione pubblica su larga scala

Autori: Florian Tramèr, Gautam Kamath, Nicholas Carlini

Istituzioni: ETH Zurigo, Università di Waterloo, Vector Institute, Google DeepMind

Indirizzo del documento: https://arxiv.org/abs/2212.06470

Le prestazioni dell'apprendimento automatico differenzialmente privato possono essere notevolmente migliorate sfruttando le capacità di trasferimento di apprendimento di modelli non privati pre-addestrati su grandi set di dati pubblici.

In questo lavoro, gli autori si chiedono se l’utilizzo di grandi set di dati ricavati dal web sia coerente con una protezione differenziale della privacy. Ha inoltre avvertito che definire “privati” questi modelli pre-addestrati sui dati di rete potrebbe causare molti danni, come l’indebolimento della fiducia del pubblico nel concetto di privacy differenziale.

Oltre alle considerazioni sulla privacy legate all’utilizzo di dati pubblici, gli autori mettono ulteriormente in dubbio la praticità di questo approccio.

L'impatto della formazione preliminare è particolarmente evidente per i modelli troppo grandi per essere eseguiti dagli utenti finali sui propri dispositivi. Poiché ciò richiederebbe l’esternalizzazione dei dati privati a una terza parte con maggiore potere computazionale, l’implementazione di un tale modello comporterebbe una perdita netta di privacy.

Infine, gli autori discutono i potenziali percorsi di sviluppo per il campo dell’apprendimento sulla privacy man mano che la pre-formazione pubblica diventa più popolare e potente.

Documento 8: Il dibattito con LLM più persuasivi porta a risposte più veritiere

Interpreti: Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel R. Bowman, Tim Rocktäschel, Ethan Perez

Istituzioni: University College London, Speechmatics, MATS, Anthropic, FAR AI

Indirizzo del documento: https://arxiv.org/abs/2402.06782

I metodi di allineamento LLM attualmente comunemente utilizzati si basano in gran parte su dati annotati manualmente.

Tuttavia, man mano che i modelli diventano più complessi, supereranno le competenze umane e il ruolo dei valutatori umani si evolverà in quello di non esperti che supervisionano gli esperti.

Sulla base di ciò, l'autore ha sollevato una domanda: un modello più debole può valutare la correttezza di un modello più forte?

In base alla progettazione, i modelli più forti (esperti) dispongono delle informazioni necessarie per rispondere alla domanda, mentre i modelli più deboli (non esperti) mancano di queste informazioni.

Il metodo di valutazione è il dibattito, in cui due esperti LLM difendono ciascuno risposte diverse, piuttosto che gli esperti che scelgono le risposte.

I risultati hanno mostrato che il dibattito ha costantemente aiutato i modelli non esperti e gli esseri umani a rispondere meglio alle domande, raggiungendo rispettivamente un’accuratezza del 76% e dell’88% (il valore di riferimento era rispettivamente del 48% e del 60%).

Inoltre, ottimizzare la persuasività dei dibattiti esperti attraverso mezzi non supervisionati migliora la capacità dei non esperti di identificare la verità nei dibattiti.

Documento 9: Genie: ambienti interattivi generativi

Interpreti: Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes, Matthew Lai, Aditi Mavalankar, Richie Steigerwald, Chris Apps, Yusuf Aytar, Sarah Bechtle, Feryal Behbahani, Stephanie Chan, Nicolas Heess, Lucy Gonzalez, Simon Osindero, Sherjil Ozair, Scott Reed, Jingwei Zhang, Konrad Zolna, Jeff Clune, Nando de Freitas, Satinder Singh, Tim Rocktäschel

Istituzione: Columbia University, Google DeepMind

Indirizzo del documento: https://arxiv.org/pdf/2402.15391

Il modello del mondo di base rilasciato dal team di Google DeepMind: Genie "Elf".

Da un'immagine, una foto, uno schizzo può generare un mondo infinito.

La cosa pazzesca di Genie è che ha imparato da 200.000 ore di video Internet senza etichetta e si è formato senza supervisione.

Senza alcuna annotazione di azione, è possibile determinare chi è il protagonista e dare all'utente il controllo su di lui nel mondo generato.

Nello specifico, è implementato attraverso tre componenti principali: modello di azione latente, segmentatore video e modello dinamico autoregressivo.

Lo spazio di azione latente appreso che ne risulta non solo consente l'interazione dell'utente, ma aiuta anche a formare gli agenti a imitare comportamenti in video invisibili.

Tutto sommato, Genie apre un nuovo modo di coltivare futuri agenti generalisti e rimodella il panorama degli ambienti generativi interattivi.

Articolo 10: VideoPoet: un modello linguistico di grandi dimensioni per la generazione di video Zero-Shot

作者：Dan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh Birodkar, Jimmy Yan, Ming-Chang Chiu, Krishna Somandepalli, Hassan Akbari, Yair Alon, Yong Cheng, Josh Dillon, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, Mikhail Sirotenko, Kihyuk Sohn, Xuan Yang, Hartwig Adam, Ming-Hsuan Yang, Irfan Essa, Huisheng Wang, David A. Ross, Bryan Seybold, Lu Jiang

Istituzione: Carnegie Mellon University, Google

Indirizzo del documento: https://arxiv.org/pdf/2312.14125

Prima del rilascio di Sora, Google e il team CMU hanno lanciato VideoPoet, una tecnologia di generazione video simile a Sora, su una roadmap tecnica nel dicembre 2023.

VideoPoet può generare 10 secondi di video ultra lunghi e coerenti con azioni di grandi dimensioni alla volta e non sono richiesti dati specifici per generare il video.

Nello specifico VideoPoet comprende principalmente i seguenti componenti:

- Il tokenizzatore video MAGVIT V2 pre-addestrato e il tokenizzatore audio SoundStream possono convertire immagini, video e clip audio di diversa lunghezza in sequenze di codici discrete in un vocabolario unificato. Questi codici sono compatibili con i modelli linguistici testuali e possono essere facilmente combinati con altre modalità come il testo.

- Il modello linguistico autoregressivo può eseguire l'apprendimento cross-modale tra video, immagine, audio e testo e prevedere il successivo token video o audio nella sequenza in modo autoregressivo.

- Una varietà di obiettivi di apprendimento della generazione multimodale vengono introdotti nell'ampio quadro di formazione del modello linguistico, tra cui testo in video, testo in immagine, immagine in video, continuazione di fotogrammi video, riparazione/espansione video, stilizzazione video e video in audio, ecc. . Inoltre, queste attività possono essere combinate tra loro per ottenere ulteriori funzionalità a campione zero (ad esempio, da testo ad audio).

A differenza dei modelli principali, VideoPoet non si basa su un modello di diffusione, ma su un ampio modello multimodale, che può avere T2V, V2A e altre funzionalità.

In breve, VideoPoet presenta tre vantaggi principali: generare video più lunghi, ottenere un controllo più preciso e movimenti potenti della telecamera.

Premio per il miglior recensore

Soprattutto, alla conferenza ICML 2024 è stato annunciato anche il premio per il miglior revisore.

Riferimenti:

https://x.com/icmlconf/status/1815646373791842545

https://x.com/icmlconf/status/1815646856241672211

notizia

Il classico decennale di Jia Yangqing ha vinto il Time Test Award! Estrazione dei dieci migliori premi cartacei ICML 2024, popolare SD3, Gu

introduzione

le mie informazioni di contatto