notizia

Jia Yangqing ha vinto il Time Test Award per uno dei suoi articoli, ma non si è qualificato per i 10 migliori articoli in Cina e per il Premio ICML 2024

2024-07-23

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rapporto sul cuore della macchina

Dipartimento editoriale di Machine Heart

Il nome completo di ICML è International Conference on Machine Learning. È organizzata dalla International Machine Learning Society (IMLS) ed è la conferenza più importante nel campo dell'intelligenza artificiale dei computer.

La conferenza ICML di quest'anno è la 41esima e si tiene attualmente a Vienna, in Austria. Alla cerimonia di apertura appena tenuta, l'ICML, che sta diventando sempre più popolare ogni anno, ha annunciato i dati della conferenza di quest'anno e le informazioni sui premi.



Questa conferenza principale ha ricevuto un totale di 9473 documenti validi, di cui sono stati accettati 2610 documenti, con un tasso di accettazione del 27,5%, inclusi 144 documenti orali e 191 documenti in evidenza.



Le parole chiave degli articoli accettati sono: modello linguistico di grandi dimensioni, apprendimento per rinforzo, apprendimento profondo, rete neurale a grafo, apprendimento automatico, apprendimento federato, modello di diffusione, trasformatore, LLM, apprendimento della rappresentazione, modello generativo... Queste parole chiave rappresentano anche l'attuale La direzione di ricerca più popolare nel campo dell'intelligenza artificiale.

Oltre a questi dati, durante la conferenza sono stati annunciati anche i Time Test Awards e i Best Papers di quest'anno. DeCAF, un articolo che Jia Yangqing ha co-completato mentre era a Berkeley dieci anni fa, ha vinto il Time Test Award di quest’anno. Rispetto ai 6 dell'anno scorso, 10 studi hanno vinto il miglior articolo quest'anno, tra cui il modello mondiale Genie di Google DeepMind, il modello video VideoPoet, ecc. che è diventato popolare qualche tempo fa.

Premio testato nel tempo

Riguardo alla vincita del premio da parte di DeCAF, Jia Yangqing ha detto nella cerchia di amici: "Dalla terminologia odierna, DeCAF dovrebbe essere la caratteristica fondamentale e il profondo radicamento nel campo della visione, e ha anche dato al campo della visione artificiale una caratteristica generalizzabile. Il lavoro di DeCAF in seguito diede vita al framework di rilevamento degli oggetti Generali R-CNN, il framework di calcolo eterogeneo ad alte prestazioni Caffe, contribuì indirettamente alla cooperazione tra Berkeley e NVidia nella scrittura del framework di accelerazione di prima generazione CuDNN, il training distribuito su larga scala CaffeOnSpark creato da Yahoo Labs e una serie di altri lavori, che stabiliscono la posizione di leader di Berkeley nell’ondata del deep learning”.



Autore: DeCAF: una funzionalità di attivazione convoluzionale profonda per il riconoscimento visivo generico

Attori: Jeffrey Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, Trevor Darrell

Istituzione: UC Berkeley & ICSI, Berkeley, CA, USA

Link al documento: https://arxiv.org/pdf/1310.1531

Il gruppo di ricerca ha valutato se le caratteristiche estratte dalle attivazioni di reti convoluzionali profonde addestrate in modo completamente supervisionato su una serie fissa e su larga scala di compiti di riconoscimento di oggetti possano essere riproposte per nuovi compiti di uso generale. Questi compiti generali potrebbero essere significativamente diversi da quelli per i quali erano stati originariamente formati e potrebbero non esserci abbastanza dati etichettati o non etichettati per addestrare o adattare regolarmente le architetture profonde a nuovi compiti. Studiano e visualizzano il clustering semantico di caratteristiche convoluzionali profonde in una varietà di compiti, tra cui il riconoscimento della scena, l'adattamento del dominio e le sfide di riconoscimento a grana fine. I ricercatori hanno confrontato gli effetti dell’affidarsi a diversi strati della rete per definire caratteristiche fisse e hanno riportato nuovi risultati che superano significativamente le tecniche esistenti su diverse importanti sfide visive. Hanno rilasciato DeCAF, un'implementazione open source di funzionalità di attivazione convoluzionale profonda che contiene tutti i parametri di rete rilevanti per consentire ai ricercatori della visione di sperimentare rappresentazioni profonde attraverso una gamma di paradigmi di apprendimento dei concetti visivi.

carta migliore

Articolo 1: Trasformatori di flusso rettificati in scala per la sintesi di immagini ad alta risoluzione

Interpreti: Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Robin Rombach

Organizzazione: Stabilità AI

Indirizzo del paper: https://proceedings.mlr.press/v235/esser24a.html

Machine Heart Report: il documento su Stable Diffusion 3 è stato finalmente pubblicato e i dettagli dell'architettura sono stati rivelati. Aiuterà a riprodurre Sora?

Questa carta è esattamente la carta Stable Diffusion 3. Rispetto alla versione precedente, la qualità delle immagini generate da Stable Diffusion 3 è stata notevolmente migliorata, supporta istruzioni multitema e anche l'effetto di scrittura del testo è migliore.



Architettura del modello Stable Diffusion 3.

I modelli di diffusione, che creano dati dal rumore invertendone il percorso nel rumore, sono emersi come una potente tecnica di modellazione generativa per dati sensoriali ad alta dimensione come immagini e video. Il Rectified Flow (RF) è una recente formulazione di modello generativo che collega dati e rumore in linea retta. Nonostante le sue migliori proprietà teoriche e la semplicità concettuale, non è stata ancora chiaramente stabilita come pratica standard.

Questa ricerca migliora le tecniche di campionamento del rumore esistenti addestrando i modelli RF orientandoli verso scale percettivamente rilevanti. Attraverso uno studio su larga scala, questo studio dimostra le prestazioni superiori di questo approccio rispetto alle formulazioni di diffusione esistenti per la sintesi da testo a immagine ad alta risoluzione.

Inoltre, la ricerca propone anche una nuova architettura basata su Transformer per la generazione di testo in immagine, che utilizza pesi separati per le due modalità e consente il flusso di informazioni bidirezionale tra token di immagine e testo, migliorando così la comprensione del testo, le valutazioni delle preferenze umane, ecc. . Lo studio dimostra che l'architettura segue una tendenza di scalabilità prevedibile e osserva che la perdita di convalida diminuisce gradualmente con l'aumento delle dimensioni del modello e delle fasi di training.



Trasformatore di diffusione multimodale migliorato: blocco MMDiT.

Documento 2: Genie: ambienti interattivi generativi

Autori: Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes

Istituzione: Google DeepMind, Università della British Columbia

Indirizzo del documento: https://arxiv.org/pdf/2402.15391.pdf

Questo articolo definisce un nuovo paradigma di intelligenza artificiale generativa - Generative Interactive Environments - Genie (Generative Interactive Environments). Genie è un modello mondiale di base da 11 miliardi di parametri in grado di generare ambienti interattivi giocabili da un singolo prompt di immagine.

Machine Heart Report: Proprio ora Google ha rilasciato un modello mondiale di base: parametri 11B, che possono generare un mondo virtuale interattivo

Diversi componenti dell'architettura Genie sono basati su Vision Transformer (ViT). Vale la pena notare che a causa del costo della memoria secondaria di Transformer, che comporta sfide nel campo dei video, i video possono contenere fino a (10^4) token. Pertanto, Google utilizza l'architettura del trasformatore ST efficiente in termini di memoria in tutti i componenti del modello per bilanciare la capacità del modello e i vincoli computazionali.



Genie è costituito da tre componenti chiave (come mostrato nella figura seguente):

1) Modello di Azione Latente (LAM), utilizzato per ragionare sulle azioni potenziali tra ciascuna coppia di frame;

2) Tokenizer video (Tokenizer), utilizzato per convertire i fotogrammi video originali in token discreti;

3) Il modello dinamico, date le potenziali azioni e i token dei fotogrammi passati, viene utilizzato per prevedere il fotogramma successivo del video.



Per ottenere una generazione video controllabile, Google utilizza le azioni intraprese nel fotogramma precedente come condizioni per la previsione dei fotogrammi futuri. Tuttavia, tali etichette di azioni sono raramente disponibili nei video su Internet e il costo per ottenere le annotazioni delle azioni può essere elevato. Invece, Google apprende le potenziali azioni in modo completamente non supervisionato.



Documento 3: Considerazioni sull'apprendimento differenzialmente privato con la preformazione pubblica su larga scala

Autori: Florian Tramèr, Gautam Kamath, Nicholas Carlini

Istituzioni: ETH Zurigo, Università di Waterloo, Google DeepMind

Indirizzo del documento: https://arxiv.org/abs/2212.06470

Le prestazioni dell'apprendimento automatico differenzialmente privato possono essere notevolmente migliorate sfruttando le capacità di trasferimento di apprendimento di modelli non privati ​​pre-addestrati su grandi set di dati pubblici. Il documento si chiede se l’utilizzo di grandi set di dati raschiati sul web debba essere considerato in modo differenziato privato.

Lo studio ritiene che impostare questi modelli pre-addestrati sui dati di rete come modelli “privati” possa danneggiare e indebolire la fiducia del pubblico nella privacy differenziale. Oltre alle considerazioni sulla privacy legate all’utilizzo dei dati pubblici, lo studio mette ulteriormente in discussione l’utilità di questo paradigma. Lo studio esamina se i benchmark di machine learning esistenti sono adatti a misurare la capacità dei modelli pre-addestrati di generalizzare ad ambiti sensibili che potrebbero essere difficili da rappresentare nei dati della rete pubblica.

Inoltre, lo studio rileva che l’implementazione di modelli di grandi dimensioni può comportare una perdita netta di privacy a causa della necessità di esternalizzare i dati privati ​​a terzi con maggiore potenza di calcolo.

Documento 4: Modellazione della diffusione discreta stimando i rapporti di distribuzione dei dati

Autore: Aaron Lou, Chenlin Meng, Stefano Ermon

Istituzione: Stanford University, Pika Labs

Indirizzo del documento: https://proceedings.mlr.press/v235/lou24a.html

Sebbene i modelli di diffusione funzionino bene in molte attività di modellazione generativa, non riescono a funzionare come previsto in domini di dati discreti come il linguaggio naturale. I modelli di diffusione standard si basano su una teoria ben consolidata della corrispondenza dei punteggi, ma i tentativi di generalizzare questa teoria a strutture discrete non hanno portato agli stessi vantaggi empirici.

In questo lavoro, il gruppo di ricerca colma questa lacuna proponendo una nuova perdita chiamata entropia segnata. L'entropia con punteggio estende naturalmente la corrispondenza del punteggio allo spazio discreto, si integra perfettamente per creare modelli di diffusione discreta e migliora significativamente le prestazioni.

Nei loro esperimenti, hanno testato il modello di diffusione discreta dell'entropia con punteggio (SEDD) su un compito di modellazione del linguaggio standard. A dimensioni di modello comparabili, SEDD supera i paradigmi di diffusione del linguaggio esistenti (riduzione del 25-75% della perplessità) e compete con i modelli autoregressivi, in particolare superando GPT-2. Inoltre, rispetto ai modelli autoregressivi, SEDD è in grado di generare testo reale (generando perplessità circa 6-8 volte superiore rispetto a GPT-2 non ricotto) senza la necessità di tecniche di ricottura distribuita (come il ridimensionamento della temperatura) e può essere utilizzato nei compromessi tra sforzo computazionale e qualità (raggiungere una qualità simile con 32 volte meno valutazioni di rete) e supporta il riempimento controllabile (corrispondente alla qualità di campionamento del kernel consentendo al tempo stesso altre strategie rispetto al suggerimento da sinistra a destra).

Articolo 5: Inferenza probabilistica nei modelli linguistici tramite Monte Carlo sequenziale contorto

Titolo: Stephen Zhao, Rob Brekelmans, Alireza Makhzani, Roger Grosse

Istituzione: Università di Toronto, Vector Institute

Indirizzo del documento: https://proceedings.mlr.press/v235/zhao24c.html

Le numerose capacità e tecniche di sicurezza dei modelli linguistici di grandi dimensioni (LLM), tra cui RLHF, test automatizzati del team rosso, ingegneria dei suggerimenti e riempimento, possono essere viste come campionamento da una distribuzione target denormalizzata definita da una data ricompensa o funzione latente. In questo lavoro, gli autori sfruttano il ricco toolbox di Sequential Monte Carlo (SMC) per gestire questi problemi di inferenza probabilistica. In particolare, utilizzano una funzione di warp appresa per stimare i potenziali valori futuri attesi in ogni fase temporale, consentendo al calcolo al momento dell’inferenza di concentrarsi sulle parti promettenti della sequenza.

Proponiamo un nuovo approccio contrastivo all'apprendimento delle funzioni di deformazione e creiamo collegamenti con la ricca letteratura sull'apprendimento con rinforzo morbido. Come applicazione complementare del framework SMC twistato, propongono un metodo per valutare l'accuratezza delle tecniche di inferenza del modello linguistico sulle funzioni di partizione del log utilizzando un nuovo limite SMC bidirezionale. Questi limiti possono essere utilizzati per stimare la divergenza KL bidirezionale tra la distribuzione di inferenza e la distribuzione target. Applicando tecniche di valutazione dell'inferenza, dimostrano che Twisted SMC è efficace nel campionare risultati indesiderati da modelli pre-addestrati (utili per la formazione innocua e i test automatizzati del team rosso), generando revisioni con sentimenti diversi ed eseguendo attività di riempimento.

Documento 6: Il dibattito con LLM più persuasivi porta a risposte più veritiere

作者:Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel Bowman, Tim Rocktäschel, Ethan Perez

Istituzioni: University College London, Speechmatics, MATS, Anthropic, FAR AI

Indirizzo del documento: https://proceedings.mlr.press/v235/khan24a.html

Gli approcci comuni per allineare i modelli linguistici di grandi dimensioni (LLM) con i comportamenti desiderati si basano in gran parte su dati etichettati dall'uomo. Tuttavia, man mano che i modelli diventeranno più complessi, supereranno le competenze umane e il ruolo dei valutatori umani si evolverà in quello di non esperti che supervisionano gli esperti. Sulla base di questa aspettativa, i ricercatori hanno posto una domanda: un modello più debole può valutare la correttezza di un modello più forte? Hanno studiato questo problema creando uno scenario simile: uno in cui il modello più forte (l’esperto) aveva le informazioni di base necessarie per rispondere alla domanda, mentre il modello più debole (il non esperto) mancava di queste informazioni. I ricercatori hanno scelto il dibattito come metodo di prova, ovvero lasciare che due esperti LLM difendano ciascuno risposte diverse, mentre i non esperti scelgano la risposta finale.

Il team di ricerca ha scoperto che il dibattito ha aiutato efficacemente i modelli non esperti e gli esseri umani a rispondere alle domande, ottenendo rispettivamente una precisione del 76% e dell’88% (il valore di riferimento originale era rispettivamente del 48% e del 60%).



Inoltre, ottimizzare la persuasività dei dibattiti esperti in modo non supervisionato migliora la capacità dei non esperti di identificare la verità nei dibattiti. Questo risultato fornisce un riferimento discutendo la fattibilità di modelli allineati in assenza di etichette di verità.

Lezione 7: Complessità informativa dell'ottimizzazione convessa stocastica: applicazioni alla generalizzazione, memorizzazione e tracciamento

Titolo: Idan Attias, Gintare Karolina Dziugaite, Mahdi Haghifam, Roi Livni, Daniel Roy

Istituzioni: Università Ben-Gurion, Università di Toronto, DeepMind, ecc.

Indirizzo del documento: https://proceedings.mlr.press/v235/attias24a.html

In questo lavoro, gli autori studiano l'interazione tra memoria e apprendimento nel contesto dell'ottimizzazione convessa stocastica (SCO). Definiscono la memoria apprendendo le informazioni che l'algoritmo rivela sui suoi punti dati di addestramento e quantificano queste informazioni utilizzando il quadro delle informazioni reciproche condizionali (CMI) proposto da Steinke e Zakynthinou (2020).

Il risultato principale di questo studio è quello di caratterizzare accuratamente il compromesso tra l'accuratezza di un algoritmo di apprendimento e il suo CMI, rispondendo a una domanda aperta posta da Livni (2023). Questo articolo mostra che in un contesto L² limitato da Lipschitz e in condizioni di forte convessità, il CMI di ogni studente con un errore eccessivo ϵ è limitato inferiore rispettivamente da Ω(1/ϵ²) e Ω(1/). Gli autori dimostrano ulteriormente il ruolo indispensabile della memoria nel problema SCO progettando un avversario in grado di identificare accuratamente un gran numero di campioni di addestramento in uno specifico problema SCO. Infine, citano diverse implicazioni dei risultati, come le limitazioni dei limiti di generalizzazione basati su CMI e l'incomprimibilità dei campioni nel problema SCO.

Documento 8: Misurare la diversità dei set di dati, non limitarsi a rivendicarla

作者:Dora Zhao、Jerone Andrews、Orestis Papakyriakopoulos、Alice Xiang

Istituzioni: Stanford University, Sony AI (Londra, UK), Technical University of Monaco, Sony AI (Seattle, USA)

Indirizzo del documento: https://arxiv.org/html/2407.08188v1

I set di dati di machine learning (ML) sono spesso considerati neutrali, ma contengono intrinsecamente costrutti sociali astratti e contestati. I curatori di set di dati utilizzano spesso termini carichi di valore come diversità, pregiudizi e qualità per descrivere i set di dati. Sebbene questi termini siano ampiamente utilizzati, mancano di una definizione e di una convalida chiare. Lo studio del gruppo di ricerca ha esplorato l'impatto di questo problema analizzando la "diversità" in 135 set di dati di immagini e testo. Traendo spunto dalle scienze sociali, i principi della teoria della misurazione vengono applicati per identificare considerazioni e fornire raccomandazioni per concettualizzare, rendere operativo e valutare la diversità nei set di dati. I loro risultati hanno ampie implicazioni per la ricerca sul machine learning, sostenendo un approccio più sfumato e preciso nella gestione degli attributi carichi di valore nella costruzione del set di dati.

Articolo 9: VideoPoet: un modello linguistico di grandi dimensioni per la generazione di video Zero-Shot

作者:Dan Kondratyuk、Lijun Yu、Xiuye ​​Gu、Jose Lezama、 Jonathan Huang、Grant Schindler、Rachel Hornung、Vighnesh N Birodkar、Jimmy Yan、Ming-Chang Chiu、Krishna Somandepalli、Hassan Akbari、Yair Alon、Yong Cheng 、Joshua V Dillon 、Agrim Gupta、Meera Hahn、Anja Hauth、David Hendon、Alonso Martinez、David Minnen、Mikhail Sirotenko、Kihyuk Sohn、Xuan Yang、Hartwig Adam、Ming-Hsuan Yang、Irfan Essa、Huisheng Wang、David Ross、Bryan Seybold, Lu Jiang

Organizzazione: Google, Carnegie Mellon University

Indirizzo del documento: https://proceedings.mlr.press/v235/kondratyuk24a.html

Link al progetto: http://sites.research.google/videopoet/

Machine Heart Report: la generazione di video può essere infinitamente lunga?Il modello grande di Google VideoPoet è online, netizen: tecnologia rivoluzionaria

Il gruppo di ricerca ha rilasciato VideoPoet, un modello linguistico in grado di sintetizzare video di alta qualità da più segnali condizionali. VideoPoet utilizza un'architettura Transformer solo decoder per gestire input multimodali tra cui immagini, video, testo e audio.



Il protocollo di formazione segue la pipeline dei modelli linguistici di grandi dimensioni (LLM) e si compone di due fasi: pre-formazione e adattamento specifico al compito. Nella fase di pre-formazione, VideoPoet combina obiettivi di generazione multimodale all'interno di un quadro di Transformer autoregressivo. Il LLM pre-addestrato funge da base e può essere adattato a una serie di attività di generazione video. Dimostrano le capacità all'avanguardia del modello nella generazione di video zero-shot, in particolare la capacità di generare movimento ad alta fedeltà.

Paper 10: Rubare parte di un modello linguistico di produzione

作者:Nicholas Carlini、Daniel Paleka、Krishnamurthy Dvijotham、Thomas Steinke、Jonathan Hayase、A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasresfahani, Arthur Conmy, Eric Wallace, David Rolnick, Florian Tramer

Istituzioni: OpenAI, Google DeepMind, ETH Zurigo, Università di Washington, McGill University

Indirizzo del documento: https://arxiv.org/pdf/2403.06634

Questo articolo propone un nuovo metodo per attaccare i modelli di intelligenza artificiale. Può estrarre accuratamente informazioni dal modello linguistico generativo a scatola nera di ChatGPT di OpenAI o PaLM-2 di Google. Questo metodo può penetrare nel livello di proiezione incorporato del Transformer (che è una parte fondamentale della comprensione del linguaggio da parte del modello) e richiede solo l'accesso all'API, attraverso un sito Web o un'applicazione, e la chat con il modello per "sconfiggerlo". Basandosi sul metodo descritto nel documento, i ricercatori hanno violato direttamente l'intera matrice di proiezione dei due modelli base della serie GPT, Ada e Babbage. Anche le informazioni chiave come le dimensioni nascoste sono state violate direttamente: una era 1024 e l'altra era 2048. Hanno anche sfondato le dimensioni nascoste di gpt-3.5-turbo e, se si desidera ripristinare l'intera matrice di proiezione del modello, il costo non supererà i 2.000 dollari. I ricercatori hanno proposto una serie di misure di difesa e strategie di mitigazione per prevenire il verificarsi di tali attacchi.