Le classique de dix ans de Jia Yangqing a remporté le Time Test Award ! Tirage au sort des dix meilleurs articles ICML 2024, SD3 populaire, Gu

Le classique de dix ans de Jia Yangqing a remporté le Time Test Award ! Tirage au sort des dix meilleurs articles ICML 2024, populaire SD3, Gu

2024-07-24

Nouveau rapport de sagesse

Editeur : Taozi a tellement sommeil

[Introduction à la nouvelle sagesse] Le prix annuel de l'ICML a enfin été annoncé ! Cette année, un total de dix articles ont remporté le prix du meilleur article, et trois d'entre eux sont des noms connus : le modèle de génération d'images SD3, le modèle de génération vidéo VideoPoet et le modèle mondial de base Genie. Par ailleurs, le Time Test Award a été décerné au framework DeCAF proposé par Jia Yangqing et son équipe il y a dix ans.

Les ICML 2024 Awards viennent d’être annoncés !

Tout à l'heure, la cérémonie d'ouverture de l'ICML a eu lieu officiellement. Les 10 meilleurs prix ont été annoncés lors de la réunion, et un article a remporté le Time Test Award il y a dix ans.

Parmi les meilleurs articles, il existe plusieurs ouvrages populaires dans le domaine de la génération d'images et de vidéos IA, notamment le rapport technique SD3, le modèle vidéo CMU Google AI VideoPoet et le modèle mondial de base de Google Genie.

Il convient de mentionner que l'article DeCAF publié par le gourou de l'IA Jia Yangqing et d'autres en octobre 2013 a remporté le Time Test Award.

Tout à l'heure, il écrivait qu'il était profondément honoré de recevoir cet honneur.

Russ Salakhutdinov, professeur à la CMU et vice-président de Meta GenAI, a donné un résumé des résultats globaux du recrutement de l'ICML 2024 :

Cette conférence a reçu un total de 9 473 communications, dont 2 610 ont été acceptées, avec un taux d'acceptation de 27,55 %. 144 articles sont oraux et 191 articles sont Spotlight.

Les exposés de position ont été introduits cette année. 286 articles ont été soumis et 75 ont été acceptés (26 %). 15 articles sont oraux et 11 articles sont Spotlight.

En outre, 145 propositions ont été présentées lors de l'atelier, dont 30 ont été acceptées. Le didacticiel comportait 55 propositions et 12 ont été acceptées.

Cette année, il s'agit de la 41e conférence annuelle de l'ICML 2024 (une fois par an), qui se tiendra à Vienne, en Autriche, du 21 au 27 juillet.

8 675 personnes sont venues assister à la réunion les unes après les autres, et il n'y avait aucune place dans l'audience.

Aperçu du sommet ICML 2024

Avant de remettre les prix, le comité d’organisation a d’abord présenté la situation générale de la conférence de cette année :

· 9 panneaux de discussion EXPO

· 12 tutoriels

· 6 conférenciers invités

· 2 610 articles (conférence principale)

· 30 ateliers

· 12 345 auteurs et intervenants

· 39% des participants sont des étudiants

· 10 activités sociales hors ligne

· 3 événements affinitaires

· 52 bénévoles

· 97 présidents de secteur senior (SAC), 492 présidents de secteur (AC), 7 473 évaluateurs

· 9 406 participants inscrits (dont 8 675 sur place)

Sur la base des articles acceptés, l'ICML a résumé les mots les plus fréquents qui sont apparus, qui sont également les mots chauds de cette année :

Les grands modèles apparaissent le plus fréquemment, plus de 600 fois.

Suivi de l'apprentissage par renforcement, de l'apprentissage profond, du réseau neuronal graphique, de l'apprentissage automatique, de l'apprentissage fédéré, du modèle de diffusion, du Transformer, du LLM, de l'apprentissage des représentations, du modèle génératif, etc.

En termes de pays/régions enregistrés, les États-Unis comptent 2 463 personnes et la Chine arrive au deuxième rang avec plus de 1 100 personnes.

Prix éprouvé

De manière générale, le Time Test Award est décerné à des articles académiques qui ont eu un impact important et durable depuis plus de 10 ans.

Cet article est également un ouvrage classique réalisé par Jia Yangqing, le père de Caffe, qui a étudié à l'UC Berkeley et a collaboré avec l'équipe lors de son stage chez Google.

Il a dit un jour dans une interview qu'il avait bu trop de café lors d'un stage chez Google en 2013, alors il l'a nommé DeCAF pour se pousser à arrêter de boire du café.

Tout en faisant des heures supplémentaires, il a posté : "DeCAF devrait être des fonctionnalités fondamentales et profondément intégrées dans le champ de vision, et également donner au domaine de la vision par ordinateur une fonctionnalité généralisable..."

L'impact de la recherche DeCAF est qu'elle a donné naissance au cadre général de détection d'objets R-CNN, au cadre informatique hétérogène haute performance Caffe, et a indirectement contribué à la collaboration entre Berkeley et NVIDIA pour écrire le cadre d'accélération de première génération CuDNN, et la distribution à grande échelle de la création de Yahoo Labs Une série de travaux tels que la formation CaffeOnSpark a établi la position de leader de Berkeley dans la vague d'apprentissage profond.

Résumé : DeCAF : une fonctionnalité d'activation convolutionnelle profonde pour la reconnaissance visuelle générique

Avec : Jeff Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, Trevor Darrell

Établissement : Université de Californie, Berkeley

Adresse papier : https://arxiv.org/abs/1310.1531

Afin d'utiliser un meilleur cadre probabiliste pour exprimer le comportement humain, l'équipe a personnellement écrit le premier cadre, DeCAF.

Dans ce travail, les auteurs évaluent si les fonctionnalités extraites d'un réseau convolutionnel profond formé de manière entièrement supervisée sur un large ensemble de tâches de reconnaissance d'objets fixes peuvent être réutilisées sur de nouvelles tâches à usage général.

Ces tâches générales peuvent être très différentes des tâches de formation d'origine et peuvent manquer de données annotées, voire pas de données annotées du tout, de sorte que les méthodes conventionnelles ne peuvent pas être utilisées pour former ou affiner le réseau profond afin de s'adapter à la nouvelle tâche.

En outre, l'auteur a également visualisé le regroupement sémantique de caractéristiques convolutionnelles profondes dans des tâches telles que la reconnaissance de scènes, l'adaptation de domaine et la reconnaissance fine, et en comparant les effets de la définition de caractéristiques fixes qui dépendent de différents niveaux du réseau, il a proposé plusieurs important Nouveau SOTA réalisé dans les défis visuels.

Enfin, les auteurs publient une implémentation open source de ces fonctionnalités d'activation convolutionnelle profonde - DeCA, ainsi que tous les paramètres réseau associés. Cela aide les auteurs visuels à expérimenter des représentations profondes dans divers paradigmes d'apprentissage de concepts visuels.

Les dix meilleurs articles

Cette année, il y a dix meilleurs articles.

Les classements ci-dessus sont tous classés par ordre d'affichage oral.

Suivant : Modélisation de la diffusion discrète par estimation des ratios de la distribution des données

Auteurs : Aaron Lou, Chenlin Meng, Stefano Ermon

Établissement : Université de Stanford, Pika Labs

Adresse papier : https://arxiv.org/abs/2310.16834

Cette recherche propose un nouveau modèle d'apprentissage automatique SEDD (Score Entropy Discrete Diffusion), qui est principalement destiné aux tâches de génération de données discrètes.

Actuellement, les modèles de diffusion affichent des performances révolutionnaires dans de nombreuses tâches de modélisation générative, mais ils fonctionnent mal dans des domaines de données discrets tels que le langage naturel.

Dans cet article, l'auteur propose le concept d'entropie du score pour combler cette lacune.

Il s'agit d'une nouvelle fonction de perte qui étend naturellement la correspondance des scores à l'espace discret, s'intègre de manière transparente pour créer des modèles de diffusion discrets et améliore considérablement les performances.

Au cours du processus d'évaluation expérimentale, SEDD a obtenu de meilleurs résultats que les modèles de diffusion linguistique existants (la perplexité a été réduite de 25 à 75 %).

De plus, il surpasse également les modèles autorégressifs tels que GPT-2 à certains égards.

En résumé, les avantages du SEDD sont :

- Un texte de haute qualité peut être généré sans utiliser de techniques telles que la mise à l'échelle de la température (la génération de perplexité est environ 6 à 8 fois meilleure que celle du GPT-2 non recuit)

- Compromis flexible entre les ressources informatiques et la qualité de sortie (utilise 32 fois moins d'évaluations de réseau pour obtenir des performances similaires)

- Prend en charge le remplissage de texte contrôlable, offrant plus de flexibilité. (correspondant à la qualité de l'échantillonnage du noyau, tout en prenant en charge des stratégies autres que l'invite de gauche à droite).

Article 2 : Mise à l'échelle des transformateurs de flux rectifiés pour la synthèse d'images haute résolution

Avec : Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frédéric Boesel, Dustin Podell, Tim Dockhorn, Zion English, Kyle Lacey, Alex Goodwin, Yannik Marek, Robin Rombach

Organisation : Stabilité IA

Adresse papier : https://arxiv.org/abs/2403.03206

Comme mentionné au début, cet article est un rapport technique sur le populaire Stable Diffusion 3.

Semblable à Sora, SD3 utilise une version améliorée du modèle de diffusion et une nouvelle architecture basée sur le graphe vincentien de DiT.

Plus précisément, les auteurs ont utilisé trois encodeurs de texte différents (deux modèles CLIP et un T5) pour traiter les informations textuelles, tout en utilisant un modèle d'encodage automatique plus avancé pour traiter les informations d'image.

L'architecture de transformateur de diffusion multimodale (MMDiT) nouvellement proposée utilise des ensembles de poids indépendants pour la représentation des images et du langage respectivement. Par rapport à la première version de SD3, elle améliore considérablement les capacités de compréhension et d'orthographe du texte.

Les résultats de l'évaluation montrent que SD3 atteint ou dépasse l'état de l'art actuel de la technologie de génération de diagrammes vincentiens en termes de précision dans le suivi des invites, de présentation claire du texte et de beauté visuelle des images.

Sujet précédent : Inférence probabiliste dans les modèles de langage via la méthode de Monte Carlo séquentielle torsadée

Parmi eux : Stephen Zhao, Rob Brekelmans, Alireza Makhzani et Roger Grosse

Établissement : Université de Toronto, Vector Institute

Adresse papier : https://arxiv.org/abs/2404.17546

Cette recherche se concentre sur les problèmes d’échantillonnage et d’inférence dans les grands modèles.

De nombreuses capacités et technologies de sécurité de LLM, telles que RLHF, les tests automatisés de l'équipe rouge, l'ingénierie rapide et le remplissage, peuvent être prises en compte :

Étant donné une récompense ou une fonction potentielle, échantillonnez à partir de sa distribution cible non normalisée définie. Cette distribution est définie pour la séquence complète.

Dans cet article, l'auteur propose d'utiliser la méthode séquentielle de Monte Carlo (SMC) pour résoudre ces problèmes de probabilité d'échantillonnage.

À cet égard, l'auteur a proposé des fonctions de torsion pour estimer les valeurs futures potentielles à chaque pas de temps afin d'optimiser le processus d'échantillonnage.

En outre, ils ont également proposé une méthode permettant d’utiliser de nouvelles limites SMC bidirectionnelles pour évaluer l’exactitude des techniques d’inférence LLM.

Les résultats finaux montrent que Twisted SMC fait preuve d'une grande efficacité dans l'échantillonnage des mauvais résultats à partir de modèles pré-entraînés, la génération d'avis avec des sentiments différents et l'exécution de tâches de remplissage.

Document 4 : Position : Mesurez la diversité des ensembles de données, ne vous contentez pas de la revendiquer

Parmi eux : Dora Zhao, Jerone TA Andrews, Orestis Papakyriakopoulos et Alice Xiang

Institutions : Université de Stanford, Université technique de Munich, Sony AI

Adresse papier : https://arxiv.org/abs/2407.08188

Actuellement, de nombreux ensembles de données se qualifient de diversité mais incarnent en fait des concepts sociaux abstraits et controversés.

Dans ce travail, les auteurs explorent cette question en analysant la « diversité » dans 135 ensembles de données d’images et de textes.

Comme indiqué ci-dessous, les auteurs s'appuient sur la théorie de la mesure issue de la théorie des sciences sociales comme facteurs à prendre en compte et fournissent des suggestions pour conceptualiser, opérationnaliser et évaluer la diversité des ensembles de données.

Le but ultime de cette recherche est d’appeler les chercheurs en IA à adopter des méthodes de traitement plus détaillées et plus précises pour attribuer des données avec des jugements de valeur dans la recherche sur l’apprentissage automatique, en particulier dans le processus de construction d’ensembles de données.

Document 5 : Voler une partie d'un modèle de langage de production

Parmi eux : Nicholas Carlini, Daniel Paleka, Krishnamurthy Dj Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasr, Arthur Conmy, Itay Yona, Eric Wallace, David Rolnick, Florian Tramèr

Institutions : ETH Zurich, Université de Washington, Université McGill, Google DeepMind, OpenAI

Adresse papier : https://arxiv.org/abs/2403.06634

Dans cet ouvrage, les auteurs présentent la première attaque de vol de modèle capable d’extraire des informations précises et complexes à partir de modèles de langage boîte noire tels que ChatGPT d’OpenAI ou PaLM-2 de Google.

Plus précisément, cette attaque est capable de reconstruire la couche de projection intégrée du modèle Transformer (dans des conditions de symétrie) via un accès API régulier.

Et, pour moins de 20 $, vous pouvez extraire l’intégralité de la matrice de projection des modèles de langage Ada et Babbage d’OpenAI. Cela a confirmé pour la première fois que ces deux modèles de boîtes noires ont respectivement des dimensions cachées de 1 024 et 2 048.

En outre, l'auteur a également restauré la taille exacte des dimensions cachées du modèle gpt-3.5-turbo. Cette fois, le coût d’extraction de l’ensemble de la matrice de projection n’était que de 2 000 dollars.

Enfin, les auteurs proposent des mesures potentielles de défense et d’atténuation et discutent des implications pour les travaux futurs.

Sujet suivant : Complexité de l'information de l'optimisation convexe stochastique : applications à la généralisation et à la mémorisation

Parmi eux : Idan Attias, Gintare Karolina Dziugaite, Mahdi Haghifam, Roi Livni, Daniel M. Roy

Institutions : Université Ben Gourion, Université Northeastern, Université de Tel Aviv, Université de Toronto, Vector Institute, Google DeepMind

Adresse papier : https://arxiv.org/abs/2402.09327

Dans ce travail, les auteurs étudient l'interaction entre la mémoïsation et l'apprentissage dans le contexte de problèmes d'optimisation convexe stochastique (SCO).

Premièrement, la mémorisation est définie par des algorithmes d'apprentissage pour révéler des informations sur les points de données d'entraînement. Ensuite, le cadre d’information mutuelle conditionnelle (CMI) est utilisé pour la quantification. Ainsi, une description précise du compromis entre la précision d’un algorithme d’apprentissage et son CMI est obtenue.

Les résultats montrent que dans le cadre limité de L^2 Lipschitz et dans des conditions de forte convexité, le CMI de chaque apprenant avec un excès d'erreur ε a des limites inférieures à Ω(1/ε^2) et Ω(1/ε) respectivement.

De plus, les auteurs démontrent le rôle important de la mémorisation dans les problèmes d’apprentissage SCO en concevant un adversaire capable d’identifier avec précision la plupart des échantillons d’entraînement dans un problème SCO spécifique.

Enfin, les auteurs citent plusieurs implications importantes, telles que les limites des limites de généralisation basées sur le CMI et l'incompressibilité des échantillons dans le problème SCO.

Suivant : Position : Considérations pour un apprentissage différentiellement privé avec une préformation publique à grande échelle

Auteurs : Florian Tramèr, Gautam Kamath, Nicholas Carlini

Institutions : ETH Zurich, Université de Waterloo, Vector Institute, Google DeepMind

Adresse papier : https://arxiv.org/abs/2212.06470

Les performances de l'apprentissage automatique différentiellement privé peuvent être considérablement améliorées en tirant parti des capacités d'apprentissage par transfert de modèles non privés pré-entraînés sur de grands ensembles de données publiques.

Dans ce travail, les auteurs se demandent si l’utilisation de grands ensembles de données Web récupérées est cohérente avec une protection différentielle de la vie privée. Il a également averti que qualifier de « privés » ces modèles pré-entraînés sur les données du réseau pourrait entraîner de nombreux préjudices, tels qu'un affaiblissement de la confiance du public dans le concept de confidentialité différentielle.

Outre les considérations de confidentialité liées à l’utilisation de données publiques, les auteurs remettent en question le caractère pratique de cette approche.

L'impact de la pré-formation est particulièrement visible pour les modèles trop volumineux pour que les utilisateurs finaux puissent les exécuter sur leurs propres appareils. Étant donné que cela nécessiterait de sous-traiter les données privées à un tiers doté d’une plus grande puissance de calcul, le déploiement d’un tel modèle entraînerait une perte nette de confidentialité.

Enfin, les auteurs discutent des voies de développement potentielles dans le domaine de l’apprentissage en matière de protection de la vie privée à mesure que la pré-formation publique devient plus populaire et plus puissante.

Article 8 : Débattre avec des LLM plus convaincants conduit à des réponses plus véridiques

Avec Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel R. Bowman, Tim Rocktäschel, Ethan Perez

Institutions : University College London, Speechmatics, MATS, Anthropic, FAR AI

Adresse papier : https://arxiv.org/abs/2402.06782

Les méthodes d'alignement LLM actuellement couramment utilisées reposent en grande partie sur des données annotées manuellement.

Cependant, à mesure que les modèles deviennent plus complexes, ils dépasseront l’expertise humaine et le rôle des évaluateurs humains évoluera vers celui de non-experts supervisant des experts.

Sur cette base, l'auteur a soulevé une question : un modèle plus faible peut-il évaluer l'exactitude d'un modèle plus fort ?

De par leur conception, les modèles plus forts (experts) disposent des informations nécessaires pour répondre à la question, tandis que les modèles plus faibles (non experts) manquent de ces informations.

La méthode d'évaluation est le débat, dans lequel deux experts LLM défendent chacun des réponses différentes, plutôt que les experts choisissant les réponses.

Les résultats ont montré que le débat aidait systématiquement les modèles non experts et les humains à mieux répondre aux questions, atteignant respectivement une précision de 76 % et 88 % (la référence était respectivement de 48 % et 60 %).

De plus, optimiser le pouvoir de persuasion des débatteurs experts par des moyens non supervisés améliore la capacité des non-experts à identifier la vérité dans les débats.

Papier 9 : Génie : environnements interactifs génératifs

Parmi eux : Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes, Matthew Lai, Aditi Mavalankar, Richie Steigerwald, Chris Apps, Yusuf Aytar, Sarah Bechtle, Feryal Behbahani, Stephanie Chan, Nicolas Heess, Lucy Gonzalez, Simon Osindero, Sherjil Ozair, Scott Reed, Jingwei Zhang, Konrad Zolna, Jeff Clune, Nando de Freitas, Satinder Singh, Tim Rocktäschel

Établissement : Université de Columbia, Google DeepMind

Adresse papier : https://arxiv.org/pdf/2402.15391

Le modèle mondial de base publié par l'équipe Google DeepMind - Genie "Elf".

A partir d'une image, d'une photo, d'un croquis, il peut générer un monde sans fin.

Ce qui est fou avec Genie, c'est qu'il a appris grâce à 200 000 heures de vidéos Internet non étiquetées et s'est formé sans supervision.

Sans aucune annotation d'action, il est possible de déterminer qui est le protagoniste et de donner à l'utilisateur le contrôle sur lui dans le monde généré.

Plus précisément, il est mis en œuvre à travers trois composants principaux : le modèle d'action latente, le segmenteur vidéo et le modèle dynamique autorégressif.

L’espace d’action latent appris qui en résulte permet non seulement l’interaction de l’utilisateur, mais aide également à former les agents à imiter les comportements dans des vidéos inédites.

Dans l’ensemble, Genie ouvre une nouvelle façon de former de futurs agents généralistes et remodèle le paysage des environnements génératifs interactifs.

Article 10 : VideoPoet : un grand modèle de langage pour la génération vidéo Zero-Shot

Parmi eux : Dan Kondratyuk, Lijun Yu, Xiuye Gu, José Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh Birodkar, Jimmy Yan, Ming-Chang Chiu, Krishna Somandepalli, Hassan Akbari, Yair Alon, Yong Cheng, Josh Dillon, Agrim Gupta, Meera Hahn, Anja Hauth, David Hendon, Alonso Martinez, David Minnen, Mikhail Sirotenko, Kihyuk Sohn, Xuan Yang, Hartwig Adam, Ming-Hsuan Yang, Irfan Essa, Huisheng Wang, David A. Ross, Bryan Seybold, Lu Jiang

Établissement : Université Carnegie Mellon, Google

Adresse papier : https://arxiv.org/pdf/2312.14125

Avant la sortie de Sora, Google et l'équipe CMU ont lancé VideoPoet, une technologie de génération vidéo similaire à Sora, sur une feuille de route technique en décembre 2023.

VideoPoet peut générer 10 secondes de vidéo d'action ultra longue et cohérente à la fois, et aucune donnée spécifique n'est requise pour générer la vidéo.

Plus précisément, VideoPoet comprend principalement les composants suivants :

- Le tokenizer vidéo MAGVIT V2 pré-entraîné et le tokenizer audio SoundStream peuvent convertir des images, des vidéos et des clips audio de différentes longueurs en séquences de code discrètes dans un vocabulaire unifié. Ces codes sont compatibles avec les modèles de langage textuel et peuvent être facilement combinés avec d'autres modalités telles que le texte.

- Le modèle de langage autorégressif peut effectuer un apprentissage multimodal entre la vidéo, l'image, l'audio et le texte, et prédire le prochain jeton vidéo ou audio de la séquence de manière autorégressive.

- Une variété d'objectifs d'apprentissage de génération multimodale sont introduits dans le cadre de formation du grand modèle de langage, notamment texte en vidéo, texte en image, image en vidéo, continuation d'image vidéo, réparation/extension vidéo, stylisation vidéo et vidéo en audio, etc. . De plus, ces tâches peuvent être combinées les unes avec les autres pour obtenir des capacités supplémentaires sans échantillon (par exemple, texte en audio).

Différent des modèles leaders, VideoPoet ne repose pas sur un modèle de diffusion, mais sur un grand modèle multimodal, qui peut avoir des fonctionnalités T2V, V2A et autres.

En bref, VideoPoet présente trois avantages majeurs : générer des vidéos plus longues, obtenir un contrôle plus précis et des mouvements de caméra puissants.

Prix du meilleur critique

Mieux encore, lors de la conférence ICML 2024, le prix du meilleur critique a également été annoncé.

Les références:

https://x.com/icmlconf/status/1815646373791842545

https://x.com/icmlconf/status/1815646856241672211

nouvelles

Le classique de dix ans de Jia Yangqing a remporté le Time Test Award ! Tirage au sort des dix meilleurs articles ICML 2024, populaire SD3, Gu

Introduction

mes coordonnées