Jia Yangqing a remporté le Time Test Award pour l'un de ses articles et ne figurait pas parmi les 10 meilleurs articles en Chine, ICML 2024 Award

Jia Yangqing a remporté le Time Test Award pour l'un de ses articles, mais ne s'est pas qualifié pour les 10 meilleurs articles en Chine ni pour le prix ICML 2024.

2024-07-23

Rapport sur le cœur de la machine

Département éditorial de Machine Heart

Le nom complet de l'ICML est International Conference on Machine Learning. Elle est organisée par l'International Machine Learning Society (IMLS) et constitue la principale conférence dans le domaine de l'intelligence artificielle informatique.

La conférence ICML de cette année est la 41e et se tient actuellement à Vienne, en Autriche. Lors de la cérémonie d'ouverture qui vient de se dérouler, l'ICML, qui devient de plus en plus populaire chaque année, a annoncé les données de la conférence et les informations sur les récompenses de cette année.

Cette conférence principale a reçu un total de 9 473 soumissions d'articles valides, dont 2 610 articles ont été acceptés, avec un taux d'acceptation de 27,5 %, dont 144 articles oraux et 191 articles phares.

Les mots-clés sujets des articles acceptés sont : grand modèle de langage, apprentissage par renforcement, apprentissage profond, réseau de neurones graphiques, apprentissage automatique, apprentissage fédéré, modèle de diffusion, Transformer, LLM, apprentissage par représentation, modèle génératif... Ces mots-clés représentent également l'actuel La direction de recherche la plus populaire dans le domaine de l'IA.

En plus de ces données, les Time Test Awards et les meilleurs articles de cette année ont également été annoncés lors de la conférence. DeCAF, un article co-réalisé par Jia Yangqing alors qu'il était à Berkeley il y a dix ans, a remporté le Time Test Award cette année. Contre 6 l'année dernière, 10 études ont remporté le meilleur article cette année, dont le modèle mondial Genie de Google DeepMind, le modèle vidéo VideoPoet, etc., devenus populaires il y a quelque temps.

Prix éprouvé

Concernant l'attribution du prix à DeCAF, Jia Yangqing a déclaré dans le cercle d'amis : « D'après la terminologie actuelle, DeCAF devrait être la base des caractéristiques et une intégration profonde dans le champ de vision, et il a également donné au domaine de la vision par ordinateur une fonctionnalité généralisable. a ensuite donné naissance à General Le framework de détection d'objets R-CNN, le framework informatique hétérogène haute performance Caffe, a indirectement contribué à la coopération de Berkeley et NVidia dans l'écriture du framework d'accélération de première génération CuDNN, la formation distribuée à grande échelle CaffeOnSpark créée par Yahoo Labs , et une série d’autres travaux, établissant la position de leader de Berkeley dans la vague de l’apprentissage profond.

Résumé : DeCAF : une fonctionnalité d'activation convolutionnelle profonde pour la reconnaissance visuelle générique

Avec : Jeffrey Donahue, Yangqing Jia, Oriol Vinyals, Judy Hoffman, Ning Zhang, Eric Tzeng, Trevor Darrell

Établissement : UC Berkeley & ICSI, Berkeley, Californie, États-Unis

Lien papier : https://arxiv.org/pdf/1310.1531

L’équipe de recherche a évalué si les fonctionnalités extraites des activations de réseaux convolutifs profonds formés de manière entièrement supervisée sur un ensemble fixe et à grande échelle de tâches de reconnaissance d’objets pouvaient être réutilisées pour de nouvelles tâches à usage général. Ces tâches générales peuvent être très différentes de celles pour lesquelles ils ont été initialement formés, et il se peut qu'il n'y ait pas suffisamment de données étiquetées ou non pour former ou adapter régulièrement des architectures approfondies à de nouvelles tâches. Ils étudient et visualisent le regroupement sémantique de caractéristiques convolutionnelles profondes dans diverses tâches, notamment la reconnaissance de scènes, l'adaptation de domaine et les défis de reconnaissance fine. Les chercheurs ont comparé les effets du recours à différentes couches du réseau pour définir des caractéristiques fixes et ont rapporté de nouveaux résultats qui surpassent considérablement les techniques existantes sur plusieurs défis visuels importants. Ils ont publié DeCAF, une implémentation open source de fonctionnalités d'activation convolutionnelle profonde qui contient tous les paramètres de réseau pertinents pour permettre aux chercheurs en vision d'expérimenter des représentations profondes à travers une gamme de paradigmes d'apprentissage de concepts visuels.

meilleur papier

Article 1 : Mise à l'échelle des transformateurs de flux rectifiés pour la synthèse d'images haute résolution

Avec Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas Müller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, Dustin Podell, Tim Dockhorn, Zion English, Robin Rombach

Organisation : Stabilité IA

Adresse papier : https://proceedings.mlr.press/v235/esser24a.html

Machine Heart Report : Le document Stable Diffusion 3 a enfin été publié, et les détails de l'architecture sont révélés. Cela aidera-t-il à reproduire Sora ?

Ce papier est exactement le papier Stable Diffusion 3. Par rapport à la version précédente, la qualité des images générées par Stable Diffusion 3 a été considérablement améliorée, elle prend en charge les invites multithèmes et l'effet d'écriture de texte est également meilleur.

Architecture du modèle Stable Diffusion 3.

Les modèles de diffusion, qui créent des données à partir du bruit en inversant son chemin vers l'avant en bruit, sont apparus comme une technique de modélisation générative puissante pour les données sensorielles de grande dimension telles que les images et les vidéos. Rectified Flow (RF) est une formulation récente de modèle génératif qui relie les données et le bruit en ligne droite. Malgré ses meilleures propriétés théoriques et sa simplicité conceptuelle, elle n’a pas encore été clairement établie comme pratique standard.

Cette recherche améliore les techniques d'échantillonnage de bruit existantes en entraînant des modèles RF en les orientant vers des échelles perceptuellement pertinentes. Grâce à une étude à grande échelle, cette étude démontre les performances supérieures de cette approche par rapport aux formulations de diffusion existantes pour la synthèse texte-image haute résolution.

En outre, la recherche propose également une nouvelle architecture basée sur Transformer pour la génération de texte en image, qui utilise des poids séparés pour les deux modes et permet un flux d'informations bidirectionnel entre les jetons d'image et de texte, améliorant ainsi la compréhension du texte, les évaluations des préférences humaines, etc. . L'étude démontre que l'architecture suit une tendance de mise à l'échelle prévisible et observe que la perte de validation diminue progressivement avec l'augmentation de la taille du modèle et des étapes de formation.

Diffusion multimodale améliorée Transformateur : bloc MMDiT.

Article 2 : Génie : environnements interactifs génératifs

Avec : Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes

Établissement : Google DeepMind, Université de la Colombie-Britannique

Adresse papier : https://arxiv.org/pdf/2402.15391.pdf

Cet article définit un nouveau paradigme d'IA générative - Generative Interactive Environments - Genie (Generative Interactive Environments). Genie est un modèle mondial de base de 11 milliards de paramètres qui peut générer des environnements interactifs jouables à partir d'une seule invite d'image.

Machine Heart Report : tout à l'heure, Google a publié un modèle mondial de base : 11B paramètres, qui peuvent générer un monde virtuel interactif

Plusieurs composants de l'architecture Genie sont construits sur Vision Transformer (ViT). Il convient de noter qu'en raison du coût de la mémoire secondaire de Transformer, qui pose des défis au domaine vidéo, les vidéos peuvent contenir jusqu'à (10 ^ 4) jetons. Par conséquent, Google utilise l'architecture de transformateur ST économe en mémoire dans tous les composants du modèle pour équilibrer la capacité du modèle et les contraintes de calcul.

Genie se compose de trois composants clés (comme le montre la figure ci-dessous) :

1) Modèle d'action latente (LAM), utilisé pour raisonner sur les actions potentielles entre chaque paire de trames ;

2) Tokenizer vidéo (Tokenizer), utilisé pour convertir les images vidéo originales en jetons discrets ;

3) Un modèle dynamique, compte tenu des actions potentielles et des jetons des images passées, est utilisé pour prédire l'image suivante de la vidéo.

Afin de parvenir à une génération vidéo contrôlable, Google utilise les actions entreprises dans l'image précédente comme conditions de prédiction des images futures. Cependant, de telles étiquettes d'action sont rarement disponibles dans les vidéos sur Internet, et le coût d'obtention d'annotations d'action peut être élevé. Au lieu de cela, Google apprend les actions potentielles de manière totalement non supervisée.

Document 3 : Considérations relatives à un apprentissage privé différentiel avec une préformation publique à grande échelle

Auteurs : Florian Tramèr, Gautam Kamath, Nicholas Carlini

Institutions : ETH Zurich, Université de Waterloo, Google DeepMind

Adresse papier : https://arxiv.org/abs/2212.06470

Les performances de l'apprentissage automatique différentiellement privé peuvent être considérablement améliorées en tirant parti des capacités d'apprentissage par transfert de modèles non privés pré-entraînés sur de grands ensembles de données publiques. L’article se demande si l’utilisation de grands ensembles de données récupérés sur le Web devrait être considérée comme différentiellement privée.

L'étude estime que le fait de définir ces modèles pré-entraînés sur les données du réseau en tant que modèles « privés » peut nuire et affaiblir la confiance du public dans la confidentialité différentielle. Outre les considérations de confidentialité liées à l’utilisation des données publiques, l’étude remet en question l’utilité de ce paradigme. L'étude examine si les références d'apprentissage automatique existantes sont adaptées pour mesurer la capacité des modèles pré-entraînés à se généraliser à des domaines sensibles qui peuvent être difficiles à représenter dans les données des réseaux publics.

En outre, l’étude note que le déploiement de grands modèles peut entraîner une perte nette de confidentialité en raison de la nécessité d’externaliser les données privées à des tiers disposant d’une plus grande puissance de calcul.

Article 4 : Modélisation de la diffusion discrète en estimant les ratios de distribution des données

Auteurs : Aaron Lou, Chenlin Meng, Stefano Ermon

Établissement : Université de Stanford, Pika Labs

Adresse papier : https://proceedings.mlr.press/v235/lou24a.html

Bien que les modèles de diffusion fonctionnent bien dans de nombreuses tâches de modélisation générative, ils ne fonctionnent pas comme prévu dans des domaines de données discrets tels que le langage naturel. Les modèles de diffusion standards s’appuient sur une théorie bien établie de l’appariement des scores, mais les tentatives de généralisation à des structures discrètes n’ont pas conduit aux mêmes gains empiriques.

Dans ce travail, l’équipe de recherche comble cette lacune en proposant une nouvelle perte appelée entropie notée. L'entropie notée étend naturellement la correspondance des scores à l'espace discret, s'intègre de manière transparente pour créer des modèles de diffusion discrets et améliore considérablement les performances.

Dans leurs expériences, ils ont testé le modèle de diffusion discrète d’entropie notée (SEDD) sur une tâche de modélisation de langage standard. À tailles de modèle comparables, SEDD surpasse les paradigmes de diffusion linguistique existants (réduction de la perplexité de 25 à 75 %) et rivalise avec les modèles autorégressifs, surpassant particulièrement GPT-2. De plus, par rapport aux modèles autorégressifs, SEDD est capable de générer du texte réel (générant une perplexité environ 6 à 8 fois supérieure à celle du GPT-2 non recuit) sans avoir recours à des techniques de recuit distribué (telles que la mise à l'échelle de la température) et peut être utilisé dans des compromis. entre l'effort de calcul et la qualité (obtenir une qualité similaire avec 32 fois moins d'évaluations de réseau) et prend en charge le remplissage contrôlable (correspondant à la qualité d'échantillonnage du noyau tout en permettant d'autres stratégies que l'indication de gauche à droite).

Article 5 : Inférence probabiliste dans les modèles de langage via Monte Carlo séquentiel torsadé

Avec Stephen Zhao, Rob Brekelmans, Alireza Makhzani, Roger Grosse

Établissement : Université de Toronto, Vector Institute

Adresse papier : https://proceedings.mlr.press/v235/zhao24c.html

Les nombreuses capacités et techniques de sécurité des grands modèles de langage (LLM), notamment le RLHF, les tests automatisés de l'équipe rouge, l'ingénierie des indices et le remplissage, peuvent être considérées comme un échantillonnage à partir d'une distribution cible dénormalisée définie par une récompense ou une fonction latente donnée. Dans ce travail, les auteurs exploitent la riche boîte à outils de Sequential Monte Carlo (SMC) pour gérer ces problèmes d'inférence probabiliste. En particulier, ils utilisent une fonction de distorsion apprise pour estimer les valeurs futures potentielles attendues à chaque pas de temps, permettant au calcul au moment de l'inférence de se concentrer sur les parties prometteuses de la séquence.

Nous proposons une nouvelle approche contrastive de l'apprentissage des fonctions de déformation et établissons des liens avec la riche littérature sur l'apprentissage par renforcement doux. En tant qu'application complémentaire du framework SMC torsadé, ils proposent une méthode pour évaluer la précision des techniques d'inférence de modèle de langage sur les fonctions de partition de journal en utilisant une nouvelle limite SMC bidirectionnelle. Ces limites peuvent être utilisées pour estimer la divergence KL bidirectionnelle entre la distribution d'inférence et la distribution cible. En appliquant des techniques d'évaluation par inférence, ils démontrent que Twisted SMC est efficace pour échantillonner les sorties indésirables de modèles pré-entraînés (utile pour la formation inoffensive et les tests automatisés de l'équipe rouge), générer des avis avec des sentiments variés et effectuer des tâches de remplissage.

Article 6 : Débattre avec des LLM plus convaincants conduit à des réponses plus véridiques

Avec Akbir Khan, John Hughes, Dan Valentine, Laura Ruis, Kshitij Sachan, Ansh Radhakrishnan, Edward Grefenstette, Samuel Bowman, Tim Rocktäschel, Ethan Perez.

Institutions : University College London, Speechmatics, MATS, Anthropic, FAR AI

Adresse papier : https://proceedings.mlr.press/v235/khan24a.html

Les approches courantes pour aligner les grands modèles de langage (LLM) sur les comportements souhaités s'appuient fortement sur des données étiquetées par l'homme. Cependant, à mesure que les modèles deviennent plus complexes, ils dépasseront l’expertise humaine, et le rôle des évaluateurs humains évoluera vers celui de non-experts supervisant des experts. Sur la base de cette attente, les chercheurs ont posé une question : un modèle plus faible peut-il évaluer l’exactitude d’un modèle plus fort ? Ils ont étudié ce problème en établissant un scénario similaire : un scénario dans lequel le modèle le plus fort (l'expert) disposait des informations de base nécessaires pour répondre à la question, tandis que le modèle le plus faible (le non-expert) manquait de ces informations. Les chercheurs ont choisi le débat comme méthode de test, c'est-à-dire laisser deux experts LLM défendre chacun des réponses différentes, et les non-experts choisir la réponse finale.

L’équipe de recherche a constaté que le débat aidait efficacement les modèles non experts et les humains à répondre aux questions, atteignant respectivement une précision de 76 % et 88 % (la référence initiale était respectivement de 48 % et 60 %).

De plus, optimiser le pouvoir de persuasion des débatteurs experts de manière non supervisée améliore la capacité des non-experts à identifier la vérité dans les débats. Ce résultat fournit une référence en débattant de la faisabilité de modèles alignés en l’absence d’étiquettes de vérité terrain.

Sujet 7 : Complexité de l'information de l'optimisation convexe stochastique : applications à la généralisation, à la mémorisation et au traçage

作者：Idan Attias, Gintare Karolina Dziugaite, Mahdi Haghifam, Roi Livni, Daniel Roy

Institutions : Université Ben Gourion, Université de Toronto, DeepMind, etc.

Adresse papier : https://proceedings.mlr.press/v235/attias24a.html

Dans ce travail, les auteurs étudient l'interaction entre la mémoire et l'apprentissage dans le contexte de l'optimisation convexe stochastique (SCO). Ils définissent la mémoire en apprenant les informations que l'algorithme révèle sur ses points de données d'entraînement et quantifient ces informations à l'aide du cadre d'information mutuelle conditionnelle (CMI) proposé par Steinke et Zakynthinou (2020).

Le résultat principal de cette étude est de caractériser avec précision le compromis entre la précision d'un algorithme d'apprentissage et son CMI, répondant à une question ouverte posée par Livni (2023). Cet article montre que dans le cadre limité par L² Lipschitz et dans des conditions de forte convexité, le CMI de chaque apprenant avec une erreur excessive ϵ est limité inférieurement par Ω(1/ϵ²) et Ω(1/) respectivement. Les auteurs démontrent en outre le rôle indispensable de la mémoire dans le problème SCO en concevant un adversaire capable d'identifier avec précision un grand nombre d'échantillons d'apprentissage dans un problème SCO spécifique. Enfin, ils citent plusieurs implications des résultats, telles que les limites des limites de généralisation basées sur le CMI et l'incompressibilité des échantillons dans le problème SCO.

Document 8 : Mesurez la diversité des ensembles de données, ne vous contentez pas de la revendiquer

Avec : Dora Zhao, Jerone Andrews, Orestis Papakyriakopoulos, Alice Xiang

Institutions : Université de Stanford, Sony AI (Londres, Royaume-Uni), Université technique de Munich, Sony AI (Seattle, États-Unis)

Adresse papier : https://arxiv.org/html/2407.08188v1

Les ensembles de données d’apprentissage automatique (ML) sont souvent considérés comme neutres, mais ils contiennent intrinsèquement des constructions sociales abstraites et contestées. Les conservateurs d’ensembles de données utilisent souvent des termes chargés de valeurs tels que diversité, biais et qualité pour décrire les ensembles de données. Bien que ces termes soient largement utilisés, ils manquent de définition et de validation claires. L'étude de l'équipe de recherche a exploré l'impact de ce problème en analysant la « diversité » dans 135 ensembles de données d'images et de textes. Tirés des sciences sociales, les principes de la théorie de la mesure sont appliqués pour identifier les considérations et fournir des recommandations pour conceptualiser, opérationnaliser et évaluer la diversité des ensembles de données. Leurs résultats ont de larges implications pour la recherche sur le ML, plaidant pour une approche plus nuancée et plus précise lors de la gestion des attributs chargés de valeur dans la construction d'ensembles de données.

Article 9 : VideoPoet : un grand modèle de langage pour la génération vidéo Zero-Shot

Parmi eux : Dan Kondratyuk, Lijun Yu, Xiuye Gu, Jose Lezama, Jonathan Huang, Grant Schindler, Rachel Hornung, Vighnesh N Birodkar, Jimmy Yan, Ming-Chang Chiu, Krishna Somandepalli, Hassan Akbari, Yair Alon, Yong Cheng, Joshua V Dillon. 、Agrim Gupta、Meera Hahn、Anja Hauth、David Hendon、Alonso Martinez、David Minnen、Mikhail Sirotenko、Kihyuk Sohn、Xuan Yang、Hartwig Adam、Ming-Hsuan Yang、Irfan Essa、Huisheng Wang、David Ross、Bryan Seybold, Lu Jiang

Organisation : Google, Université Carnegie Mellon

Adresse papier : https://proceedings.mlr.press/v235/kondratyuk24a.html

Lien du projet : http://sites.research.google/videopoet/

Machine Heart Report : la génération de vidéos peut-elle être infiniment longue ?Google VideoPoet grand modèle est en ligne, internautes : une technologie révolutionnaire

L'équipe de recherche a publié VideoPoet, un modèle de langage capable de synthétiser des vidéos de haute qualité à partir de plusieurs signaux conditionnels. VideoPoet utilise une architecture Transformer uniquement par décodeur pour gérer les entrées multimodales, notamment les images, la vidéo, le texte et l'audio.

Le protocole de formation suit le pipeline des grands modèles de langage (LLM) et comprend deux étapes : la pré-formation et l'adaptation spécifique à la tâche. Dans la phase de pré-formation, VideoPoet combine des cibles de génération multimodale dans un cadre Transformer autorégressif. Le LLM pré-entraîné sert de base et peut être adapté à une gamme de tâches de génération vidéo. Ils démontrent les capacités de pointe du modèle en matière de génération vidéo zéro plan, en particulier la capacité à générer des mouvements haute fidélité.

Papier 10 : Voler une partie d'un modèle de langage de production

Parmi eux : Nicholas Carlini, Daniel Paleka, Krishnamurthy Dvijotham, Thomas Steinke, Jonathan Hayase, A. Feder Cooper, Katherine Lee, Matthew Jagielski, Milad Nasresfahani, Arthur Conmy, Eric Wallace, David Rolnick, Florian Tramer

Institutions : OpenAI, Google DeepMind, ETH Zurich, Université de Washington, Université McGill

Adresse papier : https://arxiv.org/pdf/2403.06634

Cet article propose une nouvelle méthode pour attaquer les modèles d’IA. Il peut extraire avec précision des informations du modèle de langage génératif en boîte noire de ChatGPT d'OpenAI ou de PaLM-2 de Google. Cette méthode peut pénétrer dans la couche de projection intégrée du Transformer (qui est un élément clé de la compréhension du langage par le modèle) et nécessite uniquement un accès à l'API, via un site Web ou une application, et une discussion avec le modèle pour le « vaincre ». Sur la base de la méthode décrite dans l'article, les chercheurs ont déchiffré l'intégralité de la matrice de projection des deux modèles de base de la série GPT, Ada et Babbage. Des informations clés telles que les dimensions cachées ont également été directement déchiffrées : l'une était de 1 024 et l'autre de 2 048. Ils ont également percé les dimensions cachées du gpt-3.5-turbo, et si vous souhaitez restaurer l'intégralité de la matrice de projection du modèle, le coût ne dépassera pas 2 000 $. Les chercheurs ont proposé une série de mesures de défense et de stratégies d’atténuation pour empêcher de telles attaques de se produire.

nouvelles

Jia Yangqing a remporté le Time Test Award pour l'un de ses articles, mais ne s'est pas qualifié pour les 10 meilleurs articles en Chine ni pour le prix ICML 2024.

Introduction

mes coordonnées