2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Nouveau rapport de sagesse
Editeur : Service éditorial
[Introduction à la nouvelle sagesse]ACL, la principale conférence annuelle en PNL, a annoncé l'article final gagnant. Cette année, un total de 7 articles ont remporté le meilleur article, et les prix du test de temps ont été décernés à Stanford GloVe et à Cornell University Similarity Measure. En outre, il existe le prix du meilleur sujet, le prix du meilleur impact social, le prix de la meilleure ressource, le prix du président de secteur et le prix du document exceptionnel.
Les récompenses ACL 2024 sont enfin sorties !
Au total, 7 meilleurs articles, 35 articles exceptionnels, ainsi que le Time Test Award, le SAC Award, le meilleur article thématique, le meilleur article ressource, etc. ont été annoncés.
Il convient de mentionner que parmi les 7 meilleurs articles, Deciphering Oracle Bone Language with Diffusion Models a été rédigé par une équipe entièrement chinoise.
Cette année a lieu la 26e conférence annuelle de la Conférence internationale sur la linguistique computationnelle (ACL), qui s'est ouverte à Bangkok, en Thaïlande, du 11 au 16 août.
Le nombre total d'articles soumis pour l'ACL 2024 est presque le même que celui de 2023, soit environ 5 000 articles, dont 940 articles ont été acceptés.
Cette ACL est la plus grande de l’histoire, avec un total de 72 SAC, 716 AC et 4 208 réviseurs.
975 articles de recherche, 6 JCL, 31 TACL, 3 discours d'ouverture et 1 panel.
L'ensemble de la conférence comprenait également 18 ateliers, 6 tutoriels, 38 démos et 60 articles SRW.
Les détails spécifiques de la soumission des auteurs de l’article sont les suivants :
1/2 articles les plus soumis : 10 333 chercheurs ont soumis 1 et 2 130 ont soumis 2
Un petit nombre de personnes ont soumis plusieurs articles : 3 auteurs ont soumis 18 articles, 6 personnes ont soumis 19 articles et 18 personnes ont soumis plus de 20 articles.
Jetons un coup d'oeil, quelles équipes ont remporté les prix cette année ?
7 meilleurs articles
Article 1 : Déchiffrer le langage Oracle Bone avec des modèles de diffusion
Titre : Haisu Guan, Huanxin Yang, Xinyu Wang, Shengwei Han, Yongge Liu, Lianwen Jin, Xiang Bai, Yuliang Liu
Institutions : Université des sciences et technologies de Huazhong, Université d'Adélaïde, Université normale d'Anyang, Université de technologie de Chine du Sud
Adresse papier : https://arxiv.org/pdf/2406.00684
Comme le titre l'indique, l'équipe chinoise a utilisé l'IA pour réaliser une chose très intéressante et précieuse : déchiffrer Oracle (OBS) à l'aide d'un modèle de diffusion.
Les inscriptions sur os d'oracle sont originaires de la dynastie chinoise Shang il y a environ 3 000 ans et constituent une pierre angulaire de l'histoire du langage.
Bien que des milliers d'inscriptions aient été découvertes, la plupart des inscriptions sur os d'oracle restent indéchiffrées, jetant un voile de mystère sur cette langue ancienne.
Dans l'article, l'auteur présente une nouvelle méthode de génération d'IA à l'aide d'images, en particulier le développement de « Oracle Bone Script Decipher » (OBSD).
En utilisant une stratégie basée sur la diffusion conditionnelle, OBSD a généré d’importants indices de déchiffrement et a ouvert une nouvelle voie pour l’analyse des langues anciennes assistée par l’IA.
Afin de vérifier son efficacité, les chercheurs ont mené un grand nombre d'expériences sur l'ensemble de données Oracle, et les résultats quantitatifs ont prouvé l'efficacité d'OBSD.
Sujet 2 : Satisfaisantité du langage naturel : exploration de la distribution des problèmes et évaluation des modèles de langage basés sur des transformateurs
(La préimpression n'a pas encore été soumise)
Article 3 : Estimation causale des profils de mémorisation
Avec Pietro Lesci, Clara Meister, Thomas Hofmann, Andreas Vlachos, Tiago Pimentel
Institution : Université de Cambridge, ETH Zurich
Adresse papier : https://arxiv.org/pdf/2406.04327
Comprendre la mémoire du LLM a des implications importantes pour la pratique et la société, comme l'étude de la dynamique de formation des modèles ou la prévention des violations du droit d'auteur.
Des recherches antérieures définissent la mémoire comme la réponse causale à la capacité d'un modèle à prédire cette instance grâce à un entraînement sur cette instance.
Cette définition s'appuie sur un contrefactuel : être capable d'observer ce qui se serait passé si le modèle n'avait pas vu l'instance.
Cependant, les méthodes existantes ciblent généralement l’architecture du modèle plutôt que l’estimation de la mémoire pour des instances de modèle spécifiques, ce qui rend difficile la fourniture d’estimations contrefactuelles efficaces et précises sur le plan informatique.
Cette étude comble une lacune importante puisque les auteurs proposent une nouvelle méthode efficace et fondée sur des principes pour estimer la mémorisation basée sur des conceptions de différences en différences en économétrie.
En utilisant cette méthode, uniquement en observant le comportement d'un petit nombre d'instances pendant tout le processus de formation, le profil de mémoire du modèle peut être décrit, c'est-à-dire la tendance de la mémoire du modèle tout au long du processus de formation.
Lors d’expériences avec la suite de modèles Pythia, les chercheurs ont découvert :
(1) Les grands modèles ont des mémoires plus fortes et plus durables ;
(2) Déterminé par l'ordre des données et le taux d'apprentissage ;
(3) Il existe des tendances stables dans les modèles de différentes tailles, de sorte que la mémoire des grands modèles est aussi prévisible que celle des petits modèles.
Article 4 : Modèle Aya : un modèle de langage multilingue en libre accès optimisé pour les instructions
Parmi eux : Ahmet Üstün, Viraat Aryabumi, Zheng-Xin Yong, Wei-Yin Ko, Daniel D'souza, Gbemileke Onilude, Neel Bhandari, Shivalika Singh, Hui-Lee Ooi, Amr Kayid, Freddie Vargus, Phil Blunsom, Shayne Longpre, Niklas Muennighoff, Marzieh Fadaee, Julia Kreutzer, Sara Hooker
Institutions : Cohere For AI, Brown University, Cohere, Cohere For AI Community, Carnegie Mellon University, MIT
Adresse papier : https://arxiv.org/pdf/2402.07827
En février de cette année, la startup Cohere a publié un nouveau modèle open source de génération de langages à grande échelle appelé Aya, couvrant plus de 101 langues.
Il convient de mentionner que la couverture du modèle de langage du modèle Aya est plus de deux fois supérieure à celle des modèles open source existants, dépassant mT0 et BLOOMZ.
Le score d'évaluation humaine atteint 75 % et le score dans divers tests de taux de réussite simulés est de 80 à 90 %.
Le projet a été lancé, réunissant plus de 3 000 chercheurs indépendants de 119 pays.
En outre, les chercheurs ont également divulgué le plus grand ensemble de données de réglage précis du guidage multilingue à ce jour, contenant 513 millions de données couvrant 114 langues.
Papier 5 : Mission : Modèles de langage impossibles
Avec : Julie Kallini, Isabel Papadimitriou, Richard Futrell, Kyle Mahowald, Christopher Potts
Institution : Université de Stanford, Université de Californie, Irvine, Université du Texas à Austin
Adresse papier : https://arxiv.org/pdf/2401.06416
Chomsky et d'autres ont déclaré sans ambages que LLM a la même capacité à apprendre des langues qui sont possibles et impossibles à apprendre pour les humains.
Cependant, il existe peu de preuves expérimentales publiées pour étayer cette affirmation.
Pour ce faire, les chercheurs ont développé un ensemble de « langages impossibles » synthétiques de complexité variable, chacun conçu en modifiant systématiquement les données anglaises et en utilisant un ordre des mots et des règles grammaticales non naturels.
Ces langues se situent sur un continuum de langues impossibles : à une extrémité se trouvent des langues complètement impossibles, comme l'anglais réorganisé de manière aléatoire, et à l'autre extrémité se trouvent des langues considérées comme linguistiquement impossibles, comme celles basées sur des règles de comptage de positions de mots. .
Après une série d'évaluations, GPT-2 est très difficile à apprendre des langues impossibles, ce qui remet en question l'idée de base.
Plus important encore, les chercheurs espèrent que cette approche mènera à davantage de recherches sur la capacité du LLM à apprendre différents types de langues, afin de mieux comprendre les applications potentielles du LLM dans la recherche en typologie cognitive et linguistique.
Article 6 : Reconstruction du proto-langage neuronal semi-supervisé
Auteurs : Liang Lu, Peirong Xie, David R. Mortensen
Institution : Université Carnegie Mellon, Université de Californie du Sud
Adresse papier : https://arxiv.org/pdf/2406.05930
Les travaux existants de comparaison et de reconstruction des langues autochtones nécessitent généralement une supervision complète.
Cependant, les modèles de reconstruction historique n’ont de valeur pratique que lorsqu’ils sont formés avec des données annotées limitées.
À cet égard, les chercheurs ont proposé une tâche de reconstruction historique semi-supervisée.
Dans cette tâche, le modèle n'a besoin d'être formé que sur une petite quantité de données étiquetées (un ensemble homologue avec des prototypes) et une grande quantité de données non étiquetées (un ensemble homologue sans prototypes).
L'auteur a développé une architecture neuronale pour la reconstruction comparative - DPD-BiReconstructor, qui contient un point important dans les méthodes comparatives des linguistes : les mots reconstruits peuvent non seulement être reconstruits à partir de leurs sous-mots, mais peuvent également être transformés de manière déterministe. Retour à ses sous-mots .
Nous montrons que cette architecture est capable d’exploiter des ensembles non étiquetés de mots apparentés et de surpasser les bases d’apprentissage semi-supervisé existantes dans cette nouvelle tâche.
Document 7 : Pourquoi les fonctions sensibles sont-elles difficiles pour les transformateurs ?
Auteurs : Michael Hahn, Mark Rofin
Institution : Université de la Sarre
Adresse papier : https://arxiv.org/pdf/2402.09963
Des recherches empiriques ont découvert une série de biais et de limites d'apprentissage du modèle Transformer, tels que la difficulté d'apprendre à calculer des langages formels simples (tels que PARITY) et sa tendance à travailler avec des fonctions d'ordre inférieur.
Cependant, la compréhension théorique reste limitée et les théories existantes sur la capacité d’expression surestiment ou sous-estiment la capacité d’apprentissage réelle.
Les chercheurs ont démontré que dans le cadre de l’architecture Transformer, le paysage des pertes est limité par la sensibilité de l’espace d’entrée :
Les modèles de transformateur dont les sorties sont sensibles à plusieurs parties de la chaîne d'entrée occupent des points isolés dans l'espace des paramètres, ce qui entraîne un biais de faible sensibilité dans la généralisation.
La recherche démontre à la fois théoriquement et empiriquement que la dernière théorie unifie les observations empiriques sur les capacités et les biais d'apprentissage des transformateurs, tels que leur préférence pour la sensibilité du sol et les fonctions d'ordre inférieur, ainsi que leurs difficultés avec les problèmes de parité et de longueur.
Cela suggère que comprendre la polarisation inductive du transformateur nécessite d'étudier non seulement son expressivité de principe, mais également son paysage de pertes.
2 récompenses de test de temps
Article 1 : GloVe : vecteurs globaux pour la représentation des mots (2014)
Auteurs : Jeffrey Pennington, Richard Socher, Christopher Manning
Établissement : Université de Stanford
Adresse papier : https://nlp.stanford.edu/pubs/glove.pdf
L’intégration de mots a été la pierre angulaire des méthodes d’apprentissage profond pour la PNL entre 2013 et 2018 et continue d’avoir un impact majeur. Non seulement ils améliorent les performances des tâches de PNL, mais ils ont également un impact significatif sur la sémantique informatique, telle que la similarité et l’analogie des mots.
Les deux méthodes d'intégration de mots les plus influentes sont probablement skip-gram/CBOW et GloVe. Par rapport à skip-gram, GloVe a été proposé plus tard. Son avantage relatif réside dans sa simplicité conceptuelle - optimisant leur similarité dans l'espace vectoriel directement sur la base des caractéristiques de distribution des mots, plutôt que du point de vue de la simplification de la modélisation du langage, qui est utilisée comme. un ensemble de paramètres pour l’optimisation indirecte.
Article 2 : Mesures de similarité distributive (1999)
Auteur : Lillian Lee
Établissement : Université Cornell
Adresse de l'article : https://aclanthology.org/P99-1004.pdf
L'étude des mesures de similarité de distribution vise à améliorer l'estimation de la probabilité d'événements de cooccurrence invisibles, ce qui équivaut à une autre façon de caractériser la similarité entre les mots.
La contribution de l'article est triple : une comparaison empirique approfondie de diverses mesures ; une classification basée sur les informations contenues dans la fonction de similarité et l'introduction d'une nouvelle fonction qui fonctionne bien dans l'évaluation des distributions potentielles d'agents ;
1 meilleur article thématique
Thèse : OLMo : Accélérer la science des modèles linguistiques
Parmi eux : Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi
Institutions : Allen Institute for Artificial Intelligence, Université de Washington, Université de Yale, Université de New York, Université Carnegie Mellon
Adresse papier : https://arxiv.org/abs/2402.00838
Ce travail constitue une avancée significative dans l'amélioration de la transparence et de la reproductibilité de la formation sur les grands modèles de langage, ce que la communauté est impatiente de réaliser (ou du moins de permettre à d'autres contributeurs que les géants de l'industrie de contribuer aux progrès).
3 prix du meilleur impact social
Sujet 1 : Comment Johnny peut persuader les LLM de les jailbreaker : repenser la persuasion pour remettre en question la sécurité de l'IA en humanisant les LLM
Ci-dessous : Yi Zeng, Hongpeng Lin, Jingwen Zhang, Diyi Yang, Ruoxi Jia, Weiyan Shi
Institutions : Virginia Tech, Renmin University of China, University of California, Davis, Stanford University
Adresse papier : https://arxiv.org/abs/2401.06373
Cet article explore le sujet de la sécurité de l’intelligence artificielle consistant à contourner les restrictions. Il examine une méthode développée dans le domaine de la recherche en sciences sociales. La recherche est fascinante et pourrait avoir un impact significatif sur la communauté.
Exemple 2 : DIALECTBENCH : une référence PNL pour les dialectes, les variétés et les langues étroitement apparentées
Parmi eux : Fahim Faisal, Orevaoghene Ahia, Aarohi Srivastava, Kabir Ahuja, David Chiang, Yulia Tsvetkov, Antonios Anastasopoulos
Institutions : Université George Mason, Université de Washington, Université de Notre Dame, RC Athena
Adresse papier : https://arxiv.org/abs/2403.11009
La variation dialectale est un phénomène sous-étudié dans le traitement du langage naturel et l’intelligence artificielle. Cependant, ses recherches sont d’une grande valeur, non seulement d’un point de vue linguistique et social, mais elles ont également d’importantes implications en termes d’applications. Cet article propose un référentiel innovant pour étudier ce problème à l’ère des grands modèles de langage.
Article 3 : Boire de la bière après la prière ? Mesurer les préjugés culturels dans les grands modèles linguistiques
Auteurs : Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu
Institution : Institut de technologie de Géorgie
Adresse papier : https://arxiv.org/abs/2305.14456
Cet article révèle un problème important à l’ère des grands modèles linguistiques : les préjugés culturels. Bien que le contexte de l’étude soit celui de la culture et de la langue arabes, les résultats montrent que nous devons prendre en compte les nuances culturelles lors de la conception de grands modèles linguistiques. Des études similaires pourraient donc être menées sur d’autres cultures pour généraliser et évaluer si d’autres cultures sont également concernées par ce problème.
3 meilleurs documents ressources
Article 1 : Latxa : Un modèle de langage ouvert et une suite d'évaluation pour le basque
Parmi eux : Julen Etxaniz, Oscar Sainz, Naiara Perez, Itziar Aldabe, German Rigau, Eneko Agirre, Aitor Ormazabal, Mikel Artetxe, Aitor Soroa
Institution : Université du Pays Basque
Adresse papier : https://arxiv.org/abs/2403.20266
Cet article décrit en détail tous les détails des ensembles de données de collecte et d’évaluation de corpus. Bien qu’ils aient étudié la langue basque, cette approche peut être étendue pour construire de grands modèles linguistiques pour les langues à faibles ressources.
Exemple 2 : Dolma : un corpus ouvert de trois mille milliards de jetons pour la recherche sur la préformation des modèles linguistiques
Parmi eux : Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert , Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo
Institutions : Allen Institute for Artificial Intelligence, UC Berkeley, Carnegie Mellon University, Spiffy AI, MIT, University of Washington
Adresse papier : https://arxiv.org/abs/2402.00159
Cet article illustre l'importance de la conservation des données lors de la préparation d'ensembles de données pour de grands modèles de langage. Il fournit des informations précieuses qui peuvent profiter à un large public au sein de la communauté.
Partie 3 : AppWorld : un monde d'applications et de personnes contrôlables pour l'évaluation comparative des agents de codage interactifs
Parmi eux : Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian
Institutions : Université d'État de New York à Stony Brook, Allen Institute for Artificial Intelligence, Université de la Sarre
Adresse papier : https://arxiv.org/abs/2407.18901
Il s’agit d’une tentative très impressionnante et importante de créer un environnement de simulation et d’évaluation pour l’interaction homme-machine. Cela encouragera la production de références dynamiques stimulantes pour la communauté.
Prix du président de terrain de 21 articles
35 articles remarquables
(Cette photo est incomplète)
Références :
https://x.com/aclmeeting/status/1823664612677705762