2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Rapport sur le cœur de la machine
Département éditorial de Machine Heart
Les contributeurs ont beaucoup gagné de cette conférence ACL.
L'ACL 2024, d'une durée de six jours, se tient à Bangkok, en Thaïlande.
ACL est la plus grande conférence internationale dans le domaine de la linguistique informatique et du traitement du langage naturel. Elle est organisée par l'Association internationale pour la linguistique informatique et a lieu chaque année. L'ACL a toujours été classée première en termes d'influence académique dans le domaine de la PNL, et c'est également une conférence recommandée par le CCF-A.
La conférence ACL de cette année est la 62e et a reçu plus de 400 travaux de pointe dans le domaine de la PNL. Hier après-midi, la conférence a annoncé le meilleur article et d'autres récompenses. Cette fois, 7 Best Paper Awards (deux inédits), 1 Best Theme Paper Award et 35 Outstanding Paper Awards ont été décernés.
La conférence a également décerné 3 Resource Awards, 3 Social Impact Awards et 2 Time Test Awards.
De plus, le Lifetime Achievement Award de cette conférence a été décerné à Ralph Grishman, professeur au Département d'informatique de l'Université de New York.
Ce qui suit est des informations spécifiques sur les récompenses.
meilleur papier
Papier 1 : Mission : Modèles de langage impossibles
Introduction à l'article : Chomsky et d'autres pensent que la capacité d'apprentissage des grands modèles linguistiques (LLM) est la même pour les langues qui peuvent ou non être apprises par les humains. Cependant, il existe peu de preuves expérimentales publiées pour étayer cette affirmation.
L'étude a développé un ensemble de langages synthétiques de complexité variable, chacun conçu en modifiant systématiquement les données anglaises en utilisant un ordre des mots et des règles grammaticales non naturelles, dans le but de synthétiser des langages qui seraient impossibles à apprendre pour les humains.
L'étude a mené des expériences d'évaluation approfondies pour évaluer la capacité du petit modèle GPT-2 à apprendre ces « langues impossibles » et a mené ces évaluations à différentes étapes tout au long de la formation afin de comparer le processus d'apprentissage de chaque langue. La principale conclusion de l'étude est que GPT-2 est difficile à apprendre comme des « langues impossibles » par rapport à l'anglais, ce qui remet en cause les affirmations de Chomsky et d'autres.
Plus important encore, l'étude espère que son approche ouvrira une piste de recherche fructueuse, permettant de tester différentes architectures LLM sur une variété de « langages impossibles » afin de comprendre comment le LLM peut être utilisé comme outil d'investigation cognitive et typologique.
Document 2 : Pourquoi les fonctions sensibles sont-elles difficiles pour les transformateurs ?
Résumé : Des études expérimentales ont identifié une série de biais et de limites d'apprentissage des transformateurs, tels que la difficulté persistante à apprendre à calculer des langages formels simples tels que PARITY et un biais en faveur des fonctions de bas degré. Cependant, la compréhension théorique reste limitée et les théories existantes de la représentation surestiment ou sous-estiment les capacités d’apprentissage réalistes.
Cette étude démontre que dans l'architecture du transformateur, le paysage des pertes est limité par la sensibilité de l'espace d'entrée : les transformateurs dont les sorties sont sensibles à de nombreuses parties de la chaîne d'entrée sont situés à des points isolés dans l'espace des paramètres, ce qui entraîne un biais de faible sensibilité dans généralisation.
Cette étude montre théoriquement et expérimentalement que la théorie unifie des observations expérimentales approfondies sur les capacités et les biais d'apprentissage des transformateurs, tels que leur biais de généralisation vers une sensibilité et un degré faibles, et la difficulté de la généralisation de la longueur de parité. Cela suggère que la compréhension des polarisations inductives d'un transformateur nécessite d'étudier non seulement son expressivité de principe, mais également son paysage de fonctions de perte.
Article 3 : Déchiffrer le langage Oracle Bone avec des modèles de diffusion
Introduction à l'article : Oracle Bone Script (OBS) est né sous la dynastie chinoise Shang il y a environ 3 000 ans. Il constitue la pierre angulaire de l'histoire des langues et est antérieur à de nombreux systèmes d'écriture établis. Bien que des milliers d’inscriptions aient été découvertes, un grand nombre d’os d’oracle restent indéchiffrés, enveloppant cette langue ancienne d’un voile de mystère. L’émergence de la technologie moderne de l’IA a ouvert de nouveaux domaines pour le déchiffrement Oracle, posant des défis aux méthodes traditionnelles de PNL qui s’appuient fortement sur de grands corpus de textes.
Cet article présente une nouvelle méthode utilisant la technologie de génération d'images pour développer un modèle de diffusion optimisé pour le déchiffrement Oracle, Oracle Bone Script Decipher (OBSD). En utilisant la stratégie de diffusion conditionnelle, OBSD a généré des indices importants pour le déchiffrement Oracle et a ouvert une nouvelle direction pour l’analyse des langues anciennes assistée par l’IA. Afin de vérifier l'efficacité, les chercheurs ont mené des expériences approfondies sur l'ensemble de données Oracle, et les résultats quantitatifs ont prouvé l'efficacité d'OBSD.
Article 4 : Estimation causale des profils de mémorisation
Introduction à l'article : Comprendre la mémoire dans les modèles de langage a des implications pratiques et sociales, telles que l'étude de la dynamique de formation des modèles ou la prévention de la violation du droit d'auteur. Des recherches antérieures définissent la mémoire comme la relation causale entre « l'entraînement à l'aide d'une instance » et « la capacité du modèle à prédire cette instance ». Cette définition s'appuie sur un contrefactuel : la capacité d'observer ce qui se serait passé si le modèle n'avait pas vu l'instance. Les méthodes existantes ont du mal à fournir des estimations informatiques efficaces et précises de ces contrefactuels. De plus, ces méthodes estiment généralement la mémoire de l’architecture du modèle plutôt que la mémoire d’instances de modèle spécifiques.
Cet article comble une lacune importante en proposant une nouvelle approche efficace et fondée sur des principes pour estimer la mémoire basée sur un plan économétrique de différence dans la différence. Avec cette méthode, les chercheurs n'observent le comportement du modèle que sur un petit nombre d'instances pendant tout le processus de formation pour décrire le profil de mémoire du modèle, c'est-à-dire sa tendance de mémoire au cours du processus de formation. Dans des expériences utilisant la suite de modèles Pythia, ils ont constaté que la mémoire (i) est plus forte et plus persistante dans les modèles plus grands, (ii) est déterminée par l'ordre des données et le taux d'apprentissage, et (iii) est stable dans différentes tendances de taille de modèle. les mémoires du modèle plus grand peuvent être prédites à partir du modèle plus petit.
Article 5 : Modèle Aya : un modèle de langage multilingue en libre accès optimisé pour les instructions
Introduction à l'article : Les avancées récentes dans les grands modèles de langage (LLM) se sont concentrées sur un petit nombre de langages riches en données. Comment les possibilités de percées peuvent-elles être élargies au-delà des autres langues ? La recherche présente Aya, un modèle de langage génératif multilingue à grande échelle qui suit les instructions pour 101 langues, dont plus de 50 % sont considérées comme à faibles ressources. Aya surpasse mT0 et BLOOMZ sur la plupart des tâches tout en couvrant deux fois plus de langues.
En outre, la recherche introduit une vaste gamme de nouvelles évaluations, étendant l’état de l’art en matière d’évaluation multilingue à 99 langues. Enfin, l’étude fournit une enquête détaillée sur la composition optimale du mélange, l’élagage des données et la toxicité, les biais et la sécurité du modèle.
Article 6 : Reconstruction du proto-langage neuronal semi-supervisé
Raison du prix : Cette recherche révolutionnaire vise à semi-automatiser la tâche de reconstruction de prototypes de langues en linguistique historique, en proposant une nouvelle architecture semi-supervisée. Cette méthode surpasse les méthodes supervisées précédentes en introduisant un processus de réflexion « prototype-langage natif » dans la reconstruction « langage natif-prototype ». Cet article est un bon exemple de la manière dont les modèles informatiques modernes, tels que les codeurs et décodeurs neuronaux, peuvent contribuer à la linguistique.
Article 7 : Satisfiabilité du langage naturel : exploration de la distribution des problèmes et évaluation des modèles de langage basés sur des transformateurs (non publié)
Raison de l'attribution : Cet article décrit clairement un ensemble de données d'évaluation synthétique pour l'inférence logique. Il s’agit d’un bon complément aux grands ensembles de données d’inférence où il n’est pas clair quelles capacités sont mesurées. Théoriquement, il y a effectivement des raisons de s’attendre à ce que certains sous-ensembles soient plus difficiles que d’autres, et ces attentes sont validées dans l’article. Au sein de chaque catégorie, les auteurs accordent une attention particulière à l’échantillonnage des cas véritablement difficiles.
Prix éprouvé
L'ACL Time Test Award récompense des articles honorifiques qui ont eu un impact à long terme sur les domaines du traitement du langage naturel et de la linguistique informatique. Il est divisé en deux prix : il y a 10 ans (2014) et il y a 25 ans (1999 au maximum). de deux articles sont décernés chaque année.
Article 1 : GloVe : vecteurs globaux pour la représentation des mots
Introduction : Les méthodes d'apprentissage des représentations spatiales vectorielles des mots ont réussi à capturer des règles sémantiques et syntaxiques fines à l'aide de l'arithmétique vectorielle, mais les règles syntaxiques restent opaques. Cette étude analyse et clarifie les propriétés que le modèle doit avoir pour que les règles syntaxiques apparaissent dans les vecteurs de mots.
Cette étude propose un nouveau modèle de régression linéaire logarithmique global - GloVe, conçu pour apprendre les représentations vectorielles des mots. Ce modèle combine les avantages de la factorisation matricielle globale et des méthodes de fenêtre contextuelle locale.
GloVe a obtenu la meilleure performance de 75 % sur la tâche d'analogie de mots et a surpassé les modèles associés sur la tâche de similarité de mots et de reconnaissance d'entités nommées.
Raison du prix : les intégrations de mots ont été la pierre angulaire des méthodes d'apprentissage profond pour le traitement du langage naturel (NLP) de 2013 à 2018 et continuent d'exercer une influence significative. Non seulement ils améliorent les performances des tâches de PNL, mais ils ont également un impact significatif sur la sémantique informatique, telle que la similarité et l’analogie des mots. Les deux méthodes d'intégration de mots les plus influentes sont probablement skip-gram/CBOW et GloVe. Comparé à skip-gram, GloVe a été proposé plus tard. Son avantage relatif réside dans sa simplicité conceptuelle, optimisant la similarité de l'espace vectoriel directement sur la base des caractéristiques de distribution entre les mots, plutôt qu'indirectement en tant qu'ensemble de paramètres dans une perspective de modélisation simplifiée du langage.
Document 2 : Mesures de similarité distributionnelle
Introduction de l'article : L'auteur étudie les mesures de similarité de distribution dans le but d'améliorer les estimations de probabilité d'événements de cooccurrence invisibles. Leur contribution est triple : une comparaison empirique d'un large éventail de mesures ; une classification des fonctions de similarité basée sur les informations qu'elles contiennent et l'introduction d'une nouvelle fonction supérieure dans l'évaluation des distributions d'agents sous-jacentes.
Prix pour l'ensemble de sa carrière
Le Lifetime Achievement Award de l'ACL a été décerné à Ralph Grishman. Ralph Grishman est professeur au Département d'informatique de l'Université de New York, où il se concentre sur la recherche dans le domaine du traitement du langage naturel (NLP). Il est le fondateur du projet Proteus, qui a apporté d'importantes contributions à l'extraction d'informations (IE) et favorisé le développement de ce domaine.
Il a également développé le Java Extraction Toolkit (JET), un outil d'extraction d'informations largement utilisé qui fournit plusieurs composants d'analyse du langage tels que la segmentation des phrases, l'annotation des entités nommées, l'annotation et la normalisation des expressions temporelles, le marquage des parties du discours, l'analyse des parties et la co-analyse. analyse. Fait référence à l'analyse. Ces composants peuvent être combinés en pipelines selon différentes applications, qui peuvent être utilisés pour l'analyse interactive de phrases uniques ou l'analyse par lots de documents entiers. De plus, JET fournit des outils simples pour l'annotation et l'affichage des documents, et comprend un processus complet pour extraire les entités, les relations et les événements conformément à la spécification ACE (Automatic Content Extraction).
Les travaux du professeur Grishman couvrent plusieurs questions fondamentales de la PNL et ont eu un impact profond sur la technologie moderne de traitement du langage.
35 articles remarquables
Prix du meilleur article thématique
Thèse : OLMo : Accélérer la science des modèles linguistiques
Citation : Ce travail est une étape importante vers la transparence et la reproductibilité dans la formation de grands modèles de langage, un pas en avant dans les efforts de la communauté pour progresser (ou du moins pour permettre à d'autres chercheurs qui ne sont pas des géants de l'industrie de contribuer de toute urgence).
Prix du document ressource
3 articles ont remporté le Resource Paper Award.
Article 1 : Latxa : Un modèle de langage ouvert et une suite d'évaluation pour le basque
Institution : Université du Pays Basque, Espagne
Raisons de l'attribution : Cet article décrit en détail les détails de la collecte de corpus et de l'évaluation des ensembles de données. Bien que pertinente pour la recherche sur la langue basque, cette méthodologie peut être étendue à la construction de grands modèles pour d’autres langues à faibles ressources.
Article 2 : Dolma : un corpus ouvert de trois billions de jetons pour la recherche sur la pré-formation des modèles linguistiques
Raison de l'attribution : Cet article démontre l'importance de la gestion des données lors de la préparation d'ensembles de données pour la formation de grands modèles de langage. Cela fournit des informations très précieuses à un large éventail de personnes au sein de la communauté.
Document 3 : AppWorld : un monde contrôlable d'applications et de personnes pour l'analyse comparative des agents de codage interactifs
Raisons du prix : Cette recherche est un travail très important et étonnant dans la construction de simulation et d'évaluation d'environnements interactifs. Cela encouragera tout le monde à produire des références dynamiques plus rigoureuses pour la communauté.
Prix de l'impact social
3 articles ont remporté le Social Impact Award.
Sujet 1 : Comment Johnny peut persuader les LLM de les jailbreaker : repenser la persuasion pour remettre en question la sécurité de l'IA en humanisant les LLM
Raison de l'attribution : Cet article explore le thème de la sécurité de l'IA - le jailbreak, en étudiant une méthode développée dans le domaine de la recherche en sciences sociales. La recherche est très intéressante et pourrait avoir un impact significatif sur la communauté.
Article 2 : DIALECTBENCH : Une référence en PNL pour les dialectes, les variétés et les langues étroitement liées
Raison du prix : La variation dialectale est un phénomène peu étudié dans les domaines de la PNL et de l’intelligence artificielle. Cependant, du point de vue du langage et de la société, ses recherches sont d’une très grande valeur et ont d’importantes implications en termes d’applications. Cet article propose un benchmark très nouveau pour étudier ce problème à l'ère du LLM.
Article 3 : Boire de la bière après la prière ? Mesurer les préjugés culturels dans les grands modèles linguistiques
Raisons du prix : Cet article démontre un problème important à l'ère du LLM : les préjugés culturels. Cet article étudie la culture arabe et l'environnement linguistique et les résultats montrent que nous devons prendre en compte les différences culturelles lors de la conception des LLM. Par conséquent, la même étude peut être reproduite dans d’autres cultures pour généraliser et évaluer si d’autres cultures sont également affectées par ce problème.