2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Neuer Weisheitsbericht
Herausgeber: Redaktion
[Einführung in die neue Weisheit]ACL, die jährliche Top-NLP-Konferenz, gab den endgültigen Gewinnerbeitrag bekannt. In diesem Jahr gewannen insgesamt 7 Arbeiten den Preis für die beste Arbeit, und die Zeittestpreise gingen an Stanford GloVe und Cornell University Similarity Measure. Darüber hinaus gibt es den Best Topic Award, den Best Social Impact Award, den Best Resource Award, den Area Chair Award und den Outstanding Paper Award.
Die ACL 2024-Auszeichnungen sind endlich erhältlich!
Insgesamt wurden 7 beste Arbeiten, 35 herausragende Arbeiten sowie der Time Test Award, der SAC Award, der Best Theme Paper, der Best Resource Paper Award usw. bekannt gegeben.
Erwähnenswert ist, dass Deciphering Oracle Bone Language with Diffusion Models zu den sieben besten Arbeiten gehört und von einem rein chinesischen Team verfasst wurde.
Dieses Jahr findet die 26. Jahreskonferenz der International Conference on Computational Linguistics (ACL) statt, die vom 11. bis 16. August in Bangkok, Thailand, eröffnet wurde.
Die Gesamtzahl der für ACL 2024 eingereichten Beiträge ist fast die gleiche wie im Jahr 2023, etwa 5.000 Beiträge, von denen 940 angenommen wurden.
Mit insgesamt 72 SACs, 716 ACs und 4208 Gutachtern ist dieser ACL der größte in der Geschichte.
975 Finding Papers, 6 JCL, 31 TACL, 3 Keynote-Vorträge und 1 Panel.
Die gesamte Konferenz umfasste außerdem 18 Workshops, 6 Tutorials, 38 Demos und 60 SRW-Vorträge.
Die spezifischen Einreichungsdetails der Papierautoren lauten wie folgt:
Die meisten eingereichten halben Arbeiten: 10.333 Wissenschaftler reichten eine und 2.130 Wissenschaftler reichten zwei Arbeiten ein
Eine kleine Anzahl von Personen hat mehrere Beiträge eingereicht: 3 Autoren haben 18 Beiträge eingereicht, 6 Personen haben 19 Beiträge eingereicht und 18 Personen haben mehr als 20 Beiträge eingereicht.
Werfen wir einen Blick darauf, welche Teams dieses Jahr die Auszeichnungen gewonnen haben.
Die 7 besten Arbeiten
Artikel 1: Entschlüsselung der Oracle-Knochensprache mit Diffusionsmodellen
Mitwirkende: Haisu Guan, Huanxin Yang, Xinyu Wang, Shengwei Han, Yongge Liu, Lianwen Jin, Xiang Bai, Yuliang Liu
Institutionen: Huazhong University of Science and Technology, University of Adelaide, Anyang Normal University, South China University of Technology
Papieradresse: https://arxiv.org/pdf/2406.00684
Wie der Titel schon sagt, nutzte das chinesische Team KI, um etwas sehr Interessantes und Wertvolles zu tun – die Entschlüsselung von Oracle (OBS) mithilfe eines Diffusionsmodells.
Orakelknocheninschriften entstanden vor etwa 3.000 Jahren in der chinesischen Shang-Dynastie und sind ein Eckpfeiler der Sprachgeschichte.
Obwohl Tausende von Inschriften entdeckt wurden, sind viele der Orakelknocheninschriften noch immer unentschlüsselt, was einen Schleier des Geheimnisses über diese alte Sprache wirft.
In dem Artikel stellt der Autor eine neue Methode zur Generierung von KI mithilfe von Bildern vor, insbesondere die Entwicklung von „Oracle Bone Script Decipher“ (OBSD).
Mit einer auf bedingter Diffusion basierenden Strategie generierte OBSD wichtige Hinweise zur Entschlüsselung und eröffnete einen neuen Weg für die KI-gestützte Analyse alter Sprachen.
Um seine Wirksamkeit zu überprüfen, führten die Forscher zahlreiche Experimente mit dem Oracle-Datensatz durch und die quantitativen Ergebnisse bewiesen die Wirksamkeit von OBSD.
Frage 2: Erfüllbarkeit natürlicher Sprachen: Untersuchung der Problemverteilung und Bewertung transformatorbasierter Sprachmodelle
(Preprint wurde noch nicht eingereicht)
Artikel 3: Kausale Schätzung von Erinnerungsprofilen
Mitwirkende: Pietro Lesci, Clara Meister, Thomas Hofmann, Andreas Vlachos, Tiago Pimentel
Institution: University of Cambridge, ETH Zürich
Papieradresse: https://arxiv.org/pdf/2406.04327
Das Verständnis des LLM-Gedächtnisses hat wichtige Auswirkungen auf Praxis und Gesellschaft, beispielsweise die Untersuchung der Dynamik des Modelltrainings oder die Verhinderung von Urheberrechtsverletzungen.
Frühere Forschungen definieren Gedächtnis als die kausale Reaktion auf die Fähigkeit eines Modells, diese Instanz durch Training an dieser Instanz vorherzusagen.
Diese Definition beruht auf einem kontrafaktischen Prinzip: der Fähigkeit, zu beobachten, was passiert wäre, wenn das Modell die Instanz nicht gesehen hätte.
Bestehende Methoden zielen jedoch in der Regel auf die Modellarchitektur ab und nicht auf die Schätzung des Speichers für bestimmte Modellinstanzen, was es schwierig macht, recheneffiziente und genaue kontrafaktische Schätzungen bereitzustellen.
Diese Studie schließt eine wichtige Lücke, da die Autoren eine prinzipielle und effiziente neue Methode zur Schätzung der Memoisierung auf der Grundlage von Differenz-in-Differenzen-Designs in der Ökonometrie vorschlagen.
Mit dieser Methode kann nur durch Beobachtung des Verhaltens einer kleinen Anzahl von Instanzen während des gesamten Trainingsprozesses das Speicherprofil des Modells beschrieben werden, dh der Speichertrend des Modells während des gesamten Trainingsprozesses.
In Experimenten mit der Pythia-Modellsuite fanden die Forscher:
(1) Große Modelle haben einen stärkeren und langlebigeren Speicher;
(2) Bestimmt durch Datenreihenfolge und Lernrate;
(3) Bei Modellen unterschiedlicher Größe gibt es stabile Trends, sodass der Speicher großer Modelle genauso vorhersehbar ist wie der Speicher kleiner Modelle.
Papier 4: Aya-Modell: Ein fein abgestimmtes mehrsprachiges Open-Access-Sprachmodell mit Anweisungen
Mitwirkende: Ahmet Üstün, Viraat Aryabumi, Zheng-Xin Yong, Wei-Yin Ko, Daniel D'souza, Gbemileke Onilude, Neel Bhandari, Shivalika Singh, Hui-Lee Ooi, Amr Kayid, Freddie Vargus, Phil Blunsom, Shayne Longpre, Niklas Münnighoff, Marzieh Fadaee, Julia Kreutzer, Sara Hooker
Institutionen: Cohere For AI, Brown University, Cohere, Cohere For AI Community, Carnegie Mellon University, MIT
Papieradresse: https://arxiv.org/pdf/2402.07827
Im Februar dieses Jahres veröffentlichte das Startup Cohere ein neues Open-Source-Sprachgenerierungsmodell in großem Maßstab namens Aya, das mehr als 101 Sprachen abdeckt.
Es ist erwähnenswert, dass die Modellabdeckung der Aya-Modellsprache mehr als doppelt so hoch ist wie die der bestehenden Open-Source-Modelle und übertrifft mT0 und BLOOMZ.
Der menschliche Bewertungswert erreicht 75 %, und der Wert in verschiedenen simulierten Gewinnquotentests liegt bei 80–90 %.
Das Projekt wurde gestartet und brachte mehr als 3.000 unabhängige Forscher aus 119 Ländern zusammen.
Darüber hinaus veröffentlichten die Forscher auch den bislang größten Datensatz zur Feinabstimmung mehrsprachiger Leitlinien, der 513 Millionen Daten enthält und 114 Sprachen abdeckt.
Papier 5: Mission: Unmögliche Sprachmodelle
Von: Julie Kallini, Isabel Papadimitriou, Richard Futrell, Kyle Mahowald, Christopher Potts
Institution: Stanford University, University of California, Irvine, University of Texas in Austin
Papieradresse: https://arxiv.org/pdf/2401.06416
Chomsky und andere haben unverblümt erklärt, dass LLM gleichermaßen in der Lage ist, Sprachen zu lernen, die für Menschen möglich und unmöglich sind.
Es gibt jedoch nur wenige veröffentlichte experimentelle Beweise, die diese Behauptung stützen.
Zu diesem Zweck entwickelten die Forscher eine Reihe synthetischer „unmöglicher Sprachen“ unterschiedlicher Komplexität, die jeweils durch systematische Veränderung englischer Daten und die Verwendung unnatürlicher Wortreihenfolge und grammatikalischer Regeln entworfen wurden.
Diese Sprachen liegen auf einem Kontinuum unmöglicher Sprachen: An einem Ende stehen völlig unmögliche Sprachen, wie zum Beispiel zufällig neu angeordnetes Englisch, und am anderen Ende sind Sprachen, die als sprachlich unmöglich gelten, wie zum Beispiel solche, die auf Regeln zur Wortpositionszählung basieren .
Nach einer Reihe von Bewertungen ist GPT-2 sehr schwierig, unmögliche Sprachen zu lernen, was die Kernidee in Frage stellt.
Noch wichtiger ist, dass die Forscher hoffen, dass dieser Ansatz zu mehr Forschung über die Fähigkeit von LLM, verschiedene Arten von Sprachen zu lernen, führen wird, um die potenziellen Anwendungen von LLM in der kognitiven und linguistischen Typologieforschung besser zu verstehen.
Artikel 6: Halbüberwachte neuronale Protosprachenrekonstruktion
Autor: Liang Lu, Peirong Xie, David R. Mortensen
Institution: Carnegie Mellon University, University of Southern California
Papieradresse: https://arxiv.org/pdf/2406.05930
Bestehende Vergleichs- und Rekonstruktionsarbeiten an der Muttersprache erfordern in der Regel eine umfassende Aufsicht.
Allerdings sind historische Rekonstruktionsmodelle nur dann von praktischem Wert, wenn sie mit begrenzten annotierten Daten trainiert werden.
In diesem Zusammenhang schlugen die Forscher eine halbüberwachte Geschichtsrekonstruktionsaufgabe vor.
Bei dieser Aufgabe muss das Modell nur auf einer kleinen Menge markierter Daten (ein homologer Satz mit Prototypen) und einer großen Menge unbeschrifteter Daten (ein homologer Satz ohne Prototypen) trainiert werden.
Der Autor entwickelte eine neuronale Architektur für die vergleichende Rekonstruktion – DPD-BiReconstructor –, die einen wichtigen Punkt in den vergleichenden Methoden der Linguisten enthält: Rekonstruierte Wörter können nicht nur aus ihren Unterwörtern rekonstruiert, sondern auch deterministisch zurück in ihre Unterwörter transformiert werden .
Wir zeigen, dass diese Architektur in der Lage ist, unbeschriftete Sätze verwandter Wörter zu nutzen und bestehende halbüberwachte Lerngrundlagen bei dieser neuen Aufgabe zu übertreffen.
Aufsatz 7: Warum sind sensible Funktionen für Transformatoren schwierig?
Autor: Michael Hahn, Mark Rofin
Institution: Universität des Saarlandes
Papieradresse: https://arxiv.org/pdf/2402.09963
Empirische Untersuchungen haben eine Reihe von Erlernbarkeitsverzerrungen und -beschränkungen des Transformer-Modells entdeckt, wie z. B. die Schwierigkeit beim Erlernen der Berechnung einfacher formaler Sprachen (wie PARITY) und seine Tendenz, mit Funktionen niedriger Ordnung zu arbeiten.
Das theoretische Verständnis bleibt jedoch begrenzt, und bestehende Theorien der Ausdrucksfähigkeit überschätzen oder unterschätzen die tatsächliche Lernfähigkeit.
Die Forscher zeigten, dass bei der Transformer-Architektur die Verlustlandschaft durch die Empfindlichkeit des Eingaberaums eingeschränkt wird:
Transformatormodelle, deren Ausgaben auf mehrere Teile der Eingabezeichenfolge reagieren, belegen isolierte Punkte im Parameterraum, was zu einer geringen Empfindlichkeitsverzerrung bei der Generalisierung führt.
Die Forschung zeigt sowohl theoretisch als auch empirisch, dass die neueste Theorie empirische Beobachtungen über die Lernfähigkeiten und Vorurteile von Transformern vereint, wie z. B. ihre Präferenz für Bodensensitivität und Funktionen niedriger Ordnung sowie Schwierigkeiten bei der Verallgemeinerung von Paritäts- und Längenproblemen.
Dies legt nahe, dass das Verständnis der induktiven Vorspannung des Transformators nicht nur die Untersuchung seiner prinzipiellen Ausdruckskraft, sondern auch der Verlustlandschaft erfordert.
2 Zeittest-Auszeichnungen
Aufsatz 1: GloVe: Globale Vektoren für die Wortdarstellung (2014)
Autor: Jeffrey Pennington, Richard Socher, Christopher Manning
Institution: Stanford University
Papieradresse: https://nlp.stanford.edu/pubs/glove.pdf
Die Worteinbettung war zwischen 2013 und 2018 der Eckpfeiler der Deep-Learning-Methoden für NLP und hat weiterhin große Auswirkungen. Sie verbessern nicht nur die Leistung von NLP-Aufgaben, sondern haben auch erhebliche Auswirkungen auf die rechnerische Semantik, wie etwa Wortähnlichkeit und Analogie.
Die beiden wahrscheinlich einflussreichsten Methoden zur Worteinbettung sind Skip-Gram/CBOW und GloVe. Im Vergleich zu Skip-Gramm wurde GloVe später in seiner konzeptionellen Einfachheit vorgeschlagen – die Optimierung ihrer Ähnlichkeit im Vektorraum basiert direkt auf den Verteilungseigenschaften von Wörtern und nicht auf der Grundlage einer vereinfachten Sprachmodellierung eine Reihe von Parametern für die indirekte Optimierung.
Aufsatz 2: Maße der Verteilungsähnlichkeit (1999)
Autor: Lillian Lee
Institution: Cornell University
Papieradresse: https://aclanthology.org/P99-1004.pdf
Die Untersuchung von Verteilungsähnlichkeitsmaßen zielt darauf ab, die Wahrscheinlichkeitsschätzung unsichtbarer gleichzeitig auftretender Ereignisse zu verbessern, was einer anderen Möglichkeit zur Charakterisierung der Ähnlichkeit zwischen Wörtern entspricht.
Der Beitrag des Papiers besteht aus drei Aspekten: einem umfassenden empirischen Vergleich verschiedener Maße; einer Klassifizierung basierend auf den in der Ähnlichkeitsfunktion enthaltenen Informationen und der Einführung einer neuen Funktion, die sich gut für die Bewertung potenzieller Agentenverteilungen eignet;
1 bestes Themenpapier
Abschlussarbeit: OLMo: Beschleunigung der Wissenschaft von Sprachmodellen
Mitwirkende: Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi
Institutionen: Allen Institute for Artificial Intelligence, University of Washington, Yale University, New York University, Carnegie Mellon University
Papieradresse: https://arxiv.org/abs/2402.00838
Diese Arbeit stellt einen bedeutenden Fortschritt bei der Verbesserung der Transparenz und Reproduzierbarkeit des Trainings für große Sprachmodelle dar. Die Community ist bestrebt, Fortschritte zu erzielen (oder zumindest anderen Mitwirkenden neben Branchenriesen die Möglichkeit zu geben, zum Fortschritt beizutragen).
3 Auszeichnungen für die beste soziale Wirkung
Teil 1: Wie Johnny LLMs zum Jailbreak überreden kann: Überzeugen neu denken, um die Sicherheit von KI durch Humanisierung von LLMs in Frage zu stellen
Mitwirkende: Yi Zeng, Hongpeng Lin, Jingwen Zhang, Diyi Yang, Ruoxi Jia, Weiyan Shi
Institutionen: Virginia Tech, Renmin University of China, University of California, Davis, Stanford University
Papieradresse: https://arxiv.org/abs/2401.06373
In diesem Artikel wird das Sicherheitsthema der künstlichen Intelligenz zur Umgehung von Beschränkungen untersucht. Es untersucht eine im Bereich der sozialwissenschaftlichen Forschung entwickelte Methode. Die Forschung ist faszinierend und hat das Potenzial, erhebliche Auswirkungen auf die Gemeinschaft zu haben.
Frage 2: DIALECTBENCH: Ein NLP-Benchmark für Dialekte, Varietäten und eng verwandte Sprachen
Mitwirkende: Fahim Faisal, Orevaoghene Ahia, Aarohi Srivastava, Kabir Ahuja, David Chiang, Yulia Tsvetkov, Antonios Anastasopoulos
Institutionen: George Mason University, University of Washington, University of Notre Dame, RC Athena
Papieradresse: https://arxiv.org/abs/2403.11009
Dialektvariation ist ein wenig erforschtes Phänomen in der Verarbeitung natürlicher Sprache und künstlicher Intelligenz. Seine Forschung ist jedoch nicht nur aus sprachlicher und sozialer Sicht von großem Wert, sondern hat auch wichtige Implikationen für die Anwendung. Dieses Papier schlägt einen innovativen Maßstab für die Untersuchung dieses Problems im Zeitalter großer Sprachmodelle vor.
Aufsatz 3: Nach dem Gebet ein Bier trinken? Kulturelle Voreingenommenheit in großen Sprachmodellen messen
Autor: Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu
Institution: Georgia Institute of Technology
Papieradresse: https://arxiv.org/abs/2305.14456
Dieser Artikel deckt ein wichtiges Problem im Zeitalter großer Sprachmodelle auf: kulturelle Voreingenommenheit. Obwohl der Kontext der Studie die arabische Kultur und Sprache ist, zeigen die Ergebnisse, dass wir bei der Gestaltung großer Sprachmodelle kulturelle Nuancen berücksichtigen müssen. Daher könnten ähnliche Studien an anderen Kulturen durchgeführt werden, um zu verallgemeinern und zu beurteilen, ob auch andere Kulturen von diesem Problem betroffen sind.
Die 3 besten Ressourcenpapiere
Artikel 1: Latxa: Ein offenes Sprachmodell und eine Evaluierungssuite für Baskisch
Mitwirkende: Julen Etxaniz, Oscar Sainz, Naiara Perez, Itziar Aldabe, German Rigau, Eneko Agirre, Aitor Ormazabal, Mikel Artetxe, Aitor Soroa
Institution: Universität des Baskenlandes
Papieradresse: https://arxiv.org/abs/2403.20266
In diesem Artikel werden alle Details der Korpuserfassung und -auswertung von Datensätzen ausführlich beschrieben. Obwohl sie die baskische Sprache untersuchten, kann dieser Ansatz erweitert werden, um große Sprachmodelle für Sprachen mit geringen Ressourcen zu erstellen.
Frage 2: Dolma: ein offenes Korpus mit drei Billionen Token für die Vortrainingsforschung von Sprachmodellen
Mitwirkende: Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert , Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo
Institutionen: Allen Institute for Artificial Intelligence, UC Berkeley, Carnegie Mellon University, Spiffy AI, MIT, University of Washington
Papieradresse: https://arxiv.org/abs/2402.00159
Dieser Artikel veranschaulicht die Bedeutung der Datenkuration bei der Vorbereitung von Datensätzen für große Sprachmodelle. Es liefert wertvolle Erkenntnisse, die einem breiten Publikum innerhalb der Community zugute kommen können.
Frage 3: AppWorld: Eine kontrollierbare Welt aus Apps und Menschen zum Benchmarking interaktiver Coding-Agenten
Mitwirkende: Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian
Institutionen: State University of New York at Stony Brook, Allen Institute for Artificial Intelligence, Universität des Saarlandes
Papieradresse: https://arxiv.org/abs/2407.18901
Dies ist ein sehr beeindruckender und wichtiger Versuch, eine Simulator- und Bewertungsumgebung für die Mensch-Computer-Interaktion aufzubauen. Dies wird die Erstellung anspruchsvoller dynamischer Benchmarks für die Community fördern.
21 Artikel Field Chairman’s Award
35 herausragende Arbeiten
(Dieses Bild ist unvollständig)
Referenzen:
https://x.com/aclmeeting/status/1823664612677705762