ACL 2024 Awards: Eine der besten Arbeiten zur Entschlüsselung von Oracle bei HuaTech, GloVe Time Test Award

2024-08-15

Maschinenherzbericht

Redaktion von Machine Heart

Die Mitwirkenden haben von dieser ACL-Konferenz viel profitiert.

Das sechstägige ACL 2024 findet in Bangkok, Thailand, statt.

ACL ist die führende internationale Konferenz im Bereich Computerlinguistik und Verarbeitung natürlicher Sprache. Sie wird von der International Association for Computational Linguistics organisiert und findet jährlich statt. ACL steht seit jeher an erster Stelle, was den akademischen Einfluss im Bereich NLP angeht, und ist außerdem eine von der CCF-A empfohlene Konferenz.

Die diesjährige ACL-Konferenz ist die 62. und hat mehr als 400 innovative Arbeiten im Bereich NLP eingereicht. Gestern Nachmittag gab die Konferenz den besten Vortrag und weitere Auszeichnungen bekannt. Diesmal wurden 7 Best Paper Awards (zwei davon unveröffentlicht), 1 Best Theme Paper Award und 35 Outstanding Paper Awards vergeben.

Die Konferenz verlieh außerdem drei Resource Awards, drei Social Impact Awards und zwei Time Test Awards.

Darüber hinaus wurde der Lifetime Achievement Award dieser Konferenz an Ralph Grishman, Professor am Fachbereich Informatik der New York University, verliehen.

Im Folgenden finden Sie spezifische Informationen zur Auszeichnung.

bestes Papier

Papier 1: Mission: Unmögliche Sprachmodelle

Von: Julie Kallini, Isabel Papadimitriou, Richard Futrell, Kyle Mahowald, Christopher Potts
Institution: Stanford University, University of California, Irvine, University of Texas in Austin
Link zum Papier: https://arxiv.org/abs/2401.06416

Einführung in den Artikel: Chomsky und andere glauben, dass die Lernfähigkeit großer Sprachmodelle (LLM) für Sprachen gleich ist, die möglicherweise von Menschen gelernt werden oder nicht. Es gibt jedoch nur wenige veröffentlichte experimentelle Beweise, die diese Behauptung stützen.

Die Studie entwickelte eine Reihe synthetischer Sprachen unterschiedlicher Komplexität, die jeweils durch systematische Veränderung englischer Daten unter Verwendung unnatürlicher Wortreihenfolgen und grammatikalischer Regeln entwickelt wurden, mit dem Ziel, Sprachen zu synthetisieren, die für Menschen unmöglich zu erlernen wären.

Die Studie führte umfangreiche Bewertungsexperimente durch, um die Fähigkeit des kleinen GPT-2-Modells zum Erlernen dieser „unmöglichen Sprachen“ zu bewerten, und führte diese Bewertungen in verschiedenen Phasen des Trainings durch, um den Lernprozess für jede Sprache zu vergleichen. Das Kernergebnis der Studie ist, dass es im Vergleich zu Englisch schwierig ist, mit GPT-2 „unmögliche Sprachen“ zu lernen, was die Behauptungen von Chomsky und anderen in Frage stellt.

Noch wichtiger ist, dass die Studie hofft, dass ihr Ansatz eine fruchtbare Forschungslinie eröffnen wird, die es ermöglicht, verschiedene LLM-Architekturen in einer Vielzahl von „unmöglichen Sprachen“ zu testen, um zu verstehen, wie LLM als kognitives und typologisches Untersuchungsinstrument verwendet werden kann.

Aufsatz 2: Warum sind sensible Funktionen für Transformatoren schwierig?

Autor: Michael Hahn, Mark Rofin
Institution: Universität des Saarlandes
Link zum Papier: https://arxiv.org/abs/2402.09963

Zusammenfassung: Experimentelle Studien haben eine Reihe von Lernfähigkeitsverzerrungen und Einschränkungen von Transformatoren identifiziert, wie z. B. die anhaltende Schwierigkeit beim Erlernen der Berechnung einfacher formaler Sprachen wie PARITY und eine Tendenz zu Funktionen niedrigen Grades. Das theoretische Verständnis bleibt jedoch begrenzt, und bestehende Darstellungstheorien überschätzen oder unterschätzen realistische Lernfähigkeiten.

Diese Studie zeigt, dass bei der Transformatorarchitektur die Verlustlandschaft durch die Empfindlichkeit des Eingaberaums begrenzt ist: Transformatoren, deren Ausgänge auf viele Teile der Eingabekette empfindlich reagieren, befinden sich an isolierten Punkten im Parameterraum, was zu einer Vorspannung mit geringer Empfindlichkeit führt Verallgemeinerung.

Diese Studie zeigt theoretisch und experimentell, dass die Theorie umfangreiche experimentelle Beobachtungen über Lernfähigkeiten und -verzerrungen von Transformatoren vereint, wie z. B. ihre Generalisierungsverzerrung auf niedrige Empfindlichkeit und geringen Grad sowie die Schwierigkeit der Paritätslängen-Generalisierung. Dies legt nahe, dass das Verständnis der induktiven Vorspannungen eines Transformators nicht nur die Untersuchung seiner prinzipiellen Ausdruckskraft, sondern auch der Landschaft seiner Verlustfunktionen erfordert.

Papier 3: Entschlüsselung der Oracle-Knochensprache mit Diffusionsmodellen

Autoren: Haisu Guan, Huanxin Yang, Xinyu Wang, Shengwei Han usw.
Institutionen: Huazhong University of Science and Technology, University of Adelaide, Anyang Normal University, South China University of Technology
Link zum Papier: https://arxiv.org/pdf/2406.00684

Einführung in den Artikel: Oracle Bone Script (OBS) entstand vor etwa 3.000 Jahren in der Shang-Dynastie in China. Es ist der Grundstein der Sprachgeschichte und älter als viele etablierte Schriftsysteme. Obwohl Tausende von Inschriften entdeckt wurden, ist eine große Anzahl von Orakelknochen immer noch unentschlüsselt, was diese alte Sprache mit einem Schleier voller Geheimnisse umhüllt. Das Aufkommen moderner KI-Technologie hat der Oracle-Entschlüsselung neue Felder eröffnet und traditionelle NLP-Methoden, die stark auf großen Textkorpora basieren, vor Herausforderungen gestellt.

In diesem Artikel wird eine neue Methode vorgestellt, die Bilderzeugungstechnologie nutzt, um ein für die Oracle-Entschlüsselung optimiertes Diffusionsmodell zu entwickeln: Oracle Bone Script Decipher (OBSD). Mithilfe der bedingten Diffusionsstrategie generierte OBSD wichtige Hinweise für die Oracle-Entschlüsselung und eröffnete eine neue Richtung für die KI-gestützte Analyse antiker Sprachen. Um die Wirksamkeit zu überprüfen, führten die Forscher umfangreiche Experimente mit dem Oracle-Datensatz durch und die quantitativen Ergebnisse bewiesen die Wirksamkeit von OBSD.

Aufsatz 4: Kausale Schätzung von Erinnerungsprofilen

Mitwirkende: Pietro Lesci, Clara Meister, Thomas Hofmann, Andreas Vlachos, Tiago Pimentel
Institution: University of Cambridge, ETH Zürich
Link zum Papier: https://arxiv.org/pdf/2406.04327

Einführung in die Arbeit: Das Verständnis des Gedächtnisses in Sprachmodellen hat praktische und soziale Implikationen, beispielsweise die Untersuchung der Trainingsdynamik von Modellen oder die Verhinderung von Urheberrechtsverletzungen. Frühere Forschungen definieren Gedächtnis als den kausalen Zusammenhang zwischen „Training anhand einer Instanz“ und „der Fähigkeit des Modells, diese Instanz vorherzusagen“. Diese Definition beruht auf einem kontrafaktischen Prinzip: der Fähigkeit zu beobachten, was passiert wäre, wenn das Modell die Instanz nicht gesehen hätte. Bestehende Methoden haben Schwierigkeiten, rechnerisch effiziente und genaue Schätzungen solcher Kontrafaktuale zu liefern. Darüber hinaus schätzen diese Methoden typischerweise den Speicher der Modellarchitektur und nicht den Speicher bestimmter Modellinstanzen.

Dieses Papier füllt eine wichtige Lücke, indem es einen neuen, prinzipiellen und effizienten Ansatz zur Schätzung des Gedächtnisses auf der Grundlage eines ökonometrischen Differenz-in-Differenz-Designs vorschlägt. Mit dieser Methode beobachten Forscher das Verhalten des Modells nur bei einer kleinen Anzahl von Instanzen während des gesamten Trainingsprozesses, um das Gedächtnisprofil des Modells, also seinen Gedächtnistrend während des Trainingsprozesses, zu beschreiben. In Experimenten mit der Pythia-Modellsuite stellten sie fest, dass das Gedächtnis (i) in größeren Modellen stärker und beständiger ist, (ii) durch die Datenreihenfolge und die Lernrate bestimmt wird und (iii) über verschiedene Modellgrößen hinweg stabil ist Erinnerungen im größeren Modell können aus dem kleineren Modell vorhergesagt werden.

Papier 5: Aya-Modell: Ein fein abgestimmtes mehrsprachiges Open-Access-Sprachmodell mit Anweisungen

Autor: Ahmet Üstün, Viraat Aryabumi, Zheng Xin Yong, Wei-Yin Ko usw.
Institutionen: Cohere, Brown University usw.
Link zum Papier: https://arxiv.org/pdf/2402.07827

Einleitung zum Papier: Die jüngsten Durchbrüche bei großen Sprachmodellen (LLMs) konzentrierten sich auf eine kleine Anzahl datenreicher Sprachen. Wie können die Möglichkeiten für Durchbrüche über andere Sprachen hinaus erweitert werden? Die Forschung stellt Aya vor, ein groß angelegtes mehrsprachiges generatives Sprachmodell, das Anweisungen für 101 Sprachen folgt, von denen mehr als 50 % als ressourcenarm gelten. Aya übertrifft mT0 und BLOOMZ bei den meisten Aufgaben und deckt gleichzeitig doppelt so viele Sprachen ab.

Darüber hinaus führt die Studie eine umfangreiche Reihe neuer Beurteilungen ein, die den Stand der Technik der mehrsprachigen Beurteilung auf 99 Sprachen erweitern. Abschließend liefert die Studie eine detaillierte Untersuchung der optimalen, fein abgestimmten Mischungszusammensetzung, Datenbereinigung sowie Modelltoxizität, Bias und Sicherheit.

Artikel 6: Halbüberwachte neuronale Protosprachenrekonstruktion

Autor: Liang Lu, Peirong Xie, David R. Mortensen
Institution: CMU, University of Southern California
Link zum Papier: https://arxiv.org/pdf/2406.05930

Grund für die Auszeichnung: Diese bahnbrechende Forschung zielt darauf ab, die Aufgabe der prototypischen Sprachrekonstruktion in der historischen Linguistik halbautomatisch zu gestalten und eine neue halbüberwachte Architektur vorzuschlagen. Diese Methode übertrifft frühere überwachte Methoden, indem sie einen „Prototyp-Muttersprache“-Reflexionsprozess in die „Muttersprache-Prototyp“-Rekonstruktion einführt. Dieser Artikel ist ein gutes Beispiel dafür, wie moderne Rechenmodelle wie neuronale Encoder und Decoder zur Linguistik beitragen können.

Artikel 7: Erfüllbarkeit natürlicher Sprache: Untersuchung der Problemverteilung und Bewertung transformatorbasierter Sprachmodelle (unveröffentlicht)

Mitwirkende: Tharindu Madusanka, Ian Pratt-Hartmann, Riza Batista-Navarro

Grund für die Auszeichnung: Dieses Papier beschreibt klar einen synthetischen Bewertungsdatensatz für logische Schlussfolgerungen. Dies ist eine gute Ergänzung zu großen Inferenzdatensätzen, bei denen nicht klar ist, welche Fähigkeiten gemessen werden. Theoretisch gibt es tatsächlich Gründe zu der Annahme, dass einige Teilmengen schwieriger sind als andere, und diese Erwartungen werden in der Arbeit bestätigt. Innerhalb jeder Kategorie legen die Autoren besonderen Wert auf die Auswahl der wirklich herausfordernden Fälle.

Bewährte Auszeichnung

Der ACL Time Test Award zeichnet Ehrenarbeiten aus, die einen nachhaltigen Einfluss auf die Bereiche der Verarbeitung natürlicher Sprache und der Computerlinguistik hatten. Er ist in zwei Auszeichnungen unterteilt: vor 10 Jahren (2014) und vor 25 Jahren (1999). Jedes Jahr werden zwei Arbeiten vergeben.

Papier 1: GloVe: Globale Vektoren für die Wortdarstellung

Von: Jeffrey Pennington, Richard Socher, Christopher D. Manning
Institution: Stanford University
Link zum Papier: https://aclanthology.org/D14-1162.pdf

Einleitung: Methoden zum Erlernen von Vektorraumdarstellungen von Wörtern haben sich bei der Erfassung feinkörniger semantischer und syntaktischer Regeln mithilfe der Vektorarithmetik als erfolgreich erwiesen, syntaktische Regeln bleiben jedoch undurchsichtig. Diese Studie analysiert und klärt, welche Eigenschaften das Modell haben muss, damit syntaktische Regeln in Wortvektoren erscheinen.

Diese Studie schlägt ein neues globales logarithmisches lineares Regressionsmodell vor – GloVe, das zum Erlernen von Vektordarstellungen von Wörtern entwickelt wurde. Dieses Modell kombiniert die Vorteile der globalen Matrixfaktorisierung und der lokalen Kontextfenstermethoden.

GloVe erreichte die beste Leistung von 75 % bei der Wortanalogieaufgabe und übertraf verwandte Modelle bei der Wortähnlichkeitsaufgabe und der Erkennung benannter Entitäten.

Begründung für die Auszeichnung: Worteinbettungen waren von 2013 bis 2018 der Grundstein für Deep-Learning-Methoden zur Verarbeitung natürlicher Sprache (NLP) und üben weiterhin erheblichen Einfluss aus. Sie verbessern nicht nur die Leistung von NLP-Aufgaben, sondern haben auch erhebliche Auswirkungen auf die rechnerische Semantik, wie etwa Wortähnlichkeit und Analogie. Die beiden einflussreichsten Methoden zur Worteinbettung sind wahrscheinlich Skip-Gram/CBOW und GloVe. Im Vergleich zu Skip-Gramm wurde GloVe später vorgeschlagen. Sein relativer Vorteil liegt in seiner konzeptionellen Einfachheit, da die Vektorraumähnlichkeit direkt auf der Grundlage der Verteilungseigenschaften zwischen Wörtern optimiert wird und nicht indirekt als Satz von Parametern aus der Perspektive einer vereinfachten Sprachmodellierung.

Papier 2: Maße der Verteilungsähnlichkeit

Autor: Lillian Lee
Institution: Cornell University
Link zum Papier: https://aclanthology.org/P99-1004.pdf

Einleitung zum Papier: Der Autor untersucht Verteilungsähnlichkeitsmaße mit dem Ziel, die Wahrscheinlichkeitsschätzungen für unsichtbare gleichzeitig auftretende Ereignisse zu verbessern. Ihr Beitrag ist dreifach: ein empirischer Vergleich einer breiten Palette von Maßen; eine Klassifizierung von Ähnlichkeitsfunktionen auf der Grundlage der darin enthaltenen Informationen und die Einführung einer neuen Funktion, die bei der Bewertung der zugrunde liegenden Agentenverteilungen überlegen ist;

Auszeichnung für sein Lebenswerk

Der Lifetime Achievement Award von ACL wurde an Ralph Grishman verliehen. Ralph Grishman ist Professor am Fachbereich Informatik der New York University und konzentriert sich auf die Forschung im Bereich der Verarbeitung natürlicher Sprache (NLP). Er ist der Gründer des Proteus-Projekts, das bedeutende Beiträge zur Informationsextraktion (IE) geleistet und die Entwicklung des Fachgebiets vorangetrieben hat.

Er entwickelte außerdem das Java Extraction Toolkit (JET), ein weit verbreitetes Informationsextraktionstool, das mehrere Sprachanalysekomponenten wie Satzsegmentierung, Annotation benannter Entitäten, Annotation und Normalisierung zeitlicher Ausdrücke, Wortart-Tagging, Teilparsing und Co- bietet. Analyse. Bezieht sich auf Analyse. Diese Komponenten können je nach Anwendungsfall zu Pipelines zusammengefasst werden, die zur interaktiven Analyse einzelner Sätze oder zur Batch-Analyse ganzer Dokumente genutzt werden können. Darüber hinaus bietet JET einfache Tools für die Annotation und Anzeige von Dokumenten und umfasst einen vollständigen Prozess zum Extrahieren von Entitäten, Beziehungen und Ereignissen gemäß der ACE-Spezifikation (Automatic Content Extraction).

Die Arbeit von Professor Grishman deckt mehrere Kernthemen des NLP ab und hatte tiefgreifende Auswirkungen auf die moderne Sprachverarbeitungstechnologie.

35 herausragende Arbeiten

Artikel 1: Quantisierte Seitenabstimmung: Schnelle und speichereffiziente Abstimmung quantisierter großer Sprachmodelle
Mitwirkende: Zhengxin Zhang, Dan Zhao, Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Qing Li, Yong Jiang, Zhihao Jia
Institutionen: CMU, Tsinghua-Universität, Pengcheng-Labor usw.
Link zum Papier: https://arxiv.org/pdf/2401.07159
Artikel 2: L-Eval: Einführung einer standardisierten Bewertung für Sprachmodelle mit langem Kontext
Mitwirkende: Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li, Jun Zhang, Lingpeng Kong, Xipeng Qiu
Institutionen: Fudan University, University of Hong Kong, University of Illinois at Urbana-Champaign, Shanghai AI Lab
Link zum Papier: https://arxiv.org/abs/2307.11088
Artikel 3: Kausalgesteuertes aktives Lernen zur Entzerrung großer Sprachmodelle
Papierlink: https://openreview.net/forum?id=idp_1Q6F-lC
Artikel 4: CausalGym: Benchmarking kausaler Interpretierbarkeitsmethoden für sprachliche Aufgaben
Autor: Aryaman Arora, Dan Jurafsky, Christopher Potts
Institution: Stanford University
Link zum Papier: https://arxiv.org/abs/2402.12560
Artikel 5: Halluzinieren Sie nicht, enthalten Sie sich: Identifizieren von LLM-Wissenslücken durch Multi-LLM-Zusammenarbeit
Mitwirkende: Shangbin Feng, Weijia Shi, Yike Wang, Wenxuan Ding, Vidhisha Balachandran, Yulia Tsvetkov
Institutionen: University of Washington, University of California, Berkeley, Hong Kong University of Science and Technology, CMU
Link zum Papier: https://arxiv.org/abs/2402.00367
Frage 6: Sprachübersetzung mit Speech Foundation Models und großen Sprachmodellen: Was ist vorhanden und was fehlt?
Autor: Marco Gaido, Sara Papi, Matteo Negri, Luisa Bentivogli
Institution: Bruno Kessler Stiftung, Italien
Link zum Papier: https://arxiv.org/abs/2402.12025
Papier 7: Muss NLP extraktiv sein?
Autor: Steven Bird
Institution: Charles Darwin University
Papierlink: https://drive.google.com/file/d/1hvF7_WQrou6CWZydhymYFTYHnd3ZIljV/view
Artikel 8: IRCoder: Zwischendarstellungen machen Sprachmodelle zu robusten mehrsprachigen Codegeneratoren
Autor: Indraneil Paul, Goran Glavaš, Iryna Gurevych
Institution: Technische Universität Darmstadt, etc.
Link zum Papier: https://arxiv.org/abs/2403.03894
Papier 9: MultiLegalPile: Ein mehrsprachiges Rechtskorpus mit 689 GB
Autor: Matthias Stürmer, Veton Matoshi usw.
Institution: Universität Bern, Stanford University usw.
Link zum Papier: https://arxiv.org/pdf/2306.02069
Frage 10: PsySafe: Ein umfassender Rahmen für psychologisch basierten Angriff, Verteidigung und Bewertung der Sicherheit von Multi-Agenten-Systemen
Beispiele: Zaibin Zhang, Yongting Zhang, Lijun Li, Hongzhi Gao, Lijun Wang, Huchuan Lu, Feng Zhao, Yu Qiao und Jing Shao
Institutionen: Shanghai Artificial Intelligence Laboratory, Dalian University of Technology, University of Science and Technology of China
Link zum Papier: https://arxiv.org/pdf/2401.11880
Frage 11: Können große Sprachmodelle eine gute emotionale Unterstützung sein? Milderung der Präferenzverzerrung bei Gesprächen zur emotionalen Unterstützung
Autor: Dongjin Kang, Sunghwan Kim usw.
Institution: Yonsei University usw.
Link zum Papier: https://arxiv.org/pdf/2402.13211
Frage 12: Politischer Kompass oder rotierender Pfeil? Auf dem Weg zu aussagekräftigeren Bewertungen von Werten und Meinungen in großen Sprachmodellen
Autor: Paul Röttger, Valentin Hofmann usw.
Institutionen: Bocconi University, Allen Institute for Artificial Intelligence usw.
Link zum Papier: https://arxiv.org/pdf/2402.16786
Artikel 13: Gleiche Aufgabe, mehr Token: Der Einfluss der Eingabelänge auf die Argumentationsleistung großer Sprachmodelle
Autor: Mosh Levy, Alon Jacoby, Yoav Goldberg
Institution: Bar-Ilan-Universität, Allen Institute for Artificial Intelligence
Link zum Papier: https://arxiv.org/pdf/2402.14848
Artikel 14: Arbeiten Lamas auf Englisch? Über die latente Sprache mehrsprachiger Transformer
Autor: Chris Wendler, Veniamin Veselovsky usw.
Institution: Ecole Polytechnique Fédérale de Lausanne
Link zum Papier: https://arxiv.org/pdf/2402.10588
Aufsatz 15: Humor ernst nehmen: Humor-Datensätze mit unlustigen großen Sprachmodellen erstellen
Autor: Zachary Horvitz, Jingru Chen usw.
Institution: Columbia University, Ecole Polytechnique Fédérale de Lausanne
Link zum Papier: https://arxiv.org/pdf/2403.00794
Artikel 16: Die Schätzung des Dialektniveaus sagt die Übereinstimmung zwischen Annotatoren in arabischen Datensätzen mit mehreren Dialekten voraus
Autor: Amr Keleg, Walid Magdy, Sharon Goldwater
Institution: Universität Edinburgh
Link zum Papier: https://arxiv.org/pdf/2405.11282
Papier 17: G-DlG: Auf dem Weg zu einer Gradienten-basierten Dlverse und einer hochwertigen Befehlsdatenauswahl für die maschinelle Übersetzung
Mitwirkende: Xingyuan Pan, Luyang Huang, Liyan Kang, Zhicheng Liu, Yu Lu, Shanbo Cheng
Organisation: ByteDance Research
Link zum Papier: https://arxiv.org/pdf/2405.12915
Artikel 18: Media Framing: Eine Typologie und Übersicht über computergestützte Ansätze in verschiedenen Disziplinen
Autor: Yulia Otmakhova, Shima Khanehzar, Lea Frermann
Link zum Papier: https://openreview.net/pdf?id=9AV_zM56pwj
Artikel 19: SPZ: Eine auf semantischen Störungen basierende Datenerweiterungsmethode mit Zonenmischung zur Erkennung der Alzheimer-Krankheit
Autor: FangFang Li, Cheng Huang, PuZhen Su, Jie Yin
Papier 20: Gier ist alles, was Sie brauchen: Eine Bewertung der Tokenizer-Inferenzmethoden
Institutionen: Ben-Gurion-Universität des Negev, MIT
Autor: Omri Uzan, Craig W. Schmidt, Chris Tanner, Yuval Pinter
Link zum Papier: https://arxiv.org/abs/2403.01289
Frage 21: Sprachkomplexität und Genauigkeit der Spracherkennung: Orthographische Komplexität schadet, phonologische Komplexität nicht
Institution: University of Notre Dame (USA)
Autor: Chihiro Taquchi, David Chiang
Link zum Papier: https://arxiv.org/abs/2406.09202
Artikel 22: Llama 2 durch kontrastive Aktivierungsaddition steuern
Institutionen: Anthropic, Harvard University, Universität Göttingen (Deutschland), Zentrum für menschenverträgliche KI
Darsteller: Nina Rimsky, Nick Gabrieli, Julian Schulz, Meg Tong, Evan J Hubinger, Alexander Matt Turner
Link zum Papier: https://arxiv.org/abs/2312.06681
Papier 23: EconAgent: Mittels großer Sprachmodelle zur Simulation makroökonomischer Aktivitäten
Institution: Tsinghua University-Shenzhen International Graduate School, Tsinghua University
Autor: Nian Li, Chen Gao, Mingyu Li, Yong Li, Qingmin Liao
Link zum Papier: https://arxiv.org/abs/2310.10436
Frage 24: M4LE: Ein Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark für große Sprachmodelle
Institutionen: Chinesische Universität Hongkong, Huawei Noah's Ark Laboratory, Hong Kong University of Science and Technology
Beispiele: Wai-Chung Kwan, Xingshan Zeng, Yufei Wang, Yusen Sun, Liangyou Li, Lifeng Shang, Qun Liu und Kam-Fai Wong
Link zum Papier: https://arxiv.org/abs/2310.19240
Artikel 25: CHECKWHY: Kausalfaktenüberprüfung mittels Argumentstruktur
Beispiele: Jiasheng Si, Yibo Zhao, Yingjie Zhu, Haiyang Zhu, Wenpeng Lu und Deyu Zhou
Artikel 26: Zur effizienten und statistischen Qualitätsschätzung für die Datenannotation
Mitwirkende: Jan-Christoph Klie, Juan Haladjian, Marc Kirchner, Rahul Nair
Institutionen: UKP Lab, TU Darmstadt, Apple
Link zum Papier: https://arxiv.org/pdf/2405.11919
Papier 27: Emulierte Disalignment: Safety Alignment für große Sprachmodelle kann nach hinten losgehen!
Mitwirkende: Zhanhui Zhou, Jie Liu, Zhichen Dong, Jiaheng Liu, Chao Yang, Wanli Ouyang, Yu Qiao
Organisation: Shanghai Artificial Intelligence Laboratory
Link zum Papier: https://arxiv.org/pdf/2402.12343
Papier 28: IndicLLMSuite: Eine Blaupause für die Erstellung von Vortrainings- und Feinabstimmungsdatensätzen für indische Sprachen
Autor: Mohammed Safi Ur Rahman Khan, Priyam Mehta, Ananth Sankar usw.
Institutionen: Nilekani Center bei AI4Bharat, Indian Institute of Technology (Madras), Microsoft usw.
Link zum Papier: https://arxiv.org/pdf/2403.06350
Aufsatz 29: MultiPICo: Mehrsprachiger perspektivischer lrony Corpus
Autor: Silvia Casola, Simona Frenda, Soda Marem Lo, Erhan Sezerer usw.
Institutionen: Universität Turin, aequa-tech, Amazon Development Center (Italien) usw.
Siehe auch: https://assets.amazon.science/08/83/9b686f424c89b08e8fa0a6e1d020/multipico-multilingual-perspectivist-irony-corpus.pdf
Papier 30: MMToM-QA: Multimodale Theorie der Beantwortung von Geistesfragen
Autor: Chuanyang Jin, Yutong Wu, Jing Cao, Jiannan Xiang usw.
Institutionen: New York University, Harvard University, MIT, University of California, San Diego, University of Virginia, Johns Hopkins University
Link zum Papier: https://arxiv.org/pdf/2401.08743
Artikel 31: MAP ist noch nicht tot: Aufdecken echter Sprachmodellmodi durch Wegkonditionierung der Degeneration
Autor: Davis Yoshida, Kartik Goyal, Kevin Gimpel
Institution: Toyota Institute of Technology Chicago, Georgia Institute of Technology
Link zum Papier: https://arxiv.org/pdf/2311.08817
Aufsatz 32: NounAtlas: Füllen der Lücke in der nominellen semantischen Rollenbezeichnung
Autor: Roberto Navigli, Marco Lo Pinto, Pasquale Silvestri usw.
Aufsatz 33: Die Erde ist flach, weil … die Einstellung von LLMs zu Fehlinformationen mithilfe von PersuasiveConversation untersucht wird
Autor: Rongwu Xu, Brian S. Lin, Shujian Yang, Tiangi Zhang usw.
Institutionen: Tsinghua University, Shanghai Jiao Tong University, Stanford University, Nanyang Technological University
Link zum Papier: https://arxiv.org/pdf/2312.09085
Papier 34: Let's Go Real Talk: Modell des gesprochenen Dialogs für persönliche Gespräche
Autor: Se Jin Park, Chae Won Kim, Hyeongseop Rha, Minsu Kim usw.
Institution: Korea Advanced Institute of Science and Technology (KAIST)
Link zum Papier: https://arxiv.org/pdf/2406.07867
Papier 35: Worteinbettungen sind Steuerelemente für Sprachmodelle
Mitwirkende: Chi Han, Jialiang Xu, Manling Li, Yi Fung, Chenkai Sun, Nan Jiang, Tarek F. Abdelzaher, Heng Ji
Institution: University of Illinois in Urbana-Champaign
Link zum Papier: https://arxiv.org/pdf/2305.12798

Auszeichnung für das beste Themenpapier

Abschlussarbeit: OLMo: Beschleunigung der Wissenschaft von Sprachmodellen

Autor: Dirk Groeneveld, Iz Beltagy usw.
Institutionen: Allen Institute for Artificial Intelligence, University of Washington usw.
Link zum Papier: https://arxiv.org/pdf/2402.00838

Zitat: Diese Arbeit ist ein wichtiger Schritt in Richtung Transparenz und Reproduzierbarkeit beim Training großer Sprachmodelle, ein Fortschritt in den Bemühungen der Community, Fortschritte zu machen (oder zumindest anderen Forschern, die keine Branchenriesen sind, die Möglichkeit zu geben, einen Beitrag zu leisten).

Resource Paper Award

Drei Arbeiten wurden mit dem Resource Paper Award ausgezeichnet.

Artikel 1: Latxa: Ein offenes Sprachmodell und eine Evaluierungssuite für Baskisch

Institution: Universität des Baskenlandes, Spanien

Mitwirkende: Julen Etxaniz, Oscar Sainz, Naiara Perez, Itziar Aldabe, German Rigau, Eneko Agirre, Aitor Ormazabal, Mikel Artetxe, Aitor Soroa
Link: https://arxiv.org/pdf/2403.20266

Begründung für die Auszeichnung: In diesem Beitrag werden die Einzelheiten der Korpuserhebung und Datensatzauswertung ausführlich beschrieben. Obwohl diese Methodik für die baskische Sprachforschung relevant ist, kann sie auf die Konstruktion großer Modelle für andere ressourcenarme Sprachen ausgeweitet werden.

Papier 2: Dolma: ein offener Korpus von drei Billionen Token für die Sprachmodell-Pretraining-Forschung

Institutionen: Allen Institute for Artificial Intelligence, University of California, Berkeley usw.
Autor: Luca Soldaini, Rodney Kinney usw.
Link: https://arxiv.org/abs/2402.00159

Grund für die Auszeichnung: Dieses Papier zeigt die Bedeutung des Datenmanagements bei der Vorbereitung von Datensätzen für das Training großer Sprachmodelle. Dies liefert sehr wertvolle Erkenntnisse für ein breites Spektrum von Menschen innerhalb der Community.

Papier 3: AppWorld: Eine kontrollierbare Welt von Apps und Menschen zum Benchmarking interaktiver Codierungsagenten

Institutionen: State University of New York in Stony Brook, Allen Institute for Artificial Intelligence usw.
Autor: Harsh Trivedi, Tushar Khot usw.
Link: https://arxiv.org/abs/2407.18901

Gründe für die Auszeichnung: Diese Forschung ist eine sehr wichtige und erstaunliche Arbeit beim Aufbau interaktiver Umgebungssimulation und -bewertung. Es wird alle dazu ermutigen, anspruchsvollere dynamische Benchmarks für die Community zu erstellen.

Social Impact Award

Drei Beiträge wurden mit dem Social Impact Award ausgezeichnet.

Teil 1: Wie Johnny LLMs zum Jailbreak überreden kann: Überzeugen neu denken, um die Sicherheit von KI durch Humanisierung von LLMs in Frage zu stellen

Autoren: Yi Zeng, Hongpeng Lin, Jingwen Zhang, Diyi Yang usw.
Institutionen: Virginia Tech, Renmin University of China, University of California, Davis, Stanford University
Link zum Papier: https://arxiv.org/pdf/2401.06373

Grund für die Auszeichnung: In diesem Artikel wird das Thema KI-Sicherheit – Jailbreaking – untersucht, wobei eine Methode untersucht wird, die im Bereich der sozialwissenschaftlichen Forschung entwickelt wurde. Die Forschung ist sehr interessant und hat das Potenzial, erhebliche Auswirkungen auf die Gemeinschaft zu haben.

Artikel 2: DIALECTBENCH: Ein NLP-Benchmark für Dialekte, Varietäten und eng verwandte Sprachen

Autor: Fahim Faisal, Orevaoghene Ahia, Aarohi Srivastava, Kabir Ahuja usw.
Institutionen: George Mason University, University of Washington, University of Notre Dame, RC Athena
Link zum Papier: https://arxiv.org/pdf/2403.11009

Grund für die Auszeichnung: Dialektvariation ist ein wenig erforschtes Phänomen in den Bereichen NLP und künstliche Intelligenz. Aus sprachlicher und gesellschaftlicher Sicht ist seine Forschung jedoch von äußerst hohem Wert und hat wichtige Implikationen für die Anwendung. Dieses Papier schlägt einen sehr neuartigen Maßstab zur Untersuchung dieses Problems in der LLM-Ära vor.

Aufsatz 3: Nach dem Gebet Bier trinken? Kulturelle Voreingenommenheit in großen Sprachmodellen messen

Autor: Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu
Institution: Georgia Institute of Technology
Link zum Papier: https://arxiv.org/pdf/2305.14456

Gründe für die Auszeichnung: Dieser Artikel verdeutlicht ein wichtiges Thema in der LLM-Ära: kulturelle Voreingenommenheit. Dieser Artikel untersucht die arabische Kultur und Sprachumgebung und die Ergebnisse zeigen, dass wir bei der Gestaltung von LLMs kulturelle Unterschiede berücksichtigen müssen. Daher kann dieselbe Studie in anderen Kulturen wiederholt werden, um zu verallgemeinern und zu beurteilen, ob auch andere Kulturen von diesem Problem betroffen sind.

Nachricht

ACL 2024 Awards: Eine der besten Arbeiten zur Entschlüsselung von Oracle bei HuaTech, GloVe Time Test Award

Einführung

Meine Kontaktdaten