Nachricht

ACL 2024 Awards: Eine der besten Arbeiten zur Entschlüsselung von Oracle bei HuaTech, GloVe Time Test Award

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Maschinenherzbericht

Redaktion von Machine Heart

Die Mitwirkenden haben von dieser ACL-Konferenz viel profitiert.

Das sechstägige ACL 2024 findet in Bangkok, Thailand, statt.



ACL ist die führende internationale Konferenz im Bereich Computerlinguistik und Verarbeitung natürlicher Sprache. Sie wird von der International Association for Computational Linguistics organisiert und findet jährlich statt. ACL steht seit jeher an erster Stelle, was den akademischen Einfluss im Bereich NLP angeht, und ist außerdem eine von der CCF-A empfohlene Konferenz.

Die diesjährige ACL-Konferenz ist die 62. und hat mehr als 400 innovative Arbeiten im Bereich NLP eingereicht. Gestern Nachmittag gab die Konferenz den besten Vortrag und weitere Auszeichnungen bekannt. Diesmal wurden 7 Best Paper Awards (zwei davon unveröffentlicht), 1 Best Theme Paper Award und 35 Outstanding Paper Awards vergeben.

Die Konferenz verlieh außerdem drei Resource Awards, drei Social Impact Awards und zwei Time Test Awards.

Darüber hinaus wurde der Lifetime Achievement Award dieser Konferenz an Ralph Grishman, Professor am Fachbereich Informatik der New York University, verliehen.

Im Folgenden finden Sie spezifische Informationen zur Auszeichnung.

bestes Papier



Papier 1: Mission: Unmögliche Sprachmodelle

  • Von: Julie Kallini, Isabel Papadimitriou, Richard Futrell, Kyle Mahowald, Christopher Potts
  • Institution: Stanford University, University of California, Irvine, University of Texas in Austin
  • Link zum Papier: https://arxiv.org/abs/2401.06416

Einführung in den Artikel: Chomsky und andere glauben, dass die Lernfähigkeit großer Sprachmodelle (LLM) für Sprachen gleich ist, die möglicherweise von Menschen gelernt werden oder nicht. Es gibt jedoch nur wenige veröffentlichte experimentelle Beweise, die diese Behauptung stützen.

Die Studie entwickelte eine Reihe synthetischer Sprachen unterschiedlicher Komplexität, die jeweils durch systematische Veränderung englischer Daten unter Verwendung unnatürlicher Wortreihenfolgen und grammatikalischer Regeln entwickelt wurden, mit dem Ziel, Sprachen zu synthetisieren, die für Menschen unmöglich zu erlernen wären.

Die Studie führte umfangreiche Bewertungsexperimente durch, um die Fähigkeit des kleinen GPT-2-Modells zum Erlernen dieser „unmöglichen Sprachen“ zu bewerten, und führte diese Bewertungen in verschiedenen Phasen des Trainings durch, um den Lernprozess für jede Sprache zu vergleichen. Das Kernergebnis der Studie ist, dass es im Vergleich zu Englisch schwierig ist, mit GPT-2 „unmögliche Sprachen“ zu lernen, was die Behauptungen von Chomsky und anderen in Frage stellt.

Noch wichtiger ist, dass die Studie hofft, dass ihr Ansatz eine fruchtbare Forschungslinie eröffnen wird, die es ermöglicht, verschiedene LLM-Architekturen in einer Vielzahl von „unmöglichen Sprachen“ zu testen, um zu verstehen, wie LLM als kognitives und typologisches Untersuchungsinstrument verwendet werden kann.



Aufsatz 2: Warum sind sensible Funktionen für Transformatoren schwierig?

  • Autor: Michael Hahn, Mark Rofin
  • Institution: Universität des Saarlandes
  • Link zum Papier: https://arxiv.org/abs/2402.09963

Zusammenfassung: Experimentelle Studien haben eine Reihe von Lernfähigkeitsverzerrungen und Einschränkungen von Transformatoren identifiziert, wie z. B. die anhaltende Schwierigkeit beim Erlernen der Berechnung einfacher formaler Sprachen wie PARITY und eine Tendenz zu Funktionen niedrigen Grades. Das theoretische Verständnis bleibt jedoch begrenzt, und bestehende Darstellungstheorien überschätzen oder unterschätzen realistische Lernfähigkeiten.

Diese Studie zeigt, dass bei der Transformatorarchitektur die Verlustlandschaft durch die Empfindlichkeit des Eingaberaums begrenzt ist: Transformatoren, deren Ausgänge auf viele Teile der Eingabekette empfindlich reagieren, befinden sich an isolierten Punkten im Parameterraum, was zu einer Vorspannung mit geringer Empfindlichkeit führt Verallgemeinerung.

Diese Studie zeigt theoretisch und experimentell, dass die Theorie umfangreiche experimentelle Beobachtungen über Lernfähigkeiten und -verzerrungen von Transformatoren vereint, wie z. B. ihre Generalisierungsverzerrung auf niedrige Empfindlichkeit und geringen Grad sowie die Schwierigkeit der Paritätslängen-Generalisierung. Dies legt nahe, dass das Verständnis der induktiven Vorspannungen eines Transformators nicht nur die Untersuchung seiner prinzipiellen Ausdruckskraft, sondern auch der Landschaft seiner Verlustfunktionen erfordert.



Papier 3: Entschlüsselung der Oracle-Knochensprache mit Diffusionsmodellen

  • Autoren: Haisu Guan, Huanxin Yang, Xinyu Wang, Shengwei Han usw.
  • Institutionen: Huazhong University of Science and Technology, University of Adelaide, Anyang Normal University, South China University of Technology
  • Link zum Papier: https://arxiv.org/pdf/2406.00684

Einführung in den Artikel: Oracle Bone Script (OBS) entstand vor etwa 3.000 Jahren in der Shang-Dynastie in China. Es ist der Grundstein der Sprachgeschichte und älter als viele etablierte Schriftsysteme. Obwohl Tausende von Inschriften entdeckt wurden, ist eine große Anzahl von Orakelknochen immer noch unentschlüsselt, was diese alte Sprache mit einem Schleier voller Geheimnisse umhüllt. Das Aufkommen moderner KI-Technologie hat der Oracle-Entschlüsselung neue Felder eröffnet und traditionelle NLP-Methoden, die stark auf großen Textkorpora basieren, vor Herausforderungen gestellt.

In diesem Artikel wird eine neue Methode vorgestellt, die Bilderzeugungstechnologie nutzt, um ein für die Oracle-Entschlüsselung optimiertes Diffusionsmodell zu entwickeln: Oracle Bone Script Decipher (OBSD). Mithilfe der bedingten Diffusionsstrategie generierte OBSD wichtige Hinweise für die Oracle-Entschlüsselung und eröffnete eine neue Richtung für die KI-gestützte Analyse antiker Sprachen. Um die Wirksamkeit zu überprüfen, führten die Forscher umfangreiche Experimente mit dem Oracle-Datensatz durch und die quantitativen Ergebnisse bewiesen die Wirksamkeit von OBSD.



Aufsatz 4: Kausale Schätzung von Erinnerungsprofilen

  • Mitwirkende: Pietro Lesci, Clara Meister, Thomas Hofmann, Andreas Vlachos, Tiago Pimentel
  • Institution: University of Cambridge, ETH Zürich
  • Link zum Papier: https://arxiv.org/pdf/2406.04327

Einführung in die Arbeit: Das Verständnis des Gedächtnisses in Sprachmodellen hat praktische und soziale Implikationen, beispielsweise die Untersuchung der Trainingsdynamik von Modellen oder die Verhinderung von Urheberrechtsverletzungen. Frühere Forschungen definieren Gedächtnis als den kausalen Zusammenhang zwischen „Training anhand einer Instanz“ und „der Fähigkeit des Modells, diese Instanz vorherzusagen“. Diese Definition beruht auf einem kontrafaktischen Prinzip: der Fähigkeit zu beobachten, was passiert wäre, wenn das Modell die Instanz nicht gesehen hätte. Bestehende Methoden haben Schwierigkeiten, rechnerisch effiziente und genaue Schätzungen solcher Kontrafaktuale zu liefern. Darüber hinaus schätzen diese Methoden typischerweise den Speicher der Modellarchitektur und nicht den Speicher bestimmter Modellinstanzen.

Dieses Papier füllt eine wichtige Lücke, indem es einen neuen, prinzipiellen und effizienten Ansatz zur Schätzung des Gedächtnisses auf der Grundlage eines ökonometrischen Differenz-in-Differenz-Designs vorschlägt. Mit dieser Methode beobachten Forscher das Verhalten des Modells nur bei einer kleinen Anzahl von Instanzen während des gesamten Trainingsprozesses, um das Gedächtnisprofil des Modells, also seinen Gedächtnistrend während des Trainingsprozesses, zu beschreiben. In Experimenten mit der Pythia-Modellsuite stellten sie fest, dass das Gedächtnis (i) in größeren Modellen stärker und beständiger ist, (ii) durch die Datenreihenfolge und die Lernrate bestimmt wird und (iii) über verschiedene Modellgrößen hinweg stabil ist Erinnerungen im größeren Modell können aus dem kleineren Modell vorhergesagt werden.



Papier 5: Aya-Modell: Ein fein abgestimmtes mehrsprachiges Open-Access-Sprachmodell mit Anweisungen

  • Autor: Ahmet Üstün, Viraat Aryabumi, Zheng Xin Yong, Wei-Yin Ko usw.
  • Institutionen: Cohere, Brown University usw.
  • Link zum Papier: https://arxiv.org/pdf/2402.07827

Einleitung zum Papier: Die jüngsten Durchbrüche bei großen Sprachmodellen (LLMs) konzentrierten sich auf eine kleine Anzahl datenreicher Sprachen. Wie können die Möglichkeiten für Durchbrüche über andere Sprachen hinaus erweitert werden? Die Forschung stellt Aya vor, ein groß angelegtes mehrsprachiges generatives Sprachmodell, das Anweisungen für 101 Sprachen folgt, von denen mehr als 50 % als ressourcenarm gelten. Aya übertrifft mT0 und BLOOMZ bei den meisten Aufgaben und deckt gleichzeitig doppelt so viele Sprachen ab.

Darüber hinaus führt die Studie eine umfangreiche Reihe neuer Beurteilungen ein, die den Stand der Technik der mehrsprachigen Beurteilung auf 99 Sprachen erweitern. Abschließend liefert die Studie eine detaillierte Untersuchung der optimalen, fein abgestimmten Mischungszusammensetzung, Datenbereinigung sowie Modelltoxizität, Bias und Sicherheit.



Artikel 6: Halbüberwachte neuronale Protosprachenrekonstruktion

  • Autor: Liang Lu, Peirong Xie, David R. Mortensen
  • Institution: CMU, University of Southern California
  • Link zum Papier: https://arxiv.org/pdf/2406.05930

Grund für die Auszeichnung: Diese bahnbrechende Forschung zielt darauf ab, die Aufgabe der prototypischen Sprachrekonstruktion in der historischen Linguistik halbautomatisch zu gestalten und eine neue halbüberwachte Architektur vorzuschlagen. Diese Methode übertrifft frühere überwachte Methoden, indem sie einen „Prototyp-Muttersprache“-Reflexionsprozess in die „Muttersprache-Prototyp“-Rekonstruktion einführt. Dieser Artikel ist ein gutes Beispiel dafür, wie moderne Rechenmodelle wie neuronale Encoder und Decoder zur Linguistik beitragen können.



Artikel 7: Erfüllbarkeit natürlicher Sprache: Untersuchung der Problemverteilung und Bewertung transformatorbasierter Sprachmodelle (unveröffentlicht)

  • Mitwirkende: Tharindu Madusanka, Ian Pratt-Hartmann, Riza Batista-Navarro

Grund für die Auszeichnung: Dieses Papier beschreibt klar einen synthetischen Bewertungsdatensatz für logische Schlussfolgerungen. Dies ist eine gute Ergänzung zu großen Inferenzdatensätzen, bei denen nicht klar ist, welche Fähigkeiten gemessen werden. Theoretisch gibt es tatsächlich Gründe zu der Annahme, dass einige Teilmengen schwieriger sind als andere, und diese Erwartungen werden in der Arbeit bestätigt. Innerhalb jeder Kategorie legen die Autoren besonderen Wert auf die Auswahl der wirklich herausfordernden Fälle.

Bewährte Auszeichnung

Der ACL Time Test Award zeichnet Ehrenarbeiten aus, die einen nachhaltigen Einfluss auf die Bereiche der Verarbeitung natürlicher Sprache und der Computerlinguistik hatten. Er ist in zwei Auszeichnungen unterteilt: vor 10 Jahren (2014) und vor 25 Jahren (1999). Jedes Jahr werden zwei Arbeiten vergeben.



Papier 1: GloVe: Globale Vektoren für die Wortdarstellung

  • Von: Jeffrey Pennington, Richard Socher, Christopher D. Manning
  • Institution: Stanford University
  • Link zum Papier: https://aclanthology.org/D14-1162.pdf

Einleitung: Methoden zum Erlernen von Vektorraumdarstellungen von Wörtern haben sich bei der Erfassung feinkörniger semantischer und syntaktischer Regeln mithilfe der Vektorarithmetik als erfolgreich erwiesen, syntaktische Regeln bleiben jedoch undurchsichtig. Diese Studie analysiert und klärt, welche Eigenschaften das Modell haben muss, damit syntaktische Regeln in Wortvektoren erscheinen.

Diese Studie schlägt ein neues globales logarithmisches lineares Regressionsmodell vor – GloVe, das zum Erlernen von Vektordarstellungen von Wörtern entwickelt wurde. Dieses Modell kombiniert die Vorteile der globalen Matrixfaktorisierung und der lokalen Kontextfenstermethoden.

GloVe erreichte die beste Leistung von 75 % bei der Wortanalogieaufgabe und übertraf verwandte Modelle bei der Wortähnlichkeitsaufgabe und der Erkennung benannter Entitäten.

Begründung für die Auszeichnung: Worteinbettungen waren von 2013 bis 2018 der Grundstein für Deep-Learning-Methoden zur Verarbeitung natürlicher Sprache (NLP) und üben weiterhin erheblichen Einfluss aus. Sie verbessern nicht nur die Leistung von NLP-Aufgaben, sondern haben auch erhebliche Auswirkungen auf die rechnerische Semantik, wie etwa Wortähnlichkeit und Analogie. Die beiden einflussreichsten Methoden zur Worteinbettung sind wahrscheinlich Skip-Gram/CBOW und GloVe. Im Vergleich zu Skip-Gramm wurde GloVe später vorgeschlagen. Sein relativer Vorteil liegt in seiner konzeptionellen Einfachheit, da die Vektorraumähnlichkeit direkt auf der Grundlage der Verteilungseigenschaften zwischen Wörtern optimiert wird und nicht indirekt als Satz von Parametern aus der Perspektive einer vereinfachten Sprachmodellierung.





Papier 2: Maße der Verteilungsähnlichkeit

  • Autor: Lillian Lee
  • Institution: Cornell University
  • Link zum Papier: https://aclanthology.org/P99-1004.pdf

Einleitung zum Papier: Der Autor untersucht Verteilungsähnlichkeitsmaße mit dem Ziel, die Wahrscheinlichkeitsschätzungen für unsichtbare gleichzeitig auftretende Ereignisse zu verbessern. Ihr Beitrag ist dreifach: ein empirischer Vergleich einer breiten Palette von Maßen; eine Klassifizierung von Ähnlichkeitsfunktionen auf der Grundlage der darin enthaltenen Informationen und die Einführung einer neuen Funktion, die bei der Bewertung der zugrunde liegenden Agentenverteilungen überlegen ist;



Auszeichnung für sein Lebenswerk

Der Lifetime Achievement Award von ACL wurde an Ralph Grishman verliehen. Ralph Grishman ist Professor am Fachbereich Informatik der New York University und konzentriert sich auf die Forschung im Bereich der Verarbeitung natürlicher Sprache (NLP). Er ist der Gründer des Proteus-Projekts, das bedeutende Beiträge zur Informationsextraktion (IE) geleistet und die Entwicklung des Fachgebiets vorangetrieben hat.



Er entwickelte außerdem das Java Extraction Toolkit (JET), ein weit verbreitetes Informationsextraktionstool, das mehrere Sprachanalysekomponenten wie Satzsegmentierung, Annotation benannter Entitäten, Annotation und Normalisierung zeitlicher Ausdrücke, Wortart-Tagging, Teilparsing und Co- bietet. Analyse. Bezieht sich auf Analyse. Diese Komponenten können je nach Anwendungsfall zu Pipelines zusammengefasst werden, die zur interaktiven Analyse einzelner Sätze oder zur Batch-Analyse ganzer Dokumente genutzt werden können. Darüber hinaus bietet JET einfache Tools für die Annotation und Anzeige von Dokumenten und umfasst einen vollständigen Prozess zum Extrahieren von Entitäten, Beziehungen und Ereignissen gemäß der ACE-Spezifikation (Automatic Content Extraction).

Die Arbeit von Professor Grishman deckt mehrere Kernthemen des NLP ab und hatte tiefgreifende Auswirkungen auf die moderne Sprachverarbeitungstechnologie.

35 herausragende Arbeiten

  • Artikel 1: Quantisierte Seitenabstimmung: Schnelle und speichereffiziente Abstimmung quantisierter großer Sprachmodelle
  • Mitwirkende: Zhengxin Zhang, Dan Zhao, Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Qing Li, Yong Jiang, Zhihao Jia
  • Institutionen: CMU, Tsinghua-Universität, Pengcheng-Labor usw.
  • Link zum Papier: https://arxiv.org/pdf/2401.07159
  • Artikel 2: L-Eval: Einführung einer standardisierten Bewertung für Sprachmodelle mit langem Kontext
  • Mitwirkende: Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li, Jun Zhang, Lingpeng Kong, Xipeng Qiu
  • Institutionen: Fudan University, University of Hong Kong, University of Illinois at Urbana-Champaign, Shanghai AI Lab
  • Link zum Papier: https://arxiv.org/abs/2307.11088
  • Artikel 3: Kausalgesteuertes aktives Lernen zur Entzerrung großer Sprachmodelle
  • Papierlink: https://openreview.net/forum?id=idp_1Q6F-lC
  • Artikel 4: CausalGym: Benchmarking kausaler Interpretierbarkeitsmethoden für sprachliche Aufgaben
  • Autor: Aryaman Arora, Dan Jurafsky, Christopher Potts
  • Institution: Stanford University
  • Link zum Papier: https://arxiv.org/abs/2402.12560
  • Artikel 5: Halluzinieren Sie nicht, enthalten Sie sich: Identifizieren von LLM-Wissenslücken durch Multi-LLM-Zusammenarbeit
  • Mitwirkende: Shangbin Feng, Weijia Shi, Yike Wang, Wenxuan Ding, Vidhisha Balachandran, Yulia Tsvetkov
  • Institutionen: University of Washington, University of California, Berkeley, Hong Kong University of Science and Technology, CMU
  • Link zum Papier: https://arxiv.org/abs/2402.00367
  • Frage 6: Sprachübersetzung mit Speech Foundation Models und großen Sprachmodellen: Was ist vorhanden und was fehlt?
  • Autor: Marco Gaido, Sara Papi, Matteo Negri, Luisa Bentivogli
  • Institution: Bruno Kessler Stiftung, Italien
  • Link zum Papier: https://arxiv.org/abs/2402.12025
  • Papier 7: Muss NLP extraktiv sein?
  • Autor: Steven Bird
  • Institution: Charles Darwin University
  • Papierlink: https://drive.google.com/file/d/1hvF7_WQrou6CWZydhymYFTYHnd3ZIljV/view
  • Artikel 8: IRCoder: Zwischendarstellungen machen Sprachmodelle zu robusten mehrsprachigen Codegeneratoren
  • Autor: Indraneil Paul, Goran Glavaš, Iryna Gurevych
  • Institution: Technische Universität Darmstadt, etc.
  • Link zum Papier: https://arxiv.org/abs/2403.03894
  • Papier 9: MultiLegalPile: Ein mehrsprachiges Rechtskorpus mit 689 GB
  • Autor: Matthias Stürmer, Veton Matoshi usw.
  • Institution: Universität Bern, Stanford University usw.
  • Link zum Papier: https://arxiv.org/pdf/2306.02069
  • Frage 10: PsySafe: Ein umfassender Rahmen für psychologisch basierten Angriff, Verteidigung und Bewertung der Sicherheit von Multi-Agenten-Systemen
  • Beispiele: Zaibin Zhang, Yongting Zhang, Lijun Li, Hongzhi Gao, Lijun Wang, Huchuan Lu, Feng Zhao, Yu Qiao und Jing Shao
  • Institutionen: Shanghai Artificial Intelligence Laboratory, Dalian University of Technology, University of Science and Technology of China
  • Link zum Papier: https://arxiv.org/pdf/2401.11880
  • Frage 11: Können große Sprachmodelle eine gute emotionale Unterstützung sein? Milderung der Präferenzverzerrung bei Gesprächen zur emotionalen Unterstützung
  • Autor: Dongjin Kang, Sunghwan Kim usw.
  • Institution: Yonsei University usw.
  • Link zum Papier: https://arxiv.org/pdf/2402.13211
  • Frage 12: Politischer Kompass oder rotierender Pfeil? Auf dem Weg zu aussagekräftigeren Bewertungen von Werten und Meinungen in großen Sprachmodellen
  • Autor: Paul Röttger, Valentin Hofmann usw.
  • Institutionen: Bocconi University, Allen Institute for Artificial Intelligence usw.
  • Link zum Papier: https://arxiv.org/pdf/2402.16786
  • Artikel 13: Gleiche Aufgabe, mehr Token: Der Einfluss der Eingabelänge auf die Argumentationsleistung großer Sprachmodelle
  • Autor: Mosh Levy, Alon Jacoby, Yoav Goldberg
  • Institution: Bar-Ilan-Universität, Allen Institute for Artificial Intelligence
  • Link zum Papier: https://arxiv.org/pdf/2402.14848
  • Artikel 14: Arbeiten Lamas auf Englisch? Über die latente Sprache mehrsprachiger Transformer
  • Autor: Chris Wendler, Veniamin Veselovsky usw.
  • Institution: Ecole Polytechnique Fédérale de Lausanne
  • Link zum Papier: https://arxiv.org/pdf/2402.10588
  • Aufsatz 15: Humor ernst nehmen: Humor-Datensätze mit unlustigen großen Sprachmodellen erstellen
  • Autor: Zachary Horvitz, Jingru Chen usw.
  • Institution: Columbia University, Ecole Polytechnique Fédérale de Lausanne
  • Link zum Papier: https://arxiv.org/pdf/2403.00794
  • Artikel 16: Die Schätzung des Dialektniveaus sagt die Übereinstimmung zwischen Annotatoren in arabischen Datensätzen mit mehreren Dialekten voraus
  • Autor: Amr Keleg, Walid Magdy, Sharon Goldwater
  • Institution: Universität Edinburgh
  • Link zum Papier: https://arxiv.org/pdf/2405.11282
  • Papier 17: G-DlG: Auf dem Weg zu einer Gradienten-basierten Dlverse und einer hochwertigen Befehlsdatenauswahl für die maschinelle Übersetzung
  • Mitwirkende: Xingyuan Pan, Luyang Huang, Liyan Kang, Zhicheng Liu, Yu Lu, Shanbo Cheng
  • Organisation: ByteDance Research
  • Link zum Papier: https://arxiv.org/pdf/2405.12915
  • Artikel 18: Media Framing: Eine Typologie und Übersicht über computergestützte Ansätze in verschiedenen Disziplinen
  • Autor: Yulia Otmakhova, Shima Khanehzar, Lea Frermann
  • Link zum Papier: https://openreview.net/pdf?id=9AV_zM56pwj
  • Artikel 19: SPZ: Eine auf semantischen Störungen basierende Datenerweiterungsmethode mit Zonenmischung zur Erkennung der Alzheimer-Krankheit
  • Autor: FangFang Li, Cheng Huang, PuZhen Su, Jie Yin
  • Papier 20: Gier ist alles, was Sie brauchen: Eine Bewertung der Tokenizer-Inferenzmethoden
  • Institutionen: Ben-Gurion-Universität des Negev, MIT
  • Autor: Omri Uzan, Craig W. Schmidt, Chris Tanner, Yuval Pinter
  • Link zum Papier: https://arxiv.org/abs/2403.01289
  • Frage 21: Sprachkomplexität und Genauigkeit der Spracherkennung: Orthographische Komplexität schadet, phonologische Komplexität nicht
  • Institution: University of Notre Dame (USA)
  • Autor: Chihiro Taquchi, David Chiang
  • Link zum Papier: https://arxiv.org/abs/2406.09202
  • Artikel 22: Llama 2 durch kontrastive Aktivierungsaddition steuern
  • Institutionen: Anthropic, Harvard University, Universität Göttingen (Deutschland), Zentrum für menschenverträgliche KI
  • Darsteller: Nina Rimsky, Nick Gabrieli, Julian Schulz, Meg Tong, Evan J Hubinger, Alexander Matt Turner
  • Link zum Papier: https://arxiv.org/abs/2312.06681
  • Papier 23: EconAgent: Mittels großer Sprachmodelle zur Simulation makroökonomischer Aktivitäten
  • Institution: Tsinghua University-Shenzhen International Graduate School, Tsinghua University
  • Autor: Nian Li, Chen Gao, Mingyu Li, Yong Li, Qingmin Liao
  • Link zum Papier: https://arxiv.org/abs/2310.10436
  • Frage 24: M4LE: Ein Multi-Ability Multi-Range Multi-Task Multi-Domain Long-Context Evaluation Benchmark für große Sprachmodelle
  • Institutionen: Chinesische Universität Hongkong, Huawei Noah's Ark Laboratory, Hong Kong University of Science and Technology
  • Beispiele: Wai-Chung Kwan, Xingshan Zeng, Yufei Wang, Yusen Sun, Liangyou Li, Lifeng Shang, Qun Liu und Kam-Fai Wong
  • Link zum Papier: https://arxiv.org/abs/2310.19240
  • Artikel 25: CHECKWHY: Kausalfaktenüberprüfung mittels Argumentstruktur
  • Beispiele: Jiasheng Si, Yibo Zhao, Yingjie Zhu, Haiyang Zhu, Wenpeng Lu und Deyu Zhou
  • Artikel 26: Zur effizienten und statistischen Qualitätsschätzung für die Datenannotation
  • Mitwirkende: Jan-Christoph Klie, Juan Haladjian, Marc Kirchner, Rahul Nair
  • Institutionen: UKP Lab, TU Darmstadt, Apple
  • Link zum Papier: https://arxiv.org/pdf/2405.11919
  • Papier 27: Emulierte Disalignment: Safety Alignment für große Sprachmodelle kann nach hinten losgehen!
  • Mitwirkende: Zhanhui Zhou, Jie Liu, Zhichen Dong, Jiaheng Liu, Chao Yang, Wanli Ouyang, Yu Qiao
  • Organisation: Shanghai Artificial Intelligence Laboratory
  • Link zum Papier: https://arxiv.org/pdf/2402.12343
  • Papier 28: IndicLLMSuite: Eine Blaupause für die Erstellung von Vortrainings- und Feinabstimmungsdatensätzen für indische Sprachen
  • Autor: Mohammed Safi Ur Rahman Khan, Priyam Mehta, Ananth Sankar usw.
  • Institutionen: Nilekani Center bei AI4Bharat, Indian Institute of Technology (Madras), Microsoft usw.
  • Link zum Papier: https://arxiv.org/pdf/2403.06350
  • Aufsatz 29: MultiPICo: Mehrsprachiger perspektivischer lrony Corpus
  • Autor: Silvia Casola, Simona Frenda, Soda Marem Lo, Erhan Sezerer usw.
  • Institutionen: Universität Turin, aequa-tech, Amazon Development Center (Italien) usw.
  • Siehe auch: https://assets.amazon.science/08/83/9b686f424c89b08e8fa0a6e1d020/multipico-multilingual-perspectivist-irony-corpus.pdf
  • Papier 30: MMToM-QA: Multimodale Theorie der Beantwortung von Geistesfragen
  • Autor: Chuanyang Jin, Yutong Wu, Jing Cao, Jiannan Xiang usw.
  • Institutionen: New York University, Harvard University, MIT, University of California, San Diego, University of Virginia, Johns Hopkins University
  • Link zum Papier: https://arxiv.org/pdf/2401.08743
  • Artikel 31: MAP ist noch nicht tot: Aufdecken echter Sprachmodellmodi durch Wegkonditionierung der Degeneration
  • Autor: Davis Yoshida, Kartik Goyal, Kevin Gimpel
  • Institution: Toyota Institute of Technology Chicago, Georgia Institute of Technology
  • Link zum Papier: https://arxiv.org/pdf/2311.08817
  • Aufsatz 32: NounAtlas: Füllen der Lücke in der nominellen semantischen Rollenbezeichnung
  • Autor: Roberto Navigli, Marco Lo Pinto, Pasquale Silvestri usw.
  • Aufsatz 33: Die Erde ist flach, weil … die Einstellung von LLMs zu Fehlinformationen mithilfe von PersuasiveConversation untersucht wird
  • Autor: Rongwu Xu, Brian S. Lin, Shujian Yang, Tiangi Zhang usw.
  • Institutionen: Tsinghua University, Shanghai Jiao Tong University, Stanford University, Nanyang Technological University
  • Link zum Papier: https://arxiv.org/pdf/2312.09085
  • Papier 34: Let's Go Real Talk: Modell des gesprochenen Dialogs für persönliche Gespräche
  • Autor: Se Jin Park, Chae Won Kim, Hyeongseop Rha, Minsu Kim usw.
  • Institution: Korea Advanced Institute of Science and Technology (KAIST)
  • Link zum Papier: https://arxiv.org/pdf/2406.07867
  • Papier 35: Worteinbettungen sind Steuerelemente für Sprachmodelle
  • Mitwirkende: Chi Han, Jialiang Xu, Manling Li, Yi Fung, Chenkai Sun, Nan Jiang, Tarek F. Abdelzaher, Heng Ji
  • Institution: University of Illinois in Urbana-Champaign
  • Link zum Papier: https://arxiv.org/pdf/2305.12798

Auszeichnung für das beste Themenpapier



Abschlussarbeit: OLMo: Beschleunigung der Wissenschaft von Sprachmodellen

  • Autor: Dirk Groeneveld, Iz Beltagy usw.
  • Institutionen: Allen Institute for Artificial Intelligence, University of Washington usw.
  • Link zum Papier: https://arxiv.org/pdf/2402.00838

Zitat: Diese Arbeit ist ein wichtiger Schritt in Richtung Transparenz und Reproduzierbarkeit beim Training großer Sprachmodelle, ein Fortschritt in den Bemühungen der Community, Fortschritte zu machen (oder zumindest anderen Forschern, die keine Branchenriesen sind, die Möglichkeit zu geben, einen Beitrag zu leisten).

Resource Paper Award

Drei Arbeiten wurden mit dem Resource Paper Award ausgezeichnet.

Artikel 1: Latxa: Ein offenes Sprachmodell und eine Evaluierungssuite für Baskisch

Institution: Universität des Baskenlandes, Spanien

  • Mitwirkende: Julen Etxaniz, Oscar Sainz, Naiara Perez, Itziar Aldabe, German Rigau, Eneko Agirre, Aitor Ormazabal, Mikel Artetxe, Aitor Soroa
  • Link: https://arxiv.org/pdf/2403.20266

Begründung für die Auszeichnung: In diesem Beitrag werden die Einzelheiten der Korpuserhebung und Datensatzauswertung ausführlich beschrieben. Obwohl diese Methodik für die baskische Sprachforschung relevant ist, kann sie auf die Konstruktion großer Modelle für andere ressourcenarme Sprachen ausgeweitet werden.

Papier 2: Dolma: ein offener Korpus von drei Billionen Token für die Sprachmodell-Pretraining-Forschung

  • Institutionen: Allen Institute for Artificial Intelligence, University of California, Berkeley usw.
  • Autor: Luca Soldaini, Rodney Kinney usw.
  • Link: https://arxiv.org/abs/2402.00159

Grund für die Auszeichnung: Dieses Papier zeigt die Bedeutung des Datenmanagements bei der Vorbereitung von Datensätzen für das Training großer Sprachmodelle. Dies liefert sehr wertvolle Erkenntnisse für ein breites Spektrum von Menschen innerhalb der Community.

Papier 3: AppWorld: Eine kontrollierbare Welt von Apps und Menschen zum Benchmarking interaktiver Codierungsagenten

  • Institutionen: State University of New York in Stony Brook, Allen Institute for Artificial Intelligence usw.
  • Autor: Harsh Trivedi, Tushar Khot usw.
  • Link: https://arxiv.org/abs/2407.18901

Gründe für die Auszeichnung: Diese Forschung ist eine sehr wichtige und erstaunliche Arbeit beim Aufbau interaktiver Umgebungssimulation und -bewertung. Es wird alle dazu ermutigen, anspruchsvollere dynamische Benchmarks für die Community zu erstellen.

Social Impact Award

Drei Beiträge wurden mit dem Social Impact Award ausgezeichnet.

Teil 1: Wie Johnny LLMs zum Jailbreak überreden kann: Überzeugen neu denken, um die Sicherheit von KI durch Humanisierung von LLMs in Frage zu stellen

  • Autoren: Yi Zeng, Hongpeng Lin, Jingwen Zhang, Diyi Yang usw.
  • Institutionen: Virginia Tech, Renmin University of China, University of California, Davis, Stanford University
  • Link zum Papier: https://arxiv.org/pdf/2401.06373

Grund für die Auszeichnung: In diesem Artikel wird das Thema KI-Sicherheit – Jailbreaking – untersucht, wobei eine Methode untersucht wird, die im Bereich der sozialwissenschaftlichen Forschung entwickelt wurde. Die Forschung ist sehr interessant und hat das Potenzial, erhebliche Auswirkungen auf die Gemeinschaft zu haben.

Artikel 2: DIALECTBENCH: Ein NLP-Benchmark für Dialekte, Varietäten und eng verwandte Sprachen

  • Autor: Fahim Faisal, Orevaoghene Ahia, Aarohi Srivastava, Kabir Ahuja usw.
  • Institutionen: George Mason University, University of Washington, University of Notre Dame, RC Athena
  • Link zum Papier: https://arxiv.org/pdf/2403.11009

Grund für die Auszeichnung: Dialektvariation ist ein wenig erforschtes Phänomen in den Bereichen NLP und künstliche Intelligenz. Aus sprachlicher und gesellschaftlicher Sicht ist seine Forschung jedoch von äußerst hohem Wert und hat wichtige Implikationen für die Anwendung. Dieses Papier schlägt einen sehr neuartigen Maßstab zur Untersuchung dieses Problems in der LLM-Ära vor.

Aufsatz 3: Nach dem Gebet Bier trinken? Kulturelle Voreingenommenheit in großen Sprachmodellen messen

  • Autor: Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu
  • Institution: Georgia Institute of Technology
  • Link zum Papier: https://arxiv.org/pdf/2305.14456

Gründe für die Auszeichnung: Dieser Artikel verdeutlicht ein wichtiges Thema in der LLM-Ära: kulturelle Voreingenommenheit. Dieser Artikel untersucht die arabische Kultur und Sprachumgebung und die Ergebnisse zeigen, dass wir bei der Gestaltung von LLMs kulturelle Unterschiede berücksichtigen müssen. Daher kann dieselbe Studie in anderen Kulturen wiederholt werden, um zu verallgemeinern und zu beurteilen, ob auch andere Kulturen von diesem Problem betroffen sind.