notizia

Premi ACL 2024: uno dei migliori articoli sulla decifrazione di Oracle presso HuaTech, GloVe Time Test Award

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rapporto sul cuore della macchina

Dipartimento editoriale di Machine Heart

I contributori hanno guadagnato molto da questa conferenza ACL.

L'ACL 2024 della durata di sei giorni si terrà a Bangkok, in Tailandia.



ACL è la principale conferenza internazionale nel campo della linguistica computazionale e dell'elaborazione del linguaggio naturale. È organizzata dall'Associazione internazionale per la linguistica computazionale e si tiene ogni anno. ACL è sempre stata al primo posto in termini di influenza accademica nel campo della PNL ed è anche una conferenza consigliata da CCF-A.

La conferenza ACL di quest'anno è la 62esima e ha ricevuto più di 400 lavori all'avanguardia nel campo della PNL. Ieri pomeriggio la conferenza ha annunciato il miglior articolo e altri premi. Questa volta sono stati assegnati 7 Best Paper Awards (due inediti), 1 Best Theme Paper Award e 35 Outstanding Paper Awards.

La conferenza ha inoltre assegnato 3 Resource Awards, 3 Social Impact Awards e 2 Time Test Awards.

Inoltre, il premio alla carriera in questa conferenza è stato assegnato a Ralph Grishman, professore presso il Dipartimento di Informatica della New York University.

Di seguito sono riportate informazioni specifiche sul premio.

carta migliore



Documento 1: Missione: modelli linguistici impossibili

  • Autori: Julie Kallini, Isabel Papadimitriou, Richard Futrell, Kyle Mahowald, Christopher Potts
  • Istituzione: Università di Stanford, Università della California, Irvine, Università del Texas ad Austin
  • Link al documento: https://arxiv.org/abs/2401.06416

Introduzione all'articolo: Chomsky e altri ritengono che la capacità di apprendimento dei modelli linguistici di grandi dimensioni (LLM) sia la stessa per le lingue che possono o meno essere apprese dagli esseri umani. Tuttavia, ci sono poche prove sperimentali pubblicate a sostegno di questa affermazione.

Lo studio ha sviluppato una serie di linguaggi sintetici di varia complessità, ciascuno progettato alterando sistematicamente i dati inglesi utilizzando un ordine delle parole e regole grammaticali innaturali, con l’obiettivo di sintetizzare lingue che sarebbero impossibili da imparare per gli esseri umani.

Lo studio ha condotto estesi esperimenti di valutazione per valutare la capacità del piccolo modello GPT-2 di apprendere queste "lingue impossibili" e ha condotto queste valutazioni in diverse fasi durante la formazione per confrontare il processo di apprendimento per ciascuna lingua. La scoperta principale dello studio è che GPT-2 è difficile da imparare, "lingue impossibili" rispetto all'inglese, sfidando le affermazioni di Chomsky e altri.

Ancora più importante, lo studio spera che il suo approccio apra una fruttuosa linea di indagine, consentendo di testare diverse architetture LLM su una varietà di "linguaggi impossibili" per comprendere come LLM possa essere utilizzato come strumento di indagine cognitiva e tipologica.



Documento 2: Perché le funzioni sensibili sono difficili per i trasformatori?

  • Autore: Michael Hahn, Mark Rofin
  • Istituzione: Università del Saarland
  • Link al documento: https://arxiv.org/abs/2402.09963

Riassunto: Studi sperimentali hanno identificato una serie di bias di apprendibilità e limitazioni dei trasformatori, come la persistente difficoltà nell’imparare a calcolare linguaggi formali semplici come PARITY, e una propensione verso funzioni di basso grado. Tuttavia, la comprensione teorica rimane limitata e le teorie esistenti sulla rappresentazione sovrastimano o sottostimano le capacità di apprendimento realistiche.

Questo studio dimostra che nell'architettura del trasformatore, il panorama delle perdite è limitato dalla sensibilità dello spazio di ingresso: i trasformatori le cui uscite sono sensibili a molte parti della stringa di ingresso sono posizionati in punti isolati nello spazio dei parametri, con conseguente distorsione a bassa sensibilità in generalizzazione.

Questo studio mostra teoricamente e sperimentalmente che la teoria unifica ampie osservazioni sperimentali sulle capacità e sui bias di apprendimento dei trasformatori, come il loro bias di generalizzazione a bassa sensibilità e grado e la difficoltà di generalizzazione della lunghezza di parità. Ciò suggerisce che per comprendere i pregiudizi induttivi di un trasformatore è necessario studiare non solo la sua espressività di principio, ma anche il panorama della sua funzione di perdita.



Articolo 3: Decifrare il linguaggio osseo di Oracle con modelli di diffusione

  • Autori: Haisu Guan, Huanxin Yang, Xinyu Wang, Shengwei Han, ecc.
  • Istituzioni: Huazhong University of Science and Technology, Università di Adelaide, Anyang Normal University, South China University of Technology
  • Link al documento: https://arxiv.org/pdf/2406.00684

Introduzione all'articolo: Oracle Bone Script (OBS) ha avuto origine durante la dinastia Shang in Cina circa 3.000 anni fa. È la pietra angolare della storia del linguaggio e precede molti sistemi di scrittura consolidati. Sebbene siano state scoperte migliaia di iscrizioni, un gran numero di ossa oracolari rimangono indecifrate, avvolgendo questa antica lingua con un velo di mistero. L’emergere della moderna tecnologia AI ha aperto nuovi campi per la decifrazione Oracle, ponendo sfide ai tradizionali metodi di PNL che fanno molto affidamento su grandi corpora di testo.

Questo articolo introduce un nuovo metodo che utilizza la tecnologia di generazione di immagini per sviluppare un modello di diffusione ottimizzato per la decifrazione Oracle, Oracle Bone Script Decipher (OBSD). Utilizzando la strategia di diffusione condizionale, OBSD ha generato importanti indizi per la decifrazione di Oracle e ha aperto una nuova direzione per l’analisi assistita dall’intelligenza artificiale delle lingue antiche. Per verificarne l'efficacia, i ricercatori hanno condotto esperimenti approfonditi sul set di dati Oracle e i risultati quantitativi hanno dimostrato l'efficacia dell'OBSD.



Documento 4: Stima causale dei profili di memorizzazione

  • Interpreti: Pietro Lesci, Clara Meister, Thomas Hofmann, Andreas Vlachos, Tiago Pimentel
  • Istituzione: Università di Cambridge, ETH Zurigo
  • Link al documento: https://arxiv.org/pdf/2406.04327

Introduzione all'articolo: Comprendere la memoria nei modelli linguistici ha implicazioni pratiche e sociali, come lo studio delle dinamiche di formazione dei modelli o la prevenzione della violazione del copyright. Ricerche precedenti definiscono la memoria come la relazione causale tra "l'addestramento utilizzando un'istanza" e "la capacità del modello di prevedere quell'istanza". Questa definizione si basa su un controfattuale: la capacità di osservare cosa sarebbe successo se il modello non avesse visto l'istanza. I metodi esistenti faticano a fornire stime computazionalmente efficienti e accurate di tali controfattuali. Inoltre, questi metodi in genere stimano la memoria dell'architettura del modello piuttosto che la memoria di istanze specifiche del modello.

Questo articolo colma un’importante lacuna proponendo un approccio nuovo, efficace e basato su principi per la stima della memoria basato su un disegno econometrico della differenza nella differenza. Con questo metodo, i ricercatori osservano il comportamento del modello solo su un numero limitato di istanze durante l'intero processo di addestramento per descrivere il profilo di memoria del modello, cioè l'andamento della sua memoria durante il processo di addestramento. Negli esperimenti che utilizzano la suite di modelli Pythia, hanno scoperto che la memoria (i) è più forte e più persistente nei modelli più grandi, (ii) è determinata dall'ordine dei dati e dalla velocità di apprendimento e (iii) è stabile tra le diverse dimensioni dei modelli i ricordi nel modello più grande possono essere previsti dal modello più piccolo.



Paper 5: Modello Aya: un modello linguistico multilingue ad accesso aperto ottimizzato per le istruzioni

  • Autore: Ahmet Üstün, Viraat Aryabumi, Zheng Xin Yong, Wei-Yin Ko, ecc.
  • Istituzioni: Cohere, Brown University, ecc.
  • Link al documento: https://arxiv.org/pdf/2402.07827

Introduzione all'articolo: le recenti scoperte nei modelli linguistici di grandi dimensioni (LLM) si sono concentrate su un numero limitato di lingue ricche di dati. Come si possono ampliare le possibilità di innovazione oltre gli altri linguaggi? La ricerca introduce Aya, un modello linguistico generativo multilingue su larga scala che segue le istruzioni per 101 lingue, oltre il 50% delle quali sono considerate a scarse risorse. Aya supera mT0 e BLOOMZ nella maggior parte dei compiti e copre il doppio delle lingue.

Inoltre, la ricerca introduce una vasta gamma di nuove valutazioni, estendendo lo stato dell’arte della valutazione multilingue a 99 lingue. Infine, lo studio fornisce un'indagine dettagliata sulla composizione ottimale della miscela, sulla potatura dei dati, sulla tossicità, sui bias e sulla sicurezza del modello.



Articolo 6: Ricostruzione del proto-linguaggio neurale semisupervisionato

  • Autore: Liang Lu, Peirong Xie, David R. Mortensen
  • Istituzione: CMU, University of Southern California
  • Link al documento: https://arxiv.org/pdf/2406.05930

Motivo del premio: questa ricerca innovativa mira a semi-automatizzare il compito di ricostruzione del linguaggio prototipale nella linguistica storica, proponendo una nuova architettura semi-supervisionata. Questo metodo supera i precedenti metodi supervisionati introducendo un processo di riflessione "linguaggio nativo-prototipo" nella ricostruzione "linguaggio nativo-prototipo". Questo articolo è un buon esempio di come i moderni modelli computazionali, come i codificatori e decodificatori neurali, possono contribuire alla linguistica.



Documento 7: Soddisfabilità del linguaggio naturale: esplorare la distribuzione dei problemi e valutare i modelli linguistici basati sui trasformatori (non pubblicato)

  • Titolo: Tharindu Madusanka, Ian Pratt-Hartmann, Riza Batista-Navarro

Motivo del premio: questo articolo descrive chiaramente un set di dati di valutazione sintetica per l'inferenza logica. Questo è un buon complemento a set di dati di inferenza di grandi dimensioni in cui non è chiaro quali abilità vengono misurate. In teoria, ci sono effettivamente ragioni per aspettarsi che alcuni sottoinsiemi siano più difficili di altri, e queste aspettative sono confermate nel documento. All'interno di ciascuna categoria, gli autori prestano particolare attenzione al campionamento dei casi veramente impegnativi.

Premio testato nel tempo

L'ACL Time Test Award premia i documenti onorari che hanno avuto un impatto a lungo termine nei campi dell'elaborazione del linguaggio naturale e della linguistica computazionale. È diviso in due premi: 10 anni fa (2014) e 25 anni fa (1999 A massimo). vengono assegnati due documenti all'anno.



Paper 1: GloVe: vettori globali per la rappresentazione delle parole

  • Autori: Jeffrey Pennington, Richard Socher, Christopher D. Manning
  • Istituzione: Università di Stanford
  • Link al documento: https://aclanthology.org/D14-1162.pdf

Introduzione: i metodi per l'apprendimento delle rappresentazioni delle parole nello spazio vettoriale hanno avuto successo nel catturare regole semantiche e sintattiche a grana fine utilizzando l'aritmetica vettoriale, ma le regole sintattiche rimangono opache. Questo studio analizza e chiarisce quali proprietà deve avere il modello affinché le regole sintattiche appaiano nei vettori di parole.

Questo studio propone un nuovo modello di regressione lineare logaritmica globale - GloVe, progettato per apprendere rappresentazioni vettoriali di parole. Questo modello combina i vantaggi della fattorizzazione della matrice globale e dei metodi della finestra di contesto locale.

GloVe ha ottenuto la migliore prestazione del 75% nel compito di analogia di parole e ha sovraperformato i modelli correlati nel compito di somiglianza delle parole e nel riconoscimento delle entità denominate.

Motivo del premio: i word embedding sono stati la pietra angolare dei metodi di deep learning per l’elaborazione del linguaggio naturale (NLP) dal 2013 al 2018 e continuano ad esercitare un’influenza significativa. Non solo migliorano le prestazioni dei compiti di PNL, ma hanno anche un impatto significativo sulla semantica computazionale, come la somiglianza e l’analogia delle parole. I due metodi di incorporamento delle parole più influenti sono probabilmente skip-gram/CBOW e GloVe. Rispetto a skip-gram, GloVe è stato proposto successivamente. Il suo vantaggio relativo risiede nella sua semplicità concettuale, ottimizzando la somiglianza dello spazio vettoriale direttamente in base alle caratteristiche di distribuzione tra le parole, piuttosto che indirettamente come un insieme di parametri da una prospettiva di modellazione del linguaggio semplificata.





Documento 2: Misure di somiglianza distribuzionale

  • Autore: Lillian Lee
  • Istituzione: Cornell University
  • Collegamento al documento: https://aclanthology.org/P99-1004.pdf

Introduzione all'articolo: l'autore studia le misure di similarità della distribuzione con l'obiettivo di migliorare le stime di probabilità di eventi di co-occorrenza invisibili. Il loro contributo è triplice: un confronto empirico di un'ampia gamma di misure; una classificazione delle funzioni di somiglianza basata sulle informazioni che contengono e l'introduzione di una nuova funzione che è superiore nella valutazione delle distribuzioni degli agenti sottostanti;



Premio alla carriera

Il premio alla carriera di ACL è stato consegnato a Ralph Grishman. Ralph Grishman è professore presso il Dipartimento di Informatica della New York University, specializzato nella ricerca nel campo dell'elaborazione del linguaggio naturale (PNL). È il fondatore del progetto Proteus, che ha dato un contributo significativo all'estrazione delle informazioni (IE) e ha promosso lo sviluppo del campo.



Ha anche sviluppato Java Extraction Toolkit (JET), uno strumento di estrazione di informazioni ampiamente utilizzato che fornisce più componenti di analisi del linguaggio come segmentazione delle frasi, annotazione di entità denominate, annotazione e normalizzazione di espressioni temporali, tagging di parti del discorso, parsing di parti e co- analisi. Si riferisce all'analisi. Questi componenti possono essere combinati in pipeline secondo diverse applicazioni, che possono essere utilizzate per l'analisi interattiva di singole frasi o per l'analisi batch di interi documenti. Inoltre, JET fornisce strumenti semplici per l'annotazione e la visualizzazione dei documenti e include un processo completo per estrarre entità, relazioni ed eventi in conformità con la specifica ACE (Automatic Content Extraction).

Il lavoro del professor Grishman copre molteplici questioni fondamentali della PNL e ha avuto un profondo impatto sulla moderna tecnologia di elaborazione del linguaggio.

35 documenti eccezionali

  • Articolo 1: Ottimizzazione laterale quantizzata: ottimizzazione rapida ed efficiente in termini di memoria di modelli linguistici di grandi dimensioni quantizzati
  • 作者:Zhengxin Zhang, Dan Zhao, Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Qing Li, Yong Jiang, Zhihao Jia
  • Istituzioni: CMU, Università Tsinghua, Laboratorio Pengcheng, ecc.
  • Link al documento: https://arxiv.org/pdf/2401.07159
  • Articolo 2: L-Eval: istituzione di una valutazione standardizzata per modelli linguistici a contesto lungo
  • 作者: Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li, Jun Zhang, Lingpeng Kong, Xipeng Qiu
  • Istituzioni: Università Fudan, Università di Hong Kong, Università dell'Illinois a Urbana-Champaign, Shanghai AI Lab
  • Link al documento: https://arxiv.org/abs/2307.11088
  • Articolo 3: Apprendimento attivo guidato dalla causalità per eliminare i pregiudizi da modelli linguistici di grandi dimensioni
  • Link al documento: https://openreview.net/forum?id=idp_1Q6F-lC
  • Documento 4: CausalGym: benchmarking dei metodi di interpretabilità causale su compiti linguistici
  • Autore: Aryaman Arora, Dan Jurafsky, Christopher Potts
  • Istituzione: Università di Stanford
  • Link al documento: https://arxiv.org/abs/2402.12560
  • Documento 5: Non avere allucinazioni, astenersi: identificare le lacune nella conoscenza LLM tramite la collaborazione multi-LLM
  • Interpreti: Shangbin Feng, Weijia Shi, Yike Wang, Wenxuan Ding, Vidhisha Balachandran, Yulia Tsvetkov
  • Istituzioni: Università di Washington, Università della California, Berkeley, Università della Scienza e della Tecnologia di Hong Kong, CMU
  • Link al documento: https://arxiv.org/abs/2402.00367
  • Lezione 6: Traduzione vocale con modelli di fondamento del linguaggio e modelli linguistici di grandi dimensioni: cosa c'è e cosa manca?
  • Autore: Marco Gaido, Sara Papi, Matteo Negri, Luisa Bentivogli
  • Istituzione: Fondazione Bruno Kessler, Italia
  • Link al documento: https://arxiv.org/abs/2402.12025
  • Documento 7: La PNL deve essere estrattiva?
  • Autore: Steven Bird
  • Istituzione: Università Charles Darwin
  • Link cartaceo: https://drive.google.com/file/d/1hvF7_WQrou6CWZydhymYFTYHnd3ZIljV/view
  • Articolo 8: IRCoder: le rappresentazioni intermedie rendono i modelli linguistici robusti generatori di codice multilingue
  • Autore: Indraneil Paul, Goran Glavaš, Iryna Gurevych
  • Istituzione: Università Tecnica di Darmstadt, ecc.
  • Link al documento: https://arxiv.org/abs/2403.03894
  • Documento 9: MultiLegalPile: un corpus giuridico multilingue da 689 GB
  • Autore: Matthias Stürmer, Veton Matoshi, ecc.
  • Istituzione: Università di Berna, Università di Stanford, ecc.
  • Link al documento: https://arxiv.org/pdf/2306.02069
  • Lezione 10: PsySafe: un quadro completo per l'attacco, la difesa e la valutazione psicologica della sicurezza del sistema multi-agente
  • 作者: Zaibin Zhang 、 Yongting Zhang 、 Lijun Li 、 Hongzhi Gao 、 Lijun Wang 、 Huchuan Lu 、 Feng Zhao 、 Yu Qiao 、 Jing Shao
  • Istituzioni: Shanghai Artificial Intelligence Laboratory, Dalian University of Technology, University of Science and Technology of China
  • Link al documento: https://arxiv.org/pdf/2401.11880
  • 11: I modelli linguistici di grandi dimensioni possono essere un buon supporto emotivo? Attenuare il pregiudizio di preferenza nella conversazione di supporto emotivo
  • Autore: Dongjin Kang, Sunghwan Kim, ecc.
  • Istituzione: Università di Yonsei, ecc.
  • Link al documento: https://arxiv.org/pdf/2402.13211
  • 论文 12:Bussola politica o freccia rotante? Verso valutazioni più significative per valori e opinioni in modelli linguistici di grandi dimensioni
  • Autore: Paul Röttger, Valentin Hofmann, ecc.
  • Istituzioni: Università Bocconi, Allen Institute for Artificial Intelligence, ecc.
  • Link al documento: https://arxiv.org/pdf/2402.16786
  • Paper 13: Stesso compito, più token: l'impatto della lunghezza dell'input sulle prestazioni di ragionamento di modelli linguistici di grandi dimensioni
  • Autore: Mosh Levy, Alon Jacoby, Yoav Goldberg
  • Istituzione: Università Bar-Ilan, Allen Institute for Artificial Intelligence
  • Link al documento: https://arxiv.org/pdf/2402.14848
  • Paper 14: I lama funzionano in inglese? Sul linguaggio latente dei trasformatori multilinguistici
  • Autore: Chris Wendler, Veniamin Veselovsky, ecc.
  • Istituzione: Ecole Polytechnique Fédérale de Lausanne
  • Link al documento: https://arxiv.org/pdf/2402.10588
  • Articolo 15: Fare sul serio riguardo all'umorismo: creare set di dati sull'umorismo con modelli linguistici di grandi dimensioni poco divertenti
  • Autore: Zachary Horvitz, Jingru Chen, ecc.
  • Istituzione: Columbia University, Ecole Polytechnique Fédérale de Lausanne
  • Link al documento: https://arxiv.org/pdf/2403.00794
  • Documento 16: La stima del livello di dialetto prevede l'accordo tra annotatori nei set di dati arabi multi-dialettali
  • Autore: Amr Keleg, Walid Magdy, Sharon Goldwater
  • Istituzione: Università di Edimburgo
  • Link al documento: https://arxiv.org/pdf/2405.11282
  • Paper 17: G-DlG: Verso Dlverse basato su gradiente e selezione di dati di istruzioni di alta qualità per la traduzione automatica
  • 作者:Xingyuan Pan, Luyang Huang, Liyan Kang, Zhicheng Liu, Yu Lu, Shanbo Cheng
  • Organizzazione: ByteDance Research
  • Link al documento: https://arxiv.org/pdf/2405.12915
  • Paper 18: Media Framing: una tipologia e un'indagine sugli approcci computazionali attraverso le discipline
  • Autore: Yulia Otmakhova, Shima Khanehzar, Lea Frermann
  • Link al documento: https://openreview.net/pdf?id=9AV_zM56pwj
  • Documento 19: SPZ: un metodo di aumento dei dati basato sulla perturbazione semantica con miscelazione zonale per il rilevamento della malattia di Alzheimer
  • Autore: FangFang Li, Cheng Huang, PuZhen Su, Jie Yin
  • Documento 20: L'avidità è tutto ciò di cui hai bisogno: una valutazione dei metodi di inferenza dei tokenizer
  • Istituzioni: Università Ben-Gurion del Negev, MIT
  • Autore: Omri Uzan, Craig W.Schmidt, Chris Tanner, Yuval Pinter
  • Link al documento: https://arxiv.org/abs/2403.01289
  • 21 marzo: Complessità linguistica e accuratezza del riconoscimento vocale: la complessità ortografica fa male, quella fonologica no
  • Istituzione: Università di Notre Dame (USA)
  • Autore: Chihiro Taquchi, David Chiang
  • Link al documento: https://arxiv.org/abs/2406.09202
  • Fascicolo 22: Guidare Llama 2 tramite aggiunta di attivazione contrastiva
  • Istituzioni: Anthropic, Università di Harvard, Università di Göttingen (Germania), Center for Human-Compatible AI
  • Titolo: Nina Rimsky, Nick Gabrieli, Julian Schulz, Meg Tong, Evan J Hubinger, Alexander Matt Turner
  • Link al documento: https://arxiv.org/abs/2312.06681
  • Documento 23: EconAgent: agenti potenziati da modelli linguistici di grandi dimensioni per la simulazione di attività macroeconomiche
  • Istituzione: Tsinghua University-Shenzhen International Graduate School, Tsinghua University
  • Autore: Nian Li, Chen Gao, Mingyu Li, Yong Li, Qingmin Liao
  • Link al documento: https://arxiv.org/abs/2310.10436
  • Lezione 24: M4LE: un benchmark di valutazione multi-abilità, multi-intervallo, multi-task, multi-dominio e contesto lungo per modelli linguistici di grandi dimensioni
  • Istituzioni: Università Cinese di Hong Kong, Laboratorio dell'Arca di Noè di Huawei, Università della Scienza e della Tecnologia di Hong Kong
  • 作者:Wai-Chung Kwan、Xingshan Zeng、Yufei Wang、Yusen Sun、Liangyou Li、Lifeng Shang、Qun Liu、Kam-Fai Wong
  • Link al documento: https://arxiv.org/abs/2310.19240
  • Paper 25: CHECKWHY: verifica dei fatti causali tramite la struttura degli argomenti
  • 作者:Jiasheng Si、Yibo Zhao、Yingjie Zhu、Haiyang Zhu、Wenpeng Lu、Deyu Zhou
  • Documento 26: Sulla stima efficiente e statistica della qualità per l'annotazione dei dati
  • Titolo: Jan-Christoph Klie, Juan Haladjian, Marc Kirchner, Rahul Nair
  • Istituzioni: UKP Lab, TU Darmstadt, Apple
  • Link al documento: https://arxiv.org/pdf/2405.11919
  • Paper 27: Disallineamento emulato: l'allineamento di sicurezza per modelli linguistici di grandi dimensioni può rivelarsi controproducente!
  • 作者: Zhanhui Zhou, Jie Liu, Zhichen Dong, Jiaheng Liu, Chao Yang, Wanli Ouyang, Yu Qiao
  • Organizzazione: Laboratorio di Intelligenza Artificiale di Shanghai
  • Link al documento: https://arxiv.org/pdf/2402.12343
  • Documento 28: IndicLLMSuite: un progetto per la creazione di set di dati di pre-formazione e messa a punto per le lingue indiane
  • Autore: Mohammed Safi Ur Rahman Khan, Priyam Mehta, Ananth Sankar, ecc.
  • Istituzioni: Nilekani Center presso AI4Bharat, Indian Institute of Technology (Madras), Microsoft, ecc.
  • Link al documento: https://arxiv.org/pdf/2403.06350
  • Paper 29: MultiPICo: Multilingual Perspectivist lrony Corpus
  • Autore: Silvia Casola, Simona Frenda, Soda Marem Lo, Erhan Sezerer, ecc.
  • Istituzioni: Università di Torino, aequa-tech, Amazon Development Center (Italia), ecc.
  • Testo integrale: https://assets.amazon.science/08/83/9b686f424c89b08e8fa0a6e1d020/multipico-multilingual-perspectivist-irony-corpus.pdf
  • Documento 30: MMToM-QA: risposte alle domande sulla teoria multimodale della mente
  • Autore: Chuanyang Jin, Yutong Wu, Jing Cao, jiannan Xiang, ecc.
  • Istituzioni: New York University, Harvard University, MIT, University of California, San Diego, University of Virginia, Johns Hopkins University
  • Link al documento: https://arxiv.org/pdf/2401.08743
  • Documento 31: MAP non è ancora morto: scoprire le vere modalità del modello linguistico condizionando la degenerazione
  • Autore: Davis Yoshida, Kartik Goyal, Kevin Gimpel
  • Istituzione: Toyota Institute of Technology Chicago, Georgia Institute of Technology
  • Link al documento: https://arxiv.org/pdf/2311.08817
  • Paper 32: NounAtlas: colmare il divario nell'etichettatura dei ruoli semantici nominali
  • Autore: Roberto Navigli, Marco Lo Pinto, Pasquale Silvestri, ecc.
  • Documento 33: La Terra è piatta perché... Investigando la convinzione degli LLM nei confronti della disinformazione tramite conversazione persuasiva
  • Autore: Rongwu Xu, Brian S. Lin, Shujian Yang, Tiangi Zhang, ecc.
  • Istituzioni: Università Tsinghua, Università Jiao Tong di Shanghai, Università di Stanford, Università Tecnologica di Nanyang
  • Link al documento: https://arxiv.org/pdf/2312.09085
  • Documento 34: Parliamo sul serio: modello di dialogo parlato per la conversazione faccia a faccia
  • Autore: Se Jin Park, Chae Won Kim, Hyeongseop Rha, Minsu Kim, ecc.
  • Istituzione: Korea Advanced Institute of Science and Technology (KAIST)
  • Link al documento: https://arxiv.org/pdf/2406.07867
  • Paper 35: Gli incorporamenti di parole sono guide per i modelli linguistici
  • 作者:Chi Han, Jialiang Xu, Manling Li, Yi Fung, Chenkai Sun, Nan Jiang, Tarek F. Abdelzaher, Heng Ji
  • Istituzione: Università dell'Illinois a Urbana-Champaign
  • Link al documento: https://arxiv.org/pdf/2305.12798

Premio per il miglior articolo a tema



Tesi: OLMo: Accelerare la scienza dei modelli linguistici

  • Autore: Dirk Groeneveld, Iz Beltagy, ecc.
  • Istituzioni: Allen Institute for Artificial Intelligence, Università di Washington, ecc.
  • Link al documento: https://arxiv.org/pdf/2402.00838

Citazione: Questo lavoro è un passo importante verso la trasparenza e la riproducibilità nella formazione di grandi modelli linguistici, un passo avanti negli sforzi della comunità per fare progressi (o almeno per consentire ad altri ricercatori che non siano giganti del settore di contribuire).

Premio carta risorsa

3 articoli hanno vinto il Resource Paper Award.

Articolo 1: Latxa: un modello linguistico aperto e una suite di valutazione per il basco

Istituzione: Università dei Paesi Baschi, Spagna

  • 作者:Julen Etxaniz、Oscar Sainz、Naiara Perez、Itziar Aldabe、German Rigau、Eneko Agirre、Aitor Ormazabal、Mikel Artetxe、Aitor Soroa
  • Collegamento: https://arxiv.org/pdf/2403.20266

Motivi del premio: questo articolo descrive in dettaglio i dettagli della raccolta del corpus e della valutazione del set di dati. Sebbene rilevante per la ricerca sulla lingua basca, questa metodologia può essere estesa alla costruzione di modelli di grandi dimensioni per altre lingue con scarse risorse.

Articolo 2: Dolma: un corpus aperto di tre trilioni di token per la ricerca sulla pre-formazione dei modelli linguistici

  • Istituzioni: Allen Institute for Artificial Intelligence, University of California, Berkeley, ecc.
  • Autore: Luca Soldaini, Rodney Kinney, ecc.
  • Collegamento: https://arxiv.org/abs/2402.00159

Motivo del premio: questo documento dimostra l'importanza della gestione dei dati durante la preparazione di set di dati per l'addestramento di modelli linguistici di grandi dimensioni. Ciò fornisce informazioni molto preziose a un'ampia gamma di persone all'interno della comunità.

Documento 3: AppWorld: un mondo controllabile di app e persone per il benchmarking degli agenti di codifica interattivi

  • Istituzioni: State University of New York at Stony Brook, Allen Institute for Artificial Intelligence, ecc.
  • Autore: Harsh Trivedi, Tushar Khot, ecc.
  • Collegamento: https://arxiv.org/abs/2407.18901

Motivi del premio: questa ricerca è un lavoro molto importante e sorprendente nella costruzione di simulazione e valutazione di ambienti interattivi. Incoraggerà tutti a produrre parametri di riferimento dinamici più rigorosi per la comunità.

Premio Impatto Sociale

3 articoli hanno vinto il Social Impact Award.

Titolo 1: Come Johnny può convincere gli LLM a effettuare il jailbreak: ripensare la persuasione per sfidare la sicurezza dell'intelligenza artificiale umanizzando gli LLM

  • Autori: Yi Zeng, Hongpeng Lin, Jingwen Zhang, Diyi Yang, ecc.
  • Istituzioni: Virginia Tech, Renmin University of China, University of California, Davis, Stanford University
  • Link al documento: https://arxiv.org/pdf/2401.06373

Motivo del premio: questo articolo esplora il tema della sicurezza dell'intelligenza artificiale: il jailbreak, studiando un metodo sviluppato nel campo della ricerca in scienze sociali. La ricerca è molto interessante e ha il potenziale per avere un impatto significativo sulla comunità.

Paper 2: DIALECTBENCH: un punto di riferimento della PNL per dialetti, varietà e lingue strettamente correlate

  • Autore: Fahim Faisal, Orevaoghene Ahia, Aarohi Srivastava, Kabir Ahuja, ecc.
  • Istituzioni: George Mason University, Università di Washington, Università di Notre Dame, RC Athena
  • Link al documento: https://arxiv.org/pdf/2403.11009

Motivo del premio: la variazione dialettale è un fenomeno poco studiato nei campi della PNL e dell'intelligenza artificiale. Tuttavia, dal punto di vista della lingua e della società, la sua ricerca ha un valore estremamente elevato e ha importanti implicazioni per le applicazioni. Questo articolo propone un punto di riferimento molto nuovo per studiare questo problema nell'era LLM.

Documento 3: Bere birra dopo la preghiera? Misurare i pregiudizi culturali in grandi modelli linguistici

  • Autore: Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu
  • Istituzione: Georgia Institute of Technology
  • Link al documento: https://arxiv.org/pdf/2305.14456

Motivi del premio: questo articolo dimostra una questione importante nell'era LLM: i pregiudizi culturali. Questo articolo studia la cultura araba e l'ambiente linguistico e i risultati mostrano che dobbiamo considerare le differenze culturali quando progettiamo i LLM. Pertanto, lo stesso studio può essere replicato in altre culture per generalizzare e valutare se anche altre culture sono colpite da questo problema.