Premi ACL 2024: uno dei migliori articoli sulla decifrazione di Oracle presso HuaTech, GloVe Time Test Award

2024-08-15

Rapporto sul cuore della macchina

Dipartimento editoriale di Machine Heart

I contributori hanno guadagnato molto da questa conferenza ACL.

L'ACL 2024 della durata di sei giorni si terrà a Bangkok, in Tailandia.

ACL è la principale conferenza internazionale nel campo della linguistica computazionale e dell'elaborazione del linguaggio naturale. È organizzata dall'Associazione internazionale per la linguistica computazionale e si tiene ogni anno. ACL è sempre stata al primo posto in termini di influenza accademica nel campo della PNL ed è anche una conferenza consigliata da CCF-A.

La conferenza ACL di quest'anno è la 62esima e ha ricevuto più di 400 lavori all'avanguardia nel campo della PNL. Ieri pomeriggio la conferenza ha annunciato il miglior articolo e altri premi. Questa volta sono stati assegnati 7 Best Paper Awards (due inediti), 1 Best Theme Paper Award e 35 Outstanding Paper Awards.

La conferenza ha inoltre assegnato 3 Resource Awards, 3 Social Impact Awards e 2 Time Test Awards.

Inoltre, il premio alla carriera in questa conferenza è stato assegnato a Ralph Grishman, professore presso il Dipartimento di Informatica della New York University.

Di seguito sono riportate informazioni specifiche sul premio.

carta migliore

Documento 1: Missione: modelli linguistici impossibili

Autori: Julie Kallini, Isabel Papadimitriou, Richard Futrell, Kyle Mahowald, Christopher Potts
Istituzione: Università di Stanford, Università della California, Irvine, Università del Texas ad Austin
Link al documento: https://arxiv.org/abs/2401.06416

Introduzione all'articolo: Chomsky e altri ritengono che la capacità di apprendimento dei modelli linguistici di grandi dimensioni (LLM) sia la stessa per le lingue che possono o meno essere apprese dagli esseri umani. Tuttavia, ci sono poche prove sperimentali pubblicate a sostegno di questa affermazione.

Lo studio ha sviluppato una serie di linguaggi sintetici di varia complessità, ciascuno progettato alterando sistematicamente i dati inglesi utilizzando un ordine delle parole e regole grammaticali innaturali, con l’obiettivo di sintetizzare lingue che sarebbero impossibili da imparare per gli esseri umani.

Lo studio ha condotto estesi esperimenti di valutazione per valutare la capacità del piccolo modello GPT-2 di apprendere queste "lingue impossibili" e ha condotto queste valutazioni in diverse fasi durante la formazione per confrontare il processo di apprendimento per ciascuna lingua. La scoperta principale dello studio è che GPT-2 è difficile da imparare, "lingue impossibili" rispetto all'inglese, sfidando le affermazioni di Chomsky e altri.

Ancora più importante, lo studio spera che il suo approccio apra una fruttuosa linea di indagine, consentendo di testare diverse architetture LLM su una varietà di "linguaggi impossibili" per comprendere come LLM possa essere utilizzato come strumento di indagine cognitiva e tipologica.

Documento 2: Perché le funzioni sensibili sono difficili per i trasformatori?

Autore: Michael Hahn, Mark Rofin
Istituzione: Università del Saarland
Link al documento: https://arxiv.org/abs/2402.09963

Riassunto: Studi sperimentali hanno identificato una serie di bias di apprendibilità e limitazioni dei trasformatori, come la persistente difficoltà nell’imparare a calcolare linguaggi formali semplici come PARITY, e una propensione verso funzioni di basso grado. Tuttavia, la comprensione teorica rimane limitata e le teorie esistenti sulla rappresentazione sovrastimano o sottostimano le capacità di apprendimento realistiche.

Questo studio dimostra che nell'architettura del trasformatore, il panorama delle perdite è limitato dalla sensibilità dello spazio di ingresso: i trasformatori le cui uscite sono sensibili a molte parti della stringa di ingresso sono posizionati in punti isolati nello spazio dei parametri, con conseguente distorsione a bassa sensibilità in generalizzazione.

Questo studio mostra teoricamente e sperimentalmente che la teoria unifica ampie osservazioni sperimentali sulle capacità e sui bias di apprendimento dei trasformatori, come il loro bias di generalizzazione a bassa sensibilità e grado e la difficoltà di generalizzazione della lunghezza di parità. Ciò suggerisce che per comprendere i pregiudizi induttivi di un trasformatore è necessario studiare non solo la sua espressività di principio, ma anche il panorama della sua funzione di perdita.

Articolo 3: Decifrare il linguaggio osseo di Oracle con modelli di diffusione

Autori: Haisu Guan, Huanxin Yang, Xinyu Wang, Shengwei Han, ecc.
Istituzioni: Huazhong University of Science and Technology, Università di Adelaide, Anyang Normal University, South China University of Technology
Link al documento: https://arxiv.org/pdf/2406.00684

Introduzione all'articolo: Oracle Bone Script (OBS) ha avuto origine durante la dinastia Shang in Cina circa 3.000 anni fa. È la pietra angolare della storia del linguaggio e precede molti sistemi di scrittura consolidati. Sebbene siano state scoperte migliaia di iscrizioni, un gran numero di ossa oracolari rimangono indecifrate, avvolgendo questa antica lingua con un velo di mistero. L’emergere della moderna tecnologia AI ha aperto nuovi campi per la decifrazione Oracle, ponendo sfide ai tradizionali metodi di PNL che fanno molto affidamento su grandi corpora di testo.

Questo articolo introduce un nuovo metodo che utilizza la tecnologia di generazione di immagini per sviluppare un modello di diffusione ottimizzato per la decifrazione Oracle, Oracle Bone Script Decipher (OBSD). Utilizzando la strategia di diffusione condizionale, OBSD ha generato importanti indizi per la decifrazione di Oracle e ha aperto una nuova direzione per l’analisi assistita dall’intelligenza artificiale delle lingue antiche. Per verificarne l'efficacia, i ricercatori hanno condotto esperimenti approfonditi sul set di dati Oracle e i risultati quantitativi hanno dimostrato l'efficacia dell'OBSD.

Documento 4: Stima causale dei profili di memorizzazione

Interpreti: Pietro Lesci, Clara Meister, Thomas Hofmann, Andreas Vlachos, Tiago Pimentel
Istituzione: Università di Cambridge, ETH Zurigo
Link al documento: https://arxiv.org/pdf/2406.04327

Introduzione all'articolo: Comprendere la memoria nei modelli linguistici ha implicazioni pratiche e sociali, come lo studio delle dinamiche di formazione dei modelli o la prevenzione della violazione del copyright. Ricerche precedenti definiscono la memoria come la relazione causale tra "l'addestramento utilizzando un'istanza" e "la capacità del modello di prevedere quell'istanza". Questa definizione si basa su un controfattuale: la capacità di osservare cosa sarebbe successo se il modello non avesse visto l'istanza. I metodi esistenti faticano a fornire stime computazionalmente efficienti e accurate di tali controfattuali. Inoltre, questi metodi in genere stimano la memoria dell'architettura del modello piuttosto che la memoria di istanze specifiche del modello.

Questo articolo colma un’importante lacuna proponendo un approccio nuovo, efficace e basato su principi per la stima della memoria basato su un disegno econometrico della differenza nella differenza. Con questo metodo, i ricercatori osservano il comportamento del modello solo su un numero limitato di istanze durante l'intero processo di addestramento per descrivere il profilo di memoria del modello, cioè l'andamento della sua memoria durante il processo di addestramento. Negli esperimenti che utilizzano la suite di modelli Pythia, hanno scoperto che la memoria (i) è più forte e più persistente nei modelli più grandi, (ii) è determinata dall'ordine dei dati e dalla velocità di apprendimento e (iii) è stabile tra le diverse dimensioni dei modelli i ricordi nel modello più grande possono essere previsti dal modello più piccolo.

Paper 5: Modello Aya: un modello linguistico multilingue ad accesso aperto ottimizzato per le istruzioni

Autore: Ahmet Üstün, Viraat Aryabumi, Zheng Xin Yong, Wei-Yin Ko, ecc.
Istituzioni: Cohere, Brown University, ecc.
Link al documento: https://arxiv.org/pdf/2402.07827

Introduzione all'articolo: le recenti scoperte nei modelli linguistici di grandi dimensioni (LLM) si sono concentrate su un numero limitato di lingue ricche di dati. Come si possono ampliare le possibilità di innovazione oltre gli altri linguaggi? La ricerca introduce Aya, un modello linguistico generativo multilingue su larga scala che segue le istruzioni per 101 lingue, oltre il 50% delle quali sono considerate a scarse risorse. Aya supera mT0 e BLOOMZ nella maggior parte dei compiti e copre il doppio delle lingue.

Inoltre, la ricerca introduce una vasta gamma di nuove valutazioni, estendendo lo stato dell’arte della valutazione multilingue a 99 lingue. Infine, lo studio fornisce un'indagine dettagliata sulla composizione ottimale della miscela, sulla potatura dei dati, sulla tossicità, sui bias e sulla sicurezza del modello.

Articolo 6: Ricostruzione del proto-linguaggio neurale semisupervisionato

Autore: Liang Lu, Peirong Xie, David R. Mortensen
Istituzione: CMU, University of Southern California
Link al documento: https://arxiv.org/pdf/2406.05930

Motivo del premio: questa ricerca innovativa mira a semi-automatizzare il compito di ricostruzione del linguaggio prototipale nella linguistica storica, proponendo una nuova architettura semi-supervisionata. Questo metodo supera i precedenti metodi supervisionati introducendo un processo di riflessione "linguaggio nativo-prototipo" nella ricostruzione "linguaggio nativo-prototipo". Questo articolo è un buon esempio di come i moderni modelli computazionali, come i codificatori e decodificatori neurali, possono contribuire alla linguistica.

Documento 7: Soddisfabilità del linguaggio naturale: esplorare la distribuzione dei problemi e valutare i modelli linguistici basati sui trasformatori (non pubblicato)

Titolo: Tharindu Madusanka, Ian Pratt-Hartmann, Riza Batista-Navarro

Motivo del premio: questo articolo descrive chiaramente un set di dati di valutazione sintetica per l'inferenza logica. Questo è un buon complemento a set di dati di inferenza di grandi dimensioni in cui non è chiaro quali abilità vengono misurate. In teoria, ci sono effettivamente ragioni per aspettarsi che alcuni sottoinsiemi siano più difficili di altri, e queste aspettative sono confermate nel documento. All'interno di ciascuna categoria, gli autori prestano particolare attenzione al campionamento dei casi veramente impegnativi.

Premio testato nel tempo

L'ACL Time Test Award premia i documenti onorari che hanno avuto un impatto a lungo termine nei campi dell'elaborazione del linguaggio naturale e della linguistica computazionale. È diviso in due premi: 10 anni fa (2014) e 25 anni fa (1999 A massimo). vengono assegnati due documenti all'anno.

Paper 1: GloVe: vettori globali per la rappresentazione delle parole

Autori: Jeffrey Pennington, Richard Socher, Christopher D. Manning
Istituzione: Università di Stanford
Link al documento: https://aclanthology.org/D14-1162.pdf

Introduzione: i metodi per l'apprendimento delle rappresentazioni delle parole nello spazio vettoriale hanno avuto successo nel catturare regole semantiche e sintattiche a grana fine utilizzando l'aritmetica vettoriale, ma le regole sintattiche rimangono opache. Questo studio analizza e chiarisce quali proprietà deve avere il modello affinché le regole sintattiche appaiano nei vettori di parole.

Questo studio propone un nuovo modello di regressione lineare logaritmica globale - GloVe, progettato per apprendere rappresentazioni vettoriali di parole. Questo modello combina i vantaggi della fattorizzazione della matrice globale e dei metodi della finestra di contesto locale.

GloVe ha ottenuto la migliore prestazione del 75% nel compito di analogia di parole e ha sovraperformato i modelli correlati nel compito di somiglianza delle parole e nel riconoscimento delle entità denominate.

Motivo del premio: i word embedding sono stati la pietra angolare dei metodi di deep learning per l’elaborazione del linguaggio naturale (NLP) dal 2013 al 2018 e continuano ad esercitare un’influenza significativa. Non solo migliorano le prestazioni dei compiti di PNL, ma hanno anche un impatto significativo sulla semantica computazionale, come la somiglianza e l’analogia delle parole. I due metodi di incorporamento delle parole più influenti sono probabilmente skip-gram/CBOW e GloVe. Rispetto a skip-gram, GloVe è stato proposto successivamente. Il suo vantaggio relativo risiede nella sua semplicità concettuale, ottimizzando la somiglianza dello spazio vettoriale direttamente in base alle caratteristiche di distribuzione tra le parole, piuttosto che indirettamente come un insieme di parametri da una prospettiva di modellazione del linguaggio semplificata.

Documento 2: Misure di somiglianza distribuzionale

Autore: Lillian Lee
Istituzione: Cornell University
Collegamento al documento: https://aclanthology.org/P99-1004.pdf

Introduzione all'articolo: l'autore studia le misure di similarità della distribuzione con l'obiettivo di migliorare le stime di probabilità di eventi di co-occorrenza invisibili. Il loro contributo è triplice: un confronto empirico di un'ampia gamma di misure; una classificazione delle funzioni di somiglianza basata sulle informazioni che contengono e l'introduzione di una nuova funzione che è superiore nella valutazione delle distribuzioni degli agenti sottostanti;

Premio alla carriera

Il premio alla carriera di ACL è stato consegnato a Ralph Grishman. Ralph Grishman è professore presso il Dipartimento di Informatica della New York University, specializzato nella ricerca nel campo dell'elaborazione del linguaggio naturale (PNL). È il fondatore del progetto Proteus, che ha dato un contributo significativo all'estrazione delle informazioni (IE) e ha promosso lo sviluppo del campo.

Ha anche sviluppato Java Extraction Toolkit (JET), uno strumento di estrazione di informazioni ampiamente utilizzato che fornisce più componenti di analisi del linguaggio come segmentazione delle frasi, annotazione di entità denominate, annotazione e normalizzazione di espressioni temporali, tagging di parti del discorso, parsing di parti e co- analisi. Si riferisce all'analisi. Questi componenti possono essere combinati in pipeline secondo diverse applicazioni, che possono essere utilizzate per l'analisi interattiva di singole frasi o per l'analisi batch di interi documenti. Inoltre, JET fornisce strumenti semplici per l'annotazione e la visualizzazione dei documenti e include un processo completo per estrarre entità, relazioni ed eventi in conformità con la specifica ACE (Automatic Content Extraction).

Il lavoro del professor Grishman copre molteplici questioni fondamentali della PNL e ha avuto un profondo impatto sulla moderna tecnologia di elaborazione del linguaggio.

35 documenti eccezionali

Articolo 1: Ottimizzazione laterale quantizzata: ottimizzazione rapida ed efficiente in termini di memoria di modelli linguistici di grandi dimensioni quantizzati
作者：Zhengxin Zhang, Dan Zhao, Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Qing Li, Yong Jiang, Zhihao Jia
Istituzioni: CMU, Università Tsinghua, Laboratorio Pengcheng, ecc.
Link al documento: https://arxiv.org/pdf/2401.07159
Articolo 2: L-Eval: istituzione di una valutazione standardizzata per modelli linguistici a contesto lungo
作者: Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li, Jun Zhang, Lingpeng Kong, Xipeng Qiu
Istituzioni: Università Fudan, Università di Hong Kong, Università dell'Illinois a Urbana-Champaign, Shanghai AI Lab
Link al documento: https://arxiv.org/abs/2307.11088
Articolo 3: Apprendimento attivo guidato dalla causalità per eliminare i pregiudizi da modelli linguistici di grandi dimensioni
Link al documento: https://openreview.net/forum?id=idp_1Q6F-lC
Documento 4: CausalGym: benchmarking dei metodi di interpretabilità causale su compiti linguistici
Autore: Aryaman Arora, Dan Jurafsky, Christopher Potts
Istituzione: Università di Stanford
Link al documento: https://arxiv.org/abs/2402.12560
Documento 5: Non avere allucinazioni, astenersi: identificare le lacune nella conoscenza LLM tramite la collaborazione multi-LLM
Interpreti: Shangbin Feng, Weijia Shi, Yike Wang, Wenxuan Ding, Vidhisha Balachandran, Yulia Tsvetkov
Istituzioni: Università di Washington, Università della California, Berkeley, Università della Scienza e della Tecnologia di Hong Kong, CMU
Link al documento: https://arxiv.org/abs/2402.00367
Lezione 6: Traduzione vocale con modelli di fondamento del linguaggio e modelli linguistici di grandi dimensioni: cosa c'è e cosa manca?
Autore: Marco Gaido, Sara Papi, Matteo Negri, Luisa Bentivogli
Istituzione: Fondazione Bruno Kessler, Italia
Link al documento: https://arxiv.org/abs/2402.12025
Documento 7: La PNL deve essere estrattiva?
Autore: Steven Bird
Istituzione: Università Charles Darwin
Link cartaceo: https://drive.google.com/file/d/1hvF7_WQrou6CWZydhymYFTYHnd3ZIljV/view
Articolo 8: IRCoder: le rappresentazioni intermedie rendono i modelli linguistici robusti generatori di codice multilingue
Autore: Indraneil Paul, Goran Glavaš, Iryna Gurevych
Istituzione: Università Tecnica di Darmstadt, ecc.
Link al documento: https://arxiv.org/abs/2403.03894
Documento 9: MultiLegalPile: un corpus giuridico multilingue da 689 GB
Autore: Matthias Stürmer, Veton Matoshi, ecc.
Istituzione: Università di Berna, Università di Stanford, ecc.
Link al documento: https://arxiv.org/pdf/2306.02069
Lezione 10: PsySafe: un quadro completo per l'attacco, la difesa e la valutazione psicologica della sicurezza del sistema multi-agente
作者: Zaibin Zhang 、 Yongting Zhang 、 Lijun Li 、 Hongzhi Gao 、 Lijun Wang 、 Huchuan Lu 、 Feng Zhao 、 Yu Qiao 、 Jing Shao
Istituzioni: Shanghai Artificial Intelligence Laboratory, Dalian University of Technology, University of Science and Technology of China
Link al documento: https://arxiv.org/pdf/2401.11880
11: I modelli linguistici di grandi dimensioni possono essere un buon supporto emotivo? Attenuare il pregiudizio di preferenza nella conversazione di supporto emotivo
Autore: Dongjin Kang, Sunghwan Kim, ecc.
Istituzione: Università di Yonsei, ecc.
Link al documento: https://arxiv.org/pdf/2402.13211
论文 12：Bussola politica o freccia rotante? Verso valutazioni più significative per valori e opinioni in modelli linguistici di grandi dimensioni
Autore: Paul Röttger, Valentin Hofmann, ecc.
Istituzioni: Università Bocconi, Allen Institute for Artificial Intelligence, ecc.
Link al documento: https://arxiv.org/pdf/2402.16786
Paper 13: Stesso compito, più token: l'impatto della lunghezza dell'input sulle prestazioni di ragionamento di modelli linguistici di grandi dimensioni
Autore: Mosh Levy, Alon Jacoby, Yoav Goldberg
Istituzione: Università Bar-Ilan, Allen Institute for Artificial Intelligence
Link al documento: https://arxiv.org/pdf/2402.14848
Paper 14: I lama funzionano in inglese? Sul linguaggio latente dei trasformatori multilinguistici
Autore: Chris Wendler, Veniamin Veselovsky, ecc.
Istituzione: Ecole Polytechnique Fédérale de Lausanne
Link al documento: https://arxiv.org/pdf/2402.10588
Articolo 15: Fare sul serio riguardo all'umorismo: creare set di dati sull'umorismo con modelli linguistici di grandi dimensioni poco divertenti
Autore: Zachary Horvitz, Jingru Chen, ecc.
Istituzione: Columbia University, Ecole Polytechnique Fédérale de Lausanne
Link al documento: https://arxiv.org/pdf/2403.00794
Documento 16: La stima del livello di dialetto prevede l'accordo tra annotatori nei set di dati arabi multi-dialettali
Autore: Amr Keleg, Walid Magdy, Sharon Goldwater
Istituzione: Università di Edimburgo
Link al documento: https://arxiv.org/pdf/2405.11282
Paper 17: G-DlG: Verso Dlverse basato su gradiente e selezione di dati di istruzioni di alta qualità per la traduzione automatica
作者:Xingyuan Pan, Luyang Huang, Liyan Kang, Zhicheng Liu, Yu Lu, Shanbo Cheng
Organizzazione: ByteDance Research
Link al documento: https://arxiv.org/pdf/2405.12915
Paper 18: Media Framing: una tipologia e un'indagine sugli approcci computazionali attraverso le discipline
Autore: Yulia Otmakhova, Shima Khanehzar, Lea Frermann
Link al documento: https://openreview.net/pdf?id=9AV_zM56pwj
Documento 19: SPZ: un metodo di aumento dei dati basato sulla perturbazione semantica con miscelazione zonale per il rilevamento della malattia di Alzheimer
Autore: FangFang Li, Cheng Huang, PuZhen Su, Jie Yin
Documento 20: L'avidità è tutto ciò di cui hai bisogno: una valutazione dei metodi di inferenza dei tokenizer
Istituzioni: Università Ben-Gurion del Negev, MIT
Autore: Omri Uzan, Craig W.Schmidt, Chris Tanner, Yuval Pinter
Link al documento: https://arxiv.org/abs/2403.01289
21 marzo: Complessità linguistica e accuratezza del riconoscimento vocale: la complessità ortografica fa male, quella fonologica no
Istituzione: Università di Notre Dame (USA)
Autore: Chihiro Taquchi, David Chiang
Link al documento: https://arxiv.org/abs/2406.09202
Fascicolo 22: Guidare Llama 2 tramite aggiunta di attivazione contrastiva
Istituzioni: Anthropic, Università di Harvard, Università di Göttingen (Germania), Center for Human-Compatible AI
Titolo: Nina Rimsky, Nick Gabrieli, Julian Schulz, Meg Tong, Evan J Hubinger, Alexander Matt Turner
Link al documento: https://arxiv.org/abs/2312.06681
Documento 23: EconAgent: agenti potenziati da modelli linguistici di grandi dimensioni per la simulazione di attività macroeconomiche
Istituzione: Tsinghua University-Shenzhen International Graduate School, Tsinghua University
Autore: Nian Li, Chen Gao, Mingyu Li, Yong Li, Qingmin Liao
Link al documento: https://arxiv.org/abs/2310.10436
Lezione 24: M4LE: un benchmark di valutazione multi-abilità, multi-intervallo, multi-task, multi-dominio e contesto lungo per modelli linguistici di grandi dimensioni
Istituzioni: Università Cinese di Hong Kong, Laboratorio dell'Arca di Noè di Huawei, Università della Scienza e della Tecnologia di Hong Kong
作者：Wai-Chung Kwan、Xingshan Zeng、Yufei Wang、Yusen Sun、Liangyou Li、Lifeng Shang、Qun Liu、Kam-Fai Wong
Link al documento: https://arxiv.org/abs/2310.19240
Paper 25: CHECKWHY: verifica dei fatti causali tramite la struttura degli argomenti
作者：Jiasheng Si、Yibo Zhao、Yingjie Zhu、Haiyang Zhu、Wenpeng Lu、Deyu Zhou
Documento 26: Sulla stima efficiente e statistica della qualità per l'annotazione dei dati
Titolo: Jan-Christoph Klie, Juan Haladjian, Marc Kirchner, Rahul Nair
Istituzioni: UKP Lab, TU Darmstadt, Apple
Link al documento: https://arxiv.org/pdf/2405.11919
Paper 27: Disallineamento emulato: l'allineamento di sicurezza per modelli linguistici di grandi dimensioni può rivelarsi controproducente!
作者: Zhanhui Zhou, Jie Liu, Zhichen Dong, Jiaheng Liu, Chao Yang, Wanli Ouyang, Yu Qiao
Organizzazione: Laboratorio di Intelligenza Artificiale di Shanghai
Link al documento: https://arxiv.org/pdf/2402.12343
Documento 28: IndicLLMSuite: un progetto per la creazione di set di dati di pre-formazione e messa a punto per le lingue indiane
Autore: Mohammed Safi Ur Rahman Khan, Priyam Mehta, Ananth Sankar, ecc.
Istituzioni: Nilekani Center presso AI4Bharat, Indian Institute of Technology (Madras), Microsoft, ecc.
Link al documento: https://arxiv.org/pdf/2403.06350
Paper 29: MultiPICo: Multilingual Perspectivist lrony Corpus
Autore: Silvia Casola, Simona Frenda, Soda Marem Lo, Erhan Sezerer, ecc.
Istituzioni: Università di Torino, aequa-tech, Amazon Development Center (Italia), ecc.
Testo integrale: https://assets.amazon.science/08/83/9b686f424c89b08e8fa0a6e1d020/multipico-multilingual-perspectivist-irony-corpus.pdf
Documento 30: MMToM-QA: risposte alle domande sulla teoria multimodale della mente
Autore: Chuanyang Jin, Yutong Wu, Jing Cao, jiannan Xiang, ecc.
Istituzioni: New York University, Harvard University, MIT, University of California, San Diego, University of Virginia, Johns Hopkins University
Link al documento: https://arxiv.org/pdf/2401.08743
Documento 31: MAP non è ancora morto: scoprire le vere modalità del modello linguistico condizionando la degenerazione
Autore: Davis Yoshida, Kartik Goyal, Kevin Gimpel
Istituzione: Toyota Institute of Technology Chicago, Georgia Institute of Technology
Link al documento: https://arxiv.org/pdf/2311.08817
Paper 32: NounAtlas: colmare il divario nell'etichettatura dei ruoli semantici nominali
Autore: Roberto Navigli, Marco Lo Pinto, Pasquale Silvestri, ecc.
Documento 33: La Terra è piatta perché... Investigando la convinzione degli LLM nei confronti della disinformazione tramite conversazione persuasiva
Autore: Rongwu Xu, Brian S. Lin, Shujian Yang, Tiangi Zhang, ecc.
Istituzioni: Università Tsinghua, Università Jiao Tong di Shanghai, Università di Stanford, Università Tecnologica di Nanyang
Link al documento: https://arxiv.org/pdf/2312.09085
Documento 34: Parliamo sul serio: modello di dialogo parlato per la conversazione faccia a faccia
Autore: Se Jin Park, Chae Won Kim, Hyeongseop Rha, Minsu Kim, ecc.
Istituzione: Korea Advanced Institute of Science and Technology (KAIST)
Link al documento: https://arxiv.org/pdf/2406.07867
Paper 35: Gli incorporamenti di parole sono guide per i modelli linguistici
作者：Chi Han, Jialiang Xu, Manling Li, Yi Fung, Chenkai Sun, Nan Jiang, Tarek F. Abdelzaher, Heng Ji
Istituzione: Università dell'Illinois a Urbana-Champaign
Link al documento: https://arxiv.org/pdf/2305.12798

Premio per il miglior articolo a tema

Tesi: OLMo: Accelerare la scienza dei modelli linguistici

Autore: Dirk Groeneveld, Iz Beltagy, ecc.
Istituzioni: Allen Institute for Artificial Intelligence, Università di Washington, ecc.
Link al documento: https://arxiv.org/pdf/2402.00838

Citazione: Questo lavoro è un passo importante verso la trasparenza e la riproducibilità nella formazione di grandi modelli linguistici, un passo avanti negli sforzi della comunità per fare progressi (o almeno per consentire ad altri ricercatori che non siano giganti del settore di contribuire).

Premio carta risorsa

3 articoli hanno vinto il Resource Paper Award.

Articolo 1: Latxa: un modello linguistico aperto e una suite di valutazione per il basco

Istituzione: Università dei Paesi Baschi, Spagna

作者：Julen Etxaniz、Oscar Sainz、Naiara Perez、Itziar Aldabe、German Rigau、Eneko Agirre、Aitor Ormazabal、Mikel Artetxe、Aitor Soroa
Collegamento: https://arxiv.org/pdf/2403.20266

Motivi del premio: questo articolo descrive in dettaglio i dettagli della raccolta del corpus e della valutazione del set di dati. Sebbene rilevante per la ricerca sulla lingua basca, questa metodologia può essere estesa alla costruzione di modelli di grandi dimensioni per altre lingue con scarse risorse.

Articolo 2: Dolma: un corpus aperto di tre trilioni di token per la ricerca sulla pre-formazione dei modelli linguistici

Istituzioni: Allen Institute for Artificial Intelligence, University of California, Berkeley, ecc.
Autore: Luca Soldaini, Rodney Kinney, ecc.
Collegamento: https://arxiv.org/abs/2402.00159

Motivo del premio: questo documento dimostra l'importanza della gestione dei dati durante la preparazione di set di dati per l'addestramento di modelli linguistici di grandi dimensioni. Ciò fornisce informazioni molto preziose a un'ampia gamma di persone all'interno della comunità.

Documento 3: AppWorld: un mondo controllabile di app e persone per il benchmarking degli agenti di codifica interattivi

Istituzioni: State University of New York at Stony Brook, Allen Institute for Artificial Intelligence, ecc.
Autore: Harsh Trivedi, Tushar Khot, ecc.
Collegamento: https://arxiv.org/abs/2407.18901

Motivi del premio: questa ricerca è un lavoro molto importante e sorprendente nella costruzione di simulazione e valutazione di ambienti interattivi. Incoraggerà tutti a produrre parametri di riferimento dinamici più rigorosi per la comunità.

Premio Impatto Sociale

3 articoli hanno vinto il Social Impact Award.

Titolo 1: Come Johnny può convincere gli LLM a effettuare il jailbreak: ripensare la persuasione per sfidare la sicurezza dell'intelligenza artificiale umanizzando gli LLM

Autori: Yi Zeng, Hongpeng Lin, Jingwen Zhang, Diyi Yang, ecc.
Istituzioni: Virginia Tech, Renmin University of China, University of California, Davis, Stanford University
Link al documento: https://arxiv.org/pdf/2401.06373

Motivo del premio: questo articolo esplora il tema della sicurezza dell'intelligenza artificiale: il jailbreak, studiando un metodo sviluppato nel campo della ricerca in scienze sociali. La ricerca è molto interessante e ha il potenziale per avere un impatto significativo sulla comunità.

Paper 2: DIALECTBENCH: un punto di riferimento della PNL per dialetti, varietà e lingue strettamente correlate

Autore: Fahim Faisal, Orevaoghene Ahia, Aarohi Srivastava, Kabir Ahuja, ecc.
Istituzioni: George Mason University, Università di Washington, Università di Notre Dame, RC Athena
Link al documento: https://arxiv.org/pdf/2403.11009

Motivo del premio: la variazione dialettale è un fenomeno poco studiato nei campi della PNL e dell'intelligenza artificiale. Tuttavia, dal punto di vista della lingua e della società, la sua ricerca ha un valore estremamente elevato e ha importanti implicazioni per le applicazioni. Questo articolo propone un punto di riferimento molto nuovo per studiare questo problema nell'era LLM.

Documento 3: Bere birra dopo la preghiera? Misurare i pregiudizi culturali in grandi modelli linguistici

Autore: Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu
Istituzione: Georgia Institute of Technology
Link al documento: https://arxiv.org/pdf/2305.14456

Motivi del premio: questo articolo dimostra una questione importante nell'era LLM: i pregiudizi culturali. Questo articolo studia la cultura araba e l'ambiente linguistico e i risultati mostrano che dobbiamo considerare le differenze culturali quando progettiamo i LLM. Pertanto, lo stesso studio può essere replicato in altre culture per generalizzare e valutare se anche altre culture sono colpite da questo problema.

notizia

Premi ACL 2024: uno dei migliori articoli sulla decifrazione di Oracle presso HuaTech, GloVe Time Test Award

Introduzione

Le mie informazioni di contatto