Le mie informazioni di contatto
Posta[email protected]
2024-08-15
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Nuovo rapporto sulla saggezza
Redattore: Dipartimento editoriale
[Introduzione alla Nuova Saggezza]ACL, la conferenza annuale più importante della PNL, ha annunciato il documento vincitore finale. Quest'anno, un totale di 7 articoli hanno vinto il premio come miglior articolo e i premi per il test temporale sono stati assegnati a Stanford GloVe e alla Cornell University Likely Measure. Inoltre, ci sono il Best Topic Award, il Best Social Impact Award, il Best Resource Award, l'Area Chair Award e l'Outstanding Paper Award.
I premi ACL 2024 sono finalmente disponibili!
Sono stati annunciati un totale di 7 articoli migliori, 35 articoli eccezionali, oltre al Time Test Award, al SAC Award, al miglior tema cartaceo, al miglior documento sulle risorse, ecc.
Vale la pena ricordare che tra i 7 migliori articoli, Deciphering Oracle Bone Language with Diffusion Models è stato completato da un team tutto cinese.
Quest'anno si svolge la 26esima conferenza annuale della Conferenza Internazionale sulla Linguistica Computazionale (ACL), che si è aperta a Bangkok, Tailandia, dall'11 al 16 agosto.
Il numero totale di documenti presentati per ACL 2024 è quasi lo stesso di quello del 2023, circa 5.000 documenti, di cui 940 documenti accettati.
Questo ACL è il più grande della storia, con un totale di 72 SAC, 716 AC e 4208 revisori.
975 documenti di ricerca, 6 JCL, 31 TACL, 3 discorsi programmatici e 1 panel.
L'intera conferenza comprendeva anche 18 workshop, 6 tutorial, 38 dimostrazioni e 60 documenti SRW.
I dettagli specifici della presentazione degli autori del documento sono i seguenti:
Maggior numero di documenti presentati 1/2: 10.333 studiosi hanno presentato 1 e 2.130 hanno presentato 2
Un piccolo numero di persone ha presentato più articoli: 3 autori hanno presentato 18 articoli, 6 persone hanno presentato 19 articoli e 18 persone hanno presentato più di 20 articoli.
Diamo un'occhiata, quali squadre hanno vinto i premi quest'anno?
7 migliori documenti
Articolo 1: Decifrare il linguaggio osseo di Oracle con modelli di diffusione
作者: Haisu Guan, Huanxin Yang, Xinyu Wang, Shengwei Han, Yongge Liu, Lianwen Jin, Xiang Bai, Yuliang Liu
Istituzioni: Huazhong University of Science and Technology, Università di Adelaide, Anyang Normal University, South China University of Technology
Indirizzo del documento: https://arxiv.org/pdf/2406.00684
Come indica il titolo, il team cinese ha utilizzato l'intelligenza artificiale per fare una cosa molto interessante e preziosa: decifrare Oracle (OBS) con l'aiuto di un modello di diffusione.
Le iscrizioni sulle ossa degli oracoli hanno avuto origine durante la dinastia Shang cinese circa 3.000 anni fa e sono una pietra angolare nella storia della lingua.
Sebbene siano state scoperte migliaia di iscrizioni, gran parte delle iscrizioni su ossa oracolari rimangono indecifrate, gettando un velo di mistero su questa antica lingua.
Nell'articolo, l'autore introduce un nuovo metodo per generare intelligenza artificiale utilizzando immagini, in particolare lo sviluppo di "Oracle Bone Script Decipher" (OBSD).
Utilizzando una strategia basata sulla diffusione condizionale, OBSD ha generato importanti indizi di decifrazione e ha aperto un nuovo percorso per l’analisi assistita dall’intelligenza artificiale delle lingue antiche.
Per verificarne l'efficacia, i ricercatori hanno condotto un gran numero di esperimenti sul set di dati Oracle e i risultati quantitativi hanno dimostrato l'efficacia di OBSD.
Capitolo 2: Soddisfacibilità del linguaggio naturale: esplorazione della distribuzione del problema e valutazione dei modelli linguistici basati sui trasformatori
(La prestampa non è stata ancora inviata)
Documento 3: Stima causale dei profili di memorizzazione
Interpreti: Pietro Lesci, Clara Meister, Thomas Hofmann, Andreas Vlachos, Tiago Pimentel
Istituzione: Università di Cambridge, ETH Zurigo
Indirizzo del documento: https://arxiv.org/pdf/2406.04327
Comprendere la memoria del LLM ha importanti implicazioni per la pratica e la società, come lo studio delle dinamiche di formazione dei modelli o la prevenzione della violazione del copyright.
Ricerche precedenti definiscono la memoria come la risposta causale alla capacità di un modello di prevedere quell'istanza attraverso l'addestramento su quell'istanza.
Questa definizione si basa su un controfattuale: essere in grado di osservare cosa sarebbe successo se il modello non avesse visto l'istanza.
Tuttavia, i metodi esistenti di solito mirano all’architettura del modello piuttosto che alla stima della memoria per istanze specifiche del modello, rendendo difficile fornire stime controfattuali accurate e computazionalmente efficienti.
Questo studio colma un'importante lacuna in quanto gli autori propongono un nuovo metodo efficace e basato su principi per stimare la memoizzazione basato su progetti di differenza nelle differenze in econometria.
Utilizzando questo metodo, solo osservando il comportamento di un piccolo numero di istanze durante l'intero processo di training, è possibile descrivere il profilo di memoria del modello, cioè l'andamento della memoria del modello durante tutto il processo di training.
Negli esperimenti con la suite di modelli Pythia, i ricercatori hanno scoperto:
(1) I modelli di grandi dimensioni hanno memorie più forti e durevoli;
(2) Determinato dall'ordine dei dati e dalla velocità di apprendimento;
(3) Esistono tendenze stabili in modelli di diverse dimensioni, quindi la memoria dei modelli di grandi dimensioni è prevedibile quanto la memoria dei modelli piccoli.
Paper 4: Modello Aya: un modello linguistico multilingue ad accesso aperto ottimizzato per le istruzioni
Interpreti: Ahmet Üstün, Viraat Aryabumi, Zheng-Xin Yong, Wei-Yin Ko, Daniel D'souza, Gbemileke Onilude, Neel Bhandari, Shivalika Singh, Hui-Lee Ooi, Amr Kayid, Freddie Vargus, Phil Blunsom, Shayne Longpre, Niklas Muennighoff, Marzieh Fadaee, Julia Kreutzer, Sara Hooker
Istituzioni: Cohere For AI, Brown University, Cohere, Cohere For AI Community, Carnegie Mellon University, MIT
Indirizzo del documento: https://arxiv.org/pdf/2402.07827
Nel febbraio di quest’anno, la startup Cohere ha rilasciato un nuovo modello open source di generazione linguistica su larga scala chiamato Aya, che copre più di 101 lingue.
Vale la pena ricordare che la copertura del modello linguistico del modello Aya è più del doppio di quella dei modelli open source esistenti, superando mT0 e BLOOMZ.
Il punteggio della valutazione umana raggiunge il 75% e il punteggio in vari test simulati sul tasso di vincita è dell'80-90%.
Il progetto è stato lanciato riunendo più di 3.000 ricercatori indipendenti provenienti da 119 paesi.
Inoltre, i ricercatori hanno anche divulgato il più grande set di dati di messa a punto dell’orientamento multilingue fino ad oggi, contenente 513 milioni di dati, che coprono 114 lingue.
Documento 5: Missione: modelli linguistici impossibili
Autori: Julie Kallini, Isabel Papadimitriou, Richard Futrell, Kyle Mahowald, Christopher Potts
Istituzione: Università di Stanford, Università della California, Irvine, Università del Texas ad Austin
Indirizzo del documento: https://arxiv.org/pdf/2401.06416
Chomsky e altri hanno affermato senza mezzi termini che il LLM ha la stessa capacità di apprendere lingue che sono possibili e impossibili da apprendere per gli esseri umani.
Tuttavia, ci sono poche prove sperimentali pubblicate a sostegno di questa affermazione.
Per fare ciò, i ricercatori hanno sviluppato una serie di “linguaggi impossibili” sintetici di varia complessità, ciascuno progettato alterando sistematicamente i dati inglesi e utilizzando un ordine delle parole e regole grammaticali innaturali.
Queste lingue si trovano su un continuum di lingue impossibili: a un'estremità ci sono lingue completamente impossibili, come l'inglese riorganizzato casualmente, e all'altra estremità ci sono lingue considerate linguisticamente impossibili, come quelle basate su regole di conteggio della posizione delle parole .
Dopo una serie di valutazioni, GPT-2 è molto difficile da imparare lingue impossibili, il che mette in discussione l'idea di base.
Ancora più importante, i ricercatori sperano che questo approccio porti a ulteriori ricerche sulla capacità del LLM di apprendere diversi tipi di lingue, in modo da comprendere meglio le potenziali applicazioni del LLM nella ricerca sulla tipologia cognitiva e linguistica.
Articolo 6: Ricostruzione del proto-linguaggio neurale semisupervisionato
Autore: Liang Lu, Peirong Xie, David R. Mortensen
Istituzione: Carnegie Mellon University, University of Southern California
Indirizzo del documento: https://arxiv.org/pdf/2406.05930
Il lavoro di confronto e ricostruzione della lingua madre esistente richiede solitamente una supervisione completa.
Tuttavia, i modelli di ricostruzione storica hanno valore pratico solo se addestrati con dati annotati limitati.
In risposta, i ricercatori hanno proposto un compito di ricostruzione della storia semi-supervisionata.
In questo compito, il modello deve essere addestrato solo su una piccola quantità di dati etichettati (un insieme omologo con prototipi) e una grande quantità di dati non etichettati (un insieme omologo senza prototipi).
L'autore ha sviluppato un'architettura neurale per la ricostruzione comparativa - DPD-BiReconstructor, che contiene un punto importante nei metodi comparativi dei linguisti: le parole ricostruite non solo possono essere ricostruite dalle loro sottoparole, ma possono anche essere trasformate in modo deterministico. Ritorno alle sue sottoparole .
Mostriamo che questa architettura è in grado di sfruttare insiemi di parole affini senza etichetta e di sovraperformare le linee di base di apprendimento semi-supervisionate esistenti in questo nuovo compito.
Documento 7: Perché le funzioni sensibili sono difficili per i trasformatori?
Autore: Michael Hahn, Mark Rofin
Istituzione: Università del Saarland
Indirizzo del documento: https://arxiv.org/pdf/2402.09963
La ricerca empirica ha scoperto una serie di pregiudizi e limitazioni dell’apprendimento del modello Transformer, come la difficoltà nell’imparare a calcolare linguaggi formali semplici (come PARITY) e la sua tendenza a lavorare con funzioni di ordine basso.
Tuttavia, la comprensione teorica rimane limitata e le teorie esistenti sull’abilità espressiva sovrastimano o sottostimano l’effettiva capacità di apprendimento.
I ricercatori hanno dimostrato che nell’architettura Transformer, il panorama delle perdite è limitato dalla sensibilità dello spazio di input:
I modelli di trasformatore le cui uscite sono sensibili a più parti della stringa di ingresso occupano punti isolati nello spazio dei parametri, determinando una bassa distorsione di sensibilità nella generalizzazione.
La ricerca dimostra sia teoricamente che empiricamente che la teoria più recente unifica le osservazioni empiriche sulle capacità e sui pregiudizi di apprendimento dei Transformer, come la loro preferenza per la sensibilità del terreno e le funzioni di ordine basso e la difficoltà con i problemi di parità e lunghezza generalizzati.
Ciò suggerisce che per comprendere la polarizzazione induttiva del trasformatore è necessario studiare non solo la sua espressività di principio, ma anche il suo panorama delle perdite.
2 premi per la prova del tempo
Documento 1: GloVe: vettori globali per la rappresentazione delle parole (2014)
Autore: Jeffrey Pennington, Richard Socher, Christopher Manning
Istituzione: Università di Stanford
Indirizzo del documento: https://nlp.stanford.edu/pubs/glove.pdf
L’incorporamento di parole è stato la pietra angolare dei metodi di deep learning per la PNL tra il 2013 e il 2018 e continua ad avere un impatto notevole. Non solo migliorano le prestazioni dei compiti di PNL, ma hanno anche un impatto significativo sulla semantica computazionale, come la somiglianza e l’analogia delle parole.
Probabilmente i due metodi di incorporamento delle parole più influenti sono skip-gram/CBOW e GloVe. Rispetto a skip-gram, GloVe è stato proposto più tardi. Il suo vantaggio relativo risiede nella sua semplicità concettuale: ottimizza la loro somiglianza nello spazio vettoriale direttamente in base alle caratteristiche di distribuzione delle parole, piuttosto che dal punto di vista della semplificazione della modellazione del linguaggio, che viene utilizzata come un insieme di parametri per l'ottimizzazione indiretta.
Documento 2: Misure di somiglianza distributiva (1999)
Autore: Lillian Lee
Istituzione: Cornell University
Indirizzo del documento: https://aclanthology.org/P99-1004.pdf
Lo studio delle misure di somiglianza della distribuzione mira a migliorare la stima della probabilità di eventi di co-occorrenza invisibili, che equivale a un altro modo per caratterizzare la somiglianza tra le parole.
Il contributo dell'articolo è triplice: un ampio confronto empirico di varie misure; una classificazione basata sulle informazioni contenute nella funzione di similarità; e l'introduzione di una nuova funzione che funziona bene nella valutazione delle potenziali distribuzioni degli agenti;
1 miglior articolo tematico
Tesi: OLMo: Accelerare la scienza dei modelli linguistici
Interpreti: Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tajord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannah Hajishirzi
Istituzioni: Allen Institute for Artificial Intelligence, Università di Washington, Yale University, New York University, Carnegie Mellon University
Indirizzo del documento: https://arxiv.org/abs/2402.00838
Questo lavoro rappresenta un progresso significativo nel miglioramento della trasparenza e della riproducibilità dei grandi modelli di formazione linguistica, qualcosa di cui la comunità è ansiosa di compiere i progressi necessari (o almeno di consentire ad altri contributori oltre ai giganti del settore di contribuire al progresso).
3 premi per il miglior impatto sociale
Articolo 1: Come Johnny può convincere gli LLM a effettuare il jailbreak: ripensare la persuasione per sfidare la sicurezza dell'intelligenza artificiale umanizzando gli LLM
作者: Yi Zeng, Hongpeng Lin, Jingwen Zhang, Diyi Yang, Ruoxi Jia, Weiyan Shi
Istituzioni: Virginia Tech, Renmin University of China, University of California, Davis, Stanford University
Indirizzo del documento: https://arxiv.org/abs/2401.06373
Questo articolo esplora il tema della sicurezza dell'intelligenza artificiale relativo all'elusione delle restrizioni. Esamina un metodo sviluppato nel campo della ricerca delle scienze sociali. La ricerca è affascinante e ha il potenziale per avere un impatto significativo sulla comunità.
Capitolo 2: DIALECTBENCH: un benchmark NLP per dialetti, varietà e lingue strettamente correlate
Interpreti: Fahim Faisal, Orevaoghene Ahia, Aarohi Srivastava, Kabir Ahuja, David Chiang, Yulia Tsvetkov, Antonios Anastasopoulos
Istituzioni: George Mason University, Università di Washington, Università di Notre Dame, RC Athena
Indirizzo del documento: https://arxiv.org/abs/2403.11009
La variazione dialettale è un fenomeno poco studiato nell’elaborazione del linguaggio naturale e nell’intelligenza artificiale. Tuttavia, la sua ricerca è di grande valore, non solo dal punto di vista linguistico e sociale, ma ha anche importanti implicazioni applicative. Questo articolo propone un punto di riferimento innovativo per lo studio di questo problema nell’era dei grandi modelli linguistici.
Documento 3: Bere birra dopo la preghiera? Misurare i pregiudizi culturali in modelli linguistici di grandi dimensioni
Autore: Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu
Istituzione: Georgia Institute of Technology
Indirizzo del documento: https://arxiv.org/abs/2305.14456
Questo articolo rivela una questione importante nell’era dei grandi modelli linguistici: i pregiudizi culturali. Sebbene il contesto dello studio sia la cultura e la lingua araba, i risultati mostrano che dobbiamo considerare le sfumature culturali quando progettiamo modelli linguistici di grandi dimensioni. Pertanto, studi simili potrebbero essere condotti su altre culture per generalizzare e valutare se anche altre culture sono interessate da questo problema.
3 migliori documenti di risorse
Articolo 1: Latxa: un modello linguistico aperto e una suite di valutazione per il basco
Interpreti: Julen Etxaniz, Oscar Sainz, Naiara Perez, Itziar Aldabe, German Rigau, Eneko Agirre, Aitor Ormazabal, Mikel Artetxe, Aitor Soroa
Istituzione: Università dei Paesi Baschi
Indirizzo del documento: https://arxiv.org/abs/2403.20266
Questo documento descrive in dettaglio tutti i dettagli della raccolta del corpus e dei set di dati di valutazione. Sebbene abbiano studiato la lingua basca, questo approccio può essere esteso per costruire modelli linguistici di grandi dimensioni per lingue con poche risorse.
Capitolo 2: Dolma: un corpus aperto di tre trilioni di token per la ricerca sulla pre-formazione dei modelli linguistici
Interpreti: Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert , Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tajord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo
Istituzioni: Allen Institute for Artificial Intelligence, UC Berkeley, Carnegie Mellon University, Spiffy AI, MIT, University of Washington
Indirizzo del documento: https://arxiv.org/abs/2402.00159
Questo articolo illustra l'importanza della cura dei dati durante la preparazione di set di dati per modelli linguistici di grandi dimensioni. Fornisce informazioni preziose che possono avvantaggiare un vasto pubblico all’interno della comunità.
Capitolo 3: AppWorld: un mondo controllabile di app e persone per il benchmarking di agenti di codifica interattivi
Interpreti: Harsh Trivedi, Tushar Khot, Mareike Hartmann, Ruskin Manku, Vinty Dong, Edward Li, Shashank Gupta, Ashish Sabharwal, Niranjan Balasubramanian
Istituzioni: State University of New York at Stony Brook, Allen Institute for Artificial Intelligence, Saarland University
Indirizzo del documento: https://arxiv.org/abs/2407.18901
Si tratta di un tentativo molto impressionante e importante di costruire un simulatore e un ambiente di valutazione per l'interazione uomo-computer. Ciò incoraggerà la produzione di parametri di riferimento dinamici stimolanti per la comunità.
21 Articoli Premio del Presidente del Campo
35 documenti eccezionali
(Questa immagine è incompleta)
Riferimenti:
https://x.com/aclmeeting/status/1823664612677705762