berita

Penghargaan ACL 2024: Salah satu makalah terbaik dalam mengartikan Oracle di HuaTech, GloVe Time Test Award

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Laporan Jantung Mesin

Departemen Editorial Jantung Mesin

Kontributor memperoleh banyak manfaat dari konferensi ACL ini.

ACL 2024 yang berlangsung selama enam hari diadakan di Bangkok, Thailand.



ACL adalah konferensi internasional terkemuka di bidang linguistik komputasi dan pemrosesan bahasa alami. ACL diselenggarakan oleh Asosiasi Internasional untuk Linguistik Komputasi dan diadakan setiap tahun. ACL selalu menduduki peringkat pertama dalam pengaruh akademis di bidang NLP, dan juga merupakan konferensi yang direkomendasikan CCF-A.

Konferensi ACL tahun ini merupakan yang ke-62 dan telah menampung lebih dari 400 karya mutakhir di bidang NLP. Kemarin sore, konferensi mengumumkan makalah terbaik dan penghargaan lainnya. Kali ini, diberikan 7 Penghargaan Kertas Terbaik (dua tidak diterbitkan), 1 Penghargaan Kertas Tema Terbaik, dan 35 Penghargaan Kertas Luar Biasa.

Konferensi ini juga memberikan 3 Penghargaan Sumber Daya, 3 Penghargaan Dampak Sosial, dan 2 Penghargaan Tes Waktu.

Selain itu, Lifetime Achievement Award pada konferensi ini dianugerahkan kepada Ralph Grishman, seorang profesor di Departemen Ilmu Komputer di New York University.

Berikut ini adalah informasi penghargaan spesifik.

kertas terbaik



Makalah 1: Misi: Model Bahasa yang Mustahil

  • Dibintangi oleh: Julie Kallini, Isabel Papadimitriou, Richard Futrell, Kyle Mahowald, Christopher Potts
  • Institusi: Universitas Stanford, Universitas California, Irvine, Universitas Texas di Austin
  • Tautan makalah: https://arxiv.org/abs/2401.06416

Pengantar makalah: Chomsky dan yang lainnya percaya bahwa kemampuan belajar model bahasa besar (LLM) adalah sama untuk bahasa yang mungkin dipelajari oleh manusia atau tidak. Namun, hanya ada sedikit bukti eksperimental yang dipublikasikan untuk mendukung klaim ini.

Studi ini mengembangkan serangkaian bahasa sintetik dengan kompleksitas yang berbeda-beda, masing-masing dirancang dengan mengubah data bahasa Inggris secara sistematis menggunakan urutan kata dan aturan tata bahasa yang tidak wajar, dengan tujuan mensintesis bahasa yang tidak mungkin dipelajari manusia.

Studi ini melakukan eksperimen evaluasi ekstensif untuk mengevaluasi kemampuan model kecil GPT-2 dalam mempelajari "bahasa yang mustahil" ini dan melakukan evaluasi ini pada tahapan yang berbeda selama pelatihan untuk membandingkan proses pembelajaran setiap bahasa. Temuan inti dari penelitian ini adalah bahwa GPT-2 sulit dipelajari sebagai "bahasa yang mustahil" dibandingkan dengan bahasa Inggris, sehingga menantang klaim Chomsky dan lainnya.

Lebih penting lagi, penelitian ini berharap bahwa pendekatannya akan membuka jalur penyelidikan yang bermanfaat, memungkinkan arsitektur LLM yang berbeda diuji pada berbagai "bahasa yang mustahil" untuk memahami bagaimana LLM dapat digunakan sebagai alat penyelidikan kognitif dan tipologis.



Makalah 2: Mengapa Fungsi Sensitif Sulit untuk Transformer?

  • Pengarang: Michael Hahn, Mark Rofin
  • Institusi: Universitas Saarland
  • Tautan makalah: https://arxiv.org/abs/2402.09963

Abstrak: Studi eksperimental telah mengidentifikasi berbagai bias pembelajaran dan keterbatasan transformator, seperti kesulitan yang terus-menerus dalam belajar menghitung bahasa formal sederhana seperti PARITY, dan bias terhadap fungsi tingkat rendah. Namun, pemahaman teoretis masih terbatas, dan teori representasi yang ada melebih-lebihkan atau meremehkan kemampuan pembelajaran realistis.

Studi ini menunjukkan bahwa dalam arsitektur transformator, lanskap kerugian dibatasi oleh sensitivitas ruang masukan: transformator yang keluarannya sensitif terhadap banyak bagian rangkaian masukan ditempatkan pada titik-titik terisolasi dalam ruang parameter, sehingga menghasilkan bias sensitivitas rendah dalam generalisasi.

Studi ini menunjukkan secara teoritis dan eksperimental bahwa teori tersebut menyatukan pengamatan eksperimental yang luas tentang kemampuan dan bias pembelajaran transformator, seperti bias generalisasinya hingga sensitivitas dan derajat rendah, dan kesulitan generalisasi panjang paritas. Hal ini menunjukkan bahwa memahami bias induktif transformator memerlukan studi tidak hanya ekspresi prinsipnya tetapi juga lanskap fungsi kerugiannya.



Makalah 3: Menguraikan Bahasa Oracle Bone dengan Model Difusi

  • Penulis: Haisu Guan, Huanxin Yang, Xinyu Wang, Shengwei Han, dll.
  • Institusi: Universitas Sains dan Teknologi Huazhong, Universitas Adelaide, Universitas Normal Anyang, Universitas Teknologi Cina Selatan
  • Tautan makalah: https://arxiv.org/pdf/2406.00684

Pengantar makalah: Oracle Bone Script (OBS) berasal dari Dinasti Shang Tiongkok sekitar 3.000 tahun yang lalu. Ini adalah landasan sejarah bahasa dan mendahului banyak sistem penulisan yang sudah mapan. Meskipun ribuan prasasti telah ditemukan, sejumlah besar tulang ramalan masih belum terpecahkan, sehingga menyelimuti bahasa kuno ini dengan selubung misteri. Munculnya teknologi AI modern telah membuka bidang baru untuk penguraian Oracle, sehingga menimbulkan tantangan terhadap metode NLP tradisional yang sangat bergantung pada corpora teks besar.

Makalah ini memperkenalkan metode baru menggunakan teknologi pembuatan gambar untuk mengembangkan model difusi yang dioptimalkan untuk penguraian Oracle, Oracle Bone Script Decipher (OBDS). Memanfaatkan strategi difusi bersyarat, Obsd menghasilkan petunjuk penting untuk penguraian kode Oracle dan membuka arah baru untuk analisis bahasa kuno yang dibantu AI. Untuk memverifikasi keefektifannya, para peneliti melakukan eksperimen ekstensif pada kumpulan data Oracle, dan hasil kuantitatif membuktikan keefektifan ABSD.



Makalah 4: Estimasi Kausal dari Profil Memori

  • Pemain: Pietro Lesci, Clara Meister, Thomas Hofmann, Andreas Vlachos, Tiago Pimentel
  • Institusi: Universitas Cambridge, ETH Zurich
  • Tautan makalah: https://arxiv.org/pdf/2406.04327

Pengantar makalah: Memahami memori dalam model bahasa memiliki implikasi praktis dan sosial, seperti mempelajari dinamika pelatihan model atau mencegah pelanggaran hak cipta. Penelitian sebelumnya mendefinisikan memori sebagai hubungan sebab akibat antara "pelatihan menggunakan sebuah instance" dan "kemampuan model untuk memprediksi instance tersebut". Definisi ini bergantung pada kontrafaktual: kemampuan untuk mengamati apa yang akan terjadi jika model tidak melihat kejadiannya. Metode-metode yang ada saat ini kesulitan untuk memberikan perkiraan kontrafaktual yang efisien dan akurat secara komputasi. Selain itu, metode ini biasanya memperkirakan memori arsitektur model daripada memori contoh model tertentu.

Makalah ini mengisi kesenjangan penting dengan mengusulkan pendekatan baru, berprinsip dan efisien untuk memperkirakan memori berdasarkan desain perbedaan-dalam-perbedaan ekonometrik. Dengan metode ini, peneliti hanya mengamati perilaku model pada sejumlah kecil contoh selama keseluruhan proses pelatihan untuk menggambarkan profil memori model, yaitu tren memorinya selama proses pelatihan. Dalam eksperimen yang menggunakan rangkaian model Pythia, mereka menemukan bahwa memori (i) lebih kuat dan lebih persisten dalam model yang lebih besar, (ii) ditentukan oleh urutan data dan kecepatan pembelajaran, dan (iii) stabil di berbagai ukuran model ingatan dalam model yang lebih besar dapat diprediksi dari model yang lebih kecil.



Makalah 5: Model Aya: Model Bahasa Multibahasa Akses Terbuka yang Diselaraskan dengan Instruksi

  • Penulis: Ahmet Üstün, Viraat Aryabumi, Zheng Xin Yong, Wei-Yin Ko, dll.
  • Institusi: Cohere, Brown University, dll.
  • Tautan makalah: https://arxiv.org/pdf/2402.07827

Pengantar makalah: Terobosan terbaru dalam model bahasa besar (LLM) berfokus pada sejumlah kecil bahasa yang kaya data. Bagaimana peluang terobosan dapat diperluas melampaui bahasa lain? Penelitian ini memperkenalkan Aya, model bahasa generatif multibahasa berskala besar yang mengikuti instruksi untuk 101 bahasa, lebih dari 50% di antaranya dianggap sumber daya rendah. Aya mengungguli mT0 dan BLOOMZ pada sebagian besar tugas sambil mencakup dua kali lebih banyak bahasa.

Selain itu, penelitian ini memperkenalkan serangkaian penilaian baru yang luas, memperluas penilaian multibahasa yang canggih ke dalam 99 bahasa. Terakhir, studi ini memberikan investigasi mendetail tentang komposisi campuran yang disesuaikan secara optimal, pemangkasan data, dan toksisitas model, bias, dan keamanan.



Makalah 6: Rekonstruksi Bahasa Proto Saraf Semisupervisi

  • Penulis: Liang Lu, Peirong Xie, David R. Mortensen
  • Institusi: CMU, Universitas California Selatan
  • Tautan makalah: https://arxiv.org/pdf/2406.05930

Alasan pemberian penghargaan: Penelitian inovatif ini bertujuan untuk mengotomatiskan tugas rekonstruksi bahasa prototipe dalam linguistik sejarah, mengusulkan arsitektur semi-supervisi baru. Metode ini mengungguli metode pengawasan sebelumnya dengan memperkenalkan proses refleksi "prototipe-bahasa asli" ke dalam rekonstruksi "prototipe-bahasa asli". Makalah ini adalah contoh bagus tentang bagaimana model komputasi modern, seperti neural encoder dan decoder, dapat berkontribusi pada linguistik.



Makalah 7: Kepuasan Bahasa Alami: Menjelajahi Distribusi Masalah dan Mengevaluasi Model Bahasa Berbasis Transformator (tidak dipublikasikan)

  • Pemain: Tharindu Madusanka, Ian Pratt-Hartmann, Riza Batista-Navarro

Alasan penghargaan: Makalah ini dengan jelas menjelaskan kumpulan data evaluasi sintetik untuk inferensi logis. Ini adalah pelengkap yang baik untuk kumpulan data inferensi besar yang tidak jelas kemampuan mana yang diukur. Secara teoritis, memang ada alasan untuk memperkirakan beberapa subset lebih sulit dibandingkan yang lain, dan ekspektasi ini divalidasi dalam makalah. Dalam setiap kategori, penulis memberikan perhatian khusus pada pengambilan sampel kasus-kasus yang benar-benar menantang.

Penghargaan yang Telah Teruji Waktu

ACL Time Test Award memberikan penghargaan kepada makalah kehormatan yang memiliki dampak jangka panjang di bidang pemrosesan bahasa alami dan linguistik komputasi. Penghargaan ini dibagi menjadi dua penghargaan: 10 tahun lalu (2014) dan 25 tahun lalu (1999). dari dua makalah diberikan setiap tahun.



Makalah 1: GloVe: Vektor Global untuk Representasi Kata

  • Penulis: Jeffrey Pennington, Richard Socher, Christopher D. Manning
  • Institusi: Universitas Stanford
  • Tautan makalah: https://aclanthology.org/D14-1162.pdf

Pendahuluan: Metode untuk mempelajari representasi ruang vektor dari kata-kata telah berhasil menangkap aturan semantik dan sintaksis yang terperinci menggunakan aritmatika vektor, tetapi aturan sintaksis masih buram. Studi ini menganalisis dan mengklarifikasi properti apa saja yang perlu dimiliki model agar aturan sintaksis muncul dalam vektor kata.

Studi ini mengusulkan model regresi linier logaritmik global baru - GloVe, yang dirancang untuk mempelajari representasi vektor kata-kata. Model ini menggabungkan keunggulan metode faktorisasi matriks global dan jendela konteks lokal.

GloVe mencapai performa terbaik sebesar 75% pada tugas analogi kata dan mengungguli model terkait pada tugas kesamaan kata dan pengenalan entitas bernama.

Alasan pemberian penghargaan: Penyematan kata adalah landasan metode pembelajaran mendalam untuk pemrosesan bahasa alami (NLP) dari tahun 2013 hingga 2018 dan terus memberikan pengaruh yang signifikan. Mereka tidak hanya meningkatkan kinerja tugas-tugas NLP, tetapi juga memiliki dampak yang signifikan pada semantik komputasi, seperti kesamaan kata dan analogi. Dua metode penyematan kata yang paling berpengaruh mungkin adalah skip-gram/CBOW dan GloVe. Dibandingkan dengan skip-gram, GloVe diusulkan lebih belakangan. Keuntungan relatifnya terletak pada kesederhanaan konseptualnya, mengoptimalkan kesamaan ruang vektor secara langsung berdasarkan karakteristik distribusi antar kata, bukan secara tidak langsung sebagai sekumpulan parameter dari perspektif pemodelan bahasa yang disederhanakan.





Makalah 2: Ukuran Kesamaan Distribusi

  • Pengarang: Lilian Lee
  • Institusi: Universitas Cornell
  • Tautan makalah: https://aclanthology.org/P99-1004.pdf

Pendahuluan makalah: Penulis mempelajari ukuran kesamaan distribusi dengan tujuan meningkatkan perkiraan probabilitas peristiwa kejadian bersamaan yang tidak terlihat. Kontribusi mereka ada tiga: perbandingan empiris dari berbagai ukuran; klasifikasi fungsi kesamaan berdasarkan informasi yang dikandungnya; dan pengenalan fungsi baru yang lebih unggul dalam menilai distribusi agen yang mendasarinya.



Penghargaan Prestasi Seumur Hidup

Penghargaan Prestasi Seumur Hidup ACL diberikan kepada Ralph Grishman. Ralph Grishman adalah profesor di Departemen Ilmu Komputer di Universitas New York, dengan fokus penelitian di bidang pemrosesan bahasa alami (NLP). Dia adalah pendiri Proyek Proteus, yang telah memberikan kontribusi signifikan terhadap ekstraksi informasi (IE) dan mendorong pengembangan bidang tersebut.



Dia juga mengembangkan Java Extraction Toolkit (JET), alat ekstraksi informasi yang banyak digunakan yang menyediakan berbagai komponen analisis bahasa seperti segmentasi kalimat, anotasi entitas bernama, anotasi dan normalisasi ekspresi temporal, penandaan part-of-speech, parsing bagian, dan co- analisis. Mengacu pada analisis. Komponen-komponen ini dapat digabungkan ke dalam saluran sesuai dengan aplikasi yang berbeda, yang dapat digunakan untuk analisis interaktif kalimat tunggal atau analisis batch seluruh dokumen. Selain itu, JET menyediakan alat sederhana untuk anotasi dan tampilan dokumen, dan mencakup proses lengkap untuk mengekstrak entitas, hubungan, dan peristiwa sesuai dengan spesifikasi ACE (Automatic Content Extraction).

Karya Profesor Grishman mencakup berbagai isu inti dalam NLP dan memiliki dampak besar pada teknologi pemrosesan bahasa modern.

35 makalah yang beredar

  • Makalah 1: Penyetelan Sisi Terkuantisasi: Penyetelan Model Bahasa Besar Terkuantisasi yang Cepat dan Hemat Memori
  • Pemain:Zhengxin Zhang, Dan Zhao, Xupeng Miao, Gabriele Oliaro, Zhihao Zhang, Qing Li, Yong Jiang, Zhihao Jia
  • Institusi: CMU, Universitas Tsinghua, Laboratorium Pengcheng, dll.
  • Tautan makalah: https://arxiv.org/pdf/2401.07159
  • Makalah 2: L-Eval: Melembagakan Evaluasi Standar untuk Model Bahasa Konteks Panjang
  • 作者:Chenxin An, Shansan Gong, Ming Zhong, Xingjian Zhao, Mukai Li, Jun Zhang, Lingpeng Kong, Xipeng Qiu
  • Institusi: Universitas Fudan, Universitas Hong Kong, Universitas Illinois di Urbana-Champaign, Shanghai AI Lab
  • Tautan makalah: https://arxiv.org/abs/2307.11088
  • Makalah 3: Pembelajaran Aktif Berpanduan Kausal untuk Debiasing Model Bahasa Besar
  • Tautan makalah: https://openreview.net/forum?id=idp_1Q6F-lC
  • Makalah 4: CausalGym: Membandingkan metode interpretasi kausal pada tugas-tugas linguistik
  • Penulis: Aryaman Arora, Dan Jurafsky, Christopher Potts
  • Institusi: Universitas Stanford
  • Tautan makalah: https://arxiv.org/abs/2402.12560
  • Makalah 5: Jangan Berhalusinasi, Abstain: Mengidentifikasi Kesenjangan Pengetahuan LLM melalui Kolaborasi Multi-LLM
  • Pemain:Shangbin Feng, Weijia Shi, Yike Wang, Wenxuan Ding, Vidhisha Balachandran, Yulia Tsvetkov
  • Institusi: Universitas Washington, Universitas California, Berkeley, Universitas Sains dan Teknologi Hong Kong, CMU
  • Tautan makalah: https://arxiv.org/abs/2402.00367
  • Pelajaran 6: Penerjemahan Ucapan dengan Model Fondasi Ucapan dan Model Bahasa Besar: Apa yang Ada dan Apa yang Hilang?
  • Penulis: Marco Gaido, Sara Papi, Matteo Negri, Luisa Bentivogli
  • Institusi: Bruno Kessler Foundation, Italia
  • Tautan makalah: https://arxiv.org/abs/2402.12025
  • Makalah 7: Haruskah NLP Menjadi Ekstraktif?
  • Pengarang: Steven Bird
  • Institusi: Universitas Charles Darwin
  • Tautan kertas: https://drive.google.com/file/d/1hvF7_WQrou6CWZydhymYFTYHnd3ZIljV/view
  • Makalah 8: IRCoder: Representasi Menengah Membuat Model Bahasa Menjadi Generator Kode Multibahasa yang Kuat
  • Penulis: Indraneil Paul, Goran Glavaš, Iryna Gurevych
  • Institusi: Universitas Teknik Darmstadt, dll.
  • Tautan makalah: https://arxiv.org/abs/2403.03894
  • Makalah 9: MultiLegalPile: Korpus Hukum Multibahasa 689GB
  • Penulis: Matthias Stürmer, Veton Matoshi, dll.
  • Institusi: Universitas Bern, Universitas Stanford, dll.
  • Tautan makalah: https://arxiv.org/pdf/2306.02069
  • Bab 10: PsySafe: Kerangka Kerja Komprehensif untuk Serangan, Pertahanan, dan Evaluasi Berbasis Psikologis terhadap Keamanan Sistem Multi-agen
  • Contoh: Zaibin Zhang, Yongting Zhang, Lijun Li, Hongzhi Gao, Lijun Wang, Huchuan Lu, Feng Zhao, Yu Qiao, Jing Shao
  • Institusi: Laboratorium Kecerdasan Buatan Shanghai, Universitas Teknologi Dalian, Universitas Sains dan Teknologi Tiongkok
  • Tautan makalah: https://arxiv.org/pdf/2401.11880
  • Topik 11: Bisakah Model Bahasa Besar Menjadi Pendukung Emosional yang Baik? Mengurangi Bias Preferensi pada Percakapan Dukungan Emosional
  • Penulis: Dongjin Kang, Sunghwan Kim, dll.
  • Institusi: Universitas Yonsei, dll.
  • Tautan makalah: https://arxiv.org/pdf/2402.13211
  • Topik 12: Kompas Politik atau Panah Berputar? Menuju Evaluasi yang Lebih Bermakna untuk Nilai dan Opini dalam Model Bahasa yang Luas
  • Penulis: Paul Röttger, Valentin Hofmann, dll.
  • Institusi: Universitas Bocconi, Institut Kecerdasan Buatan Allen, dll.
  • Tautan makalah: https://arxiv.org/pdf/2402.16786
  • Makalah 13: Tugas yang Sama, Lebih Banyak Token: Dampak Panjang Input pada Kinerja Penalaran Model Bahasa Besar
  • Penulis: Mosh Levy, Alon Jacoby, Yoav Goldberg
  • Institusi: Universitas Bar-Ilan, Institut Kecerdasan Buatan Allen
  • Tautan makalah: https://arxiv.org/pdf/2402.14848
  • Makalah 14: Apakah Llama Bekerja dalam Bahasa Inggris? Pada Bahasa Laten Transformers Multibahasa
  • Penulis: Chris Wendler, Veniamin Veselovsky, dll.
  • Institusi: Ecole Polytechnique Fédérale de Lausanne
  • Tautan makalah: https://arxiv.org/pdf/2402.10588
  • Makalah 15: Menjadi Serius tentang Humor: Menyusun Kumpulan Data Humor dengan Model Bahasa Besar yang Tidak Lucu
  • Penulis: Zachary Horvitz, Jingru Chen, dll.
  • Institusi: Universitas Columbia, Ecole Polytechnique Fédérale de Lausanne
  • Tautan makalah: https://arxiv.org/pdf/2403.00794
  • Makalah 16: Memperkirakan Tingkat Dialek Memprediksi Kesepakatan Antar-annotator dalam Kumpulan Data Arab Multi-dialek
  • Penulis: Amr Keleg, Walid Magdy, Sharon Goldwater
  • Institusi: Universitas Edinburgh
  • Tautan makalah: https://arxiv.org/pdf/2405.11282
  • Makalah 17: G-DlG: Menuju Dlverse Berbasis Gradien dan Pemilihan Data Instruksi Berkualitas Tinggi untuk Terjemahan Mesin
  • Nama: Xingyuan Pan, Luyang Huang, Liyan Kang, Zhicheng Liu, Yu Lu, Shanbo Cheng
  • Organisasi: Penelitian ByteDance
  • Tautan makalah: https://arxiv.org/pdf/2405.12915
  • Makalah 18: Pembingkaian Media: Tipologi dan Survei Pendekatan Komputasi Lintas Disiplin
  • Penulis: Yulia Otmakhova, Shima Khanehzar, Lea Frermann
  • Tautan makalah: https://openreview.net/pdf?id=9AV_zM56pwj
  • Makalah 19: SPZ: Metode Augmentasi Data Berbasis Perturbasi Semantik dengan Zonal-Mixing untuk Deteksi Penyakit Alzheimer
  • Penulis: FangFang Li, Cheng Huang, PuZhen Su, Jie Yin
  • Makalah 20: Yang Anda Butuhkan hanyalah Keserakahan: Evaluasi Metode Inferensi Tokenizer
  • Institusi: Universitas Ben-Gurion Negev, MIT
  • Penulis: Omri Uzan, Craig W.Schmidt, Chris Tanner, Yuval Pinter
  • Tautan makalah: https://arxiv.org/abs/2403.01289
  • Topik 21: Kompleksitas Bahasa dan Akurasi Pengenalan Ucapan: Kompleksitas Ortografis Merugikan, Kompleksitas Fonologis Tidak
  • Institusi: Universitas Notre Dame (AS)
  • Penulis: Chihiro Taquchi, David Chiang
  • Tautan makalah: https://arxiv.org/abs/2406.09202
  • Makalah 22: Mengarahkan Llama 2 melalui Penambahan Aktivasi Kontrastif
  • Institusi: Antropik, Universitas Harvard, Universitas Göttingen (Jerman), Pusat AI yang Kompatibel dengan Manusia
  • Pemain: Nina Rimsky, Nick Gabrieli, Julian Schulz, Meg Tong, Evan J Hubinger, Alexander Matt Turner
  • Tautan makalah: https://arxiv.org/abs/2312.06681
  • Makalah 23: EconAgent: Agen yang Diberdayakan Model Bahasa Besar untuk Mensimulasikan Aktivitas Makroekonomi
  • Institusi: Universitas Tsinghua-Sekolah Pascasarjana Internasional Shenzhen, Universitas Tsinghua
  • Penulis: Nian Li, Chen Gao, Mingyu Li, Yong Li, Qingmin Liao
  • Tautan makalah: https://arxiv.org/abs/2310.10436
  • Edisi 24: M4LE: Tolok Ukur Evaluasi Konteks Panjang Multi-Kemampuan, Multi-Jangkauan, Multi-Tugas, Multi-Domain untuk Model Bahasa Besar
  • Institusi: Chinese University of Hong Kong, Laboratorium Bahtera Nuh Huawei, Universitas Sains dan Teknologi Hong Kong
  • Nama:Wai-Chung Kwan、Xingshan Zeng、Yufei Wang、Yusen Sun、Liangyou Li、Lifeng Shang、Qun Liu、Kam-Fai Wong
  • Tautan makalah: https://arxiv.org/abs/2310.19240
  • Makalah 25: CHECKWHY: Verifikasi Fakta Kausal melalui Struktur Argumen
  • Contoh: Jiasheng Si, Yibo Zhao, Yingjie Zhu, Haiyang Zhu, Wenpeng Lu, Deyu Zhou
  • Makalah 26: Tentang Estimasi Kualitas Statistik dan Efisien untuk Anotasi Data
  • Pemain: Jan-Christoph Klie, Juan Haladjian, Marc Kirchner, Rahul Nair
  • Institusi: Lab UKP, TU Darmstadt, Apple
  • Tautan makalah: https://arxiv.org/pdf/2405.11919
  • Makalah 27: Ketidakselarasan yang Ditiru: Penyelarasan Keamanan untuk Model Bahasa Besar Mungkin Menjadi Bumerang!
  • Pemain:Zhanhui Zhou, Jie Liu, Zhichen Dong, Jiaheng Liu, Chao Yang, Wanli Ouyang, Yu Qiao
  • Organisasi: Laboratorium Kecerdasan Buatan Shanghai
  • Tautan makalah: https://arxiv.org/pdf/2402.12343
  • Makalah 28: IndicLLMSuite: Cetak Biru untuk Membuat Kumpulan Data Pra-pelatihan dan Penyempurnaan untuk Bahasa India
  • Penulis: Mohammed Safi Ur Rahman Khan, Priyam Mehta, Ananth Sankar, dll.
  • Institusi: Nilekani Center di AI4Bharat, Institut Teknologi India (Madras), Microsoft, dll.
  • Tautan makalah: https://arxiv.org/pdf/2403.06350
  • Makalah 29: MultiPICo: Perspektivis Multibahasa lrony Corpus
  • Penulis: Silvia Casola, Simona Frenda, Soda Marem Lo, Erhan Sezerer, dll.
  • Institusi: Universitas Turin, aequa-tech, Amazon Development Center (Italia), dll.
  • Catatan:https://assets.amazon.science/08/83/9b686f424c89b08e8fa0a6e1d020/multipico-multilingual-perspectivist-irony-corpus.pdf
  • Makalah 30: MMToM-QA: Teori Multimodal Menjawab Pertanyaan Pikiran
  • Penulis: Chuanyang Jin, Yutong Wu, Jing Cao, jiannan Xiang, dll.
  • Institusi: Universitas New York, Universitas Harvard, MIT, Universitas California, San Diego, Universitas Virginia, Universitas Johns Hopkins
  • Tautan makalah: https://arxiv.org/pdf/2401.08743
  • Makalah 31: MAP belum mati: Mengungkap mode model bahasa yang sebenarnya dengan mengkondisikan degenerasi
  • Pengarang: Davis Yoshida, Kartik Goyal, Kevin Gimpel
  • Institusi: Institut Teknologi Toyota Chicago, Institut Teknologi Georgia
  • Tautan makalah: https://arxiv.org/pdf/2311.08817
  • Makalah 32: NounAtlas: Mengisi Kesenjangan dalam Pelabelan Peran Semantik Nominal
  • Penulis: Roberto Navigli, Marco Lo Pinto, Pasquale Silvestri, dll.
  • Makalah 33: Bumi Itu Datar karena.. Menyelidiki Keyakinan LLM terhadap Misinformasi melalui PersuasiveConversation
  • Penulis: Rongwu Xu, Brian S. Lin, Shujian Yang, Tiangi Zhang, dll.
  • Institusi: Universitas Tsinghua, Universitas Shanghai Jiao Tong, Universitas Stanford, Universitas Teknologi Nanyang
  • Tautan makalah: https://arxiv.org/pdf/2312.09085
  • Makalah 34: Ayo Bicara Nyata: Model Dialog Lisan untuk Percakapan Tatap Muka
  • Penulis: Se Jin Park, Chae Won Kim, Hyeongseop Rha, Minsu Kim, dll.
  • Institusi: Institut Sains dan Teknologi Lanjutan Korea (KAIST)
  • Tautan makalah: https://arxiv.org/pdf/2406.07867
  • Makalah 35: Penyematan Kata Adalah Pengarah Model Bahasa
  • Pemain: Chi Han, Jialiang Xu, Manling Li, Yi Fung, Chenkai Sun, Nan Jiang, Tarek F. Abdelzaher, Heng Ji
  • Institusi: Universitas Illinois di Urbana-Champaign
  • Tautan makalah: https://arxiv.org/pdf/2305.12798

Penghargaan Kertas Tema Terbaik



Tesis: OLMo: Akselerasi Ilmu Model Bahasa

  • Penulis: Dirk Groeneveld, Iz Beltagy, dll.
  • Institusi: Institut Allen untuk Kecerdasan Buatan, Universitas Washington, dll.
  • Tautan makalah: https://arxiv.org/pdf/2402.00838

Kutipan: Pekerjaan ini merupakan langkah penting menuju transparansi dan reproduktifitas dalam pelatihan model bahasa besar, sebuah langkah maju dalam upaya komunitas untuk membuat kemajuan (atau setidaknya untuk memungkinkan peneliti lain yang bukan raksasa industri untuk berkontribusi. Sangat diperlukan).

Penghargaan Makalah Sumber Daya

3 makalah memenangkan Resource Paper Award.

Makalah 1: Latxa: Model Bahasa Terbuka dan Rangkaian Evaluasi untuk Basque

Institusi: Universitas Basque Country, Spanyol

  • Pemain: Julen Etxaniz, Oscar Sainz, Naiara Perez, Itziar Aldabe, German Rigau, Eneko Agirre, Aitor Ormazabal, Mikel Artetxe, Aitor Soroa
  • Tautan: https://arxiv.org/pdf/2403.20266

Alasan pemberian penghargaan: Makalah ini menjelaskan secara rinci rincian pengumpulan korpus dan evaluasi kumpulan data. Meskipun relevan dengan penelitian bahasa Basque, metodologi ini dapat diperluas ke konstruksi model besar untuk bahasa sumber daya rendah lainnya.

Makalah 2: Dolma: Korpus Terbuka Tiga Triliun Token untuk Penelitian Pra-Pelatihan Model Bahasa

  • Institusi: Institut Allen untuk Kecerdasan Buatan, Universitas California, Berkeley, dll.
  • Penulis: Luca Soldaini, Rodney Kinney, dll.
  • Tautan: https://arxiv.org/abs/2402.00159

Alasan penghargaan: Makalah ini menunjukkan pentingnya pengelolaan data saat menyiapkan kumpulan data untuk melatih model bahasa besar. Hal ini memberikan wawasan yang sangat berharga bagi banyak orang di masyarakat.

Makalah 3: AppWorld: Dunia Aplikasi dan Orang yang Dapat Dikontrol untuk Membandingkan Agen Pengkodean Interaktif

  • Institusi: Universitas Negeri New York di Stony Brook, Institut Kecerdasan Buatan Allen, dll.
  • Penulis: Harsh Trivedi, Tushar Khot, dll.
  • Tautan: https://arxiv.org/abs/2407.18901

Alasan pemberian penghargaan: Penelitian ini merupakan karya yang sangat penting dan menakjubkan dalam membangun simulasi dan evaluasi lingkungan interaktif. Hal ini akan mendorong semua orang untuk menghasilkan tolok ukur dinamis yang lebih mendasar bagi masyarakat.

Penghargaan Dampak Sosial

3 makalah memenangkan Social Impact Award.

Bab 1: Bagaimana Johnny Dapat Membujuk LLM untuk Melakukan Jailbreak: Memikirkan Kembali Persuasi untuk Menantang Keamanan AI dengan Memanusiakan LLM

  • Penulis: Yi Zeng, Hongpeng Lin, Jingwen Zhang, Diyi Yang, dll.
  • Institusi: Virginia Tech, Universitas Renmin Cina, Universitas California, Davis, Universitas Stanford
  • Tautan makalah: https://arxiv.org/pdf/2401.06373

Alasan penghargaan: Artikel ini membahas topik keamanan AI - jailbreaking, mempelajari metode yang dikembangkan dalam bidang penelitian ilmu sosial. Penelitian tersebut sangat menarik dan berpotensi memberikan dampak signifikan bagi masyarakat.

Makalah 2: DIALECTBENCH: Tolok Ukur NLP untuk Dialek, Variasi, dan Bahasa yang Berhubungan Dekat

  • Penulis: Fahim Faisal, Orevaoghene Ahia, Aarohi Srivastava, Kabir Ahuja, dll.
  • Institusi: Universitas George Mason, Universitas Washington, Universitas Notre Dame, RC Athena
  • Tautan makalah: https://arxiv.org/pdf/2403.11009

Alasan pemberian penghargaan: Variasi dialek adalah fenomena yang belum banyak dipelajari di bidang NLP dan kecerdasan buatan. Namun, dari sudut pandang bahasa dan masyarakat, penelitiannya mempunyai nilai yang sangat tinggi dan mempunyai implikasi penting bagi penerapannya. Makalah ini mengusulkan tolok ukur yang sangat baru untuk mempelajari masalah ini di era LLM.

Makalah 3: Minum Bir Setelah Sholat? Mengukur Bias Budaya dalam Model Bahasa Besar

  • Penulis: Tarek Naous, Michael J. Ryan, Alan Ritter, Wei Xu
  • Institusi: Institut Teknologi Georgia
  • Tautan makalah: https://arxiv.org/pdf/2305.14456

Alasan pemberian penghargaan: Artikel ini menunjukkan isu penting di era LLM: bias budaya. Makalah ini mempelajari budaya Arab dan lingkungan bahasa dan hasilnya menunjukkan bahwa kita perlu mempertimbangkan perbedaan budaya ketika merancang LLM. Oleh karena itu, penelitian yang sama dapat direplikasi di budaya lain untuk menggeneralisasi dan menilai apakah budaya lain juga terkena dampak masalah ini.