Universitas Tsinghua memenangkan Penghargaan Pengujian Waktu Kertas Terbaik, Universitas Shandong menerima Penghargaan Terhormat, dan SIGIR 2024 dirilis

2024-07-18

Laporan Jantung Mesin

Editor: Xiao Zhou, Chen Chen

Hasil Universitas Tsinghua luar biasa.

Konferensi Asosiasi Mesin Komputasi tentang Pengambilan Informasi (ACM SIGIR) ke-47 akan diadakan di Washington, DC, AS pada tanggal 14 hingga 18 Juli 2024. Konferensi ini merupakan konferensi akademis terbaik di bidang temu kembali informasi.

Baru saja, konferensi tersebut mengumumkan Penghargaan Makalah Terbaik, Pemenang Kedua Makalah Terbaik, Penghargaan Penghargaan Kertas Terbaik, dan Penghargaan Tes Waktu.

Diantaranya, Universitas Tsinghua, Sekolah Kecerdasan Buatan Hillhouse di Universitas Renmin Tiongkok, dan tim Xiaohongshu memenangkan makalah terbaik; peneliti dari Universitas Glasgow dan Universitas Pisa memenangkan penghargaan kedua; makalah diberikan kepada Universitas Shandong (Qingdao), Universitas Leiden, dan Universitas Amsterdam; Time Test Award diberikan kepada para peneliti dari Universitas Tsinghua dan Universitas California, Santa Cruz.

Selanjutnya, mari kita lihat konten spesifik dari makalah pemenang.

kertas terbaik

Tesis: Hukum Penskalaan Untuk Pengambilan Padat

Penulis makalah: Fang Yan, Jingtao Zhan, Ai Qingyao, Mao Jiaxin, Weihang Su, Jia Chen, Liu Yiqun

Institusi: Universitas Tsinghua, Sekolah Kecerdasan Buatan Hillhouse di Universitas Renmin Tiongkok, Xiaohongshu

Tautan makalah: https://dl.acm.org/doi/abs/10.1145/3626772.3657743

Pengantar makalah : Para peneliti telah mengamati hukum penskalaan di berbagai tugas, terutama generasi bahasa. Penelitian menunjukkan bahwa performa model bahasa besar mengikuti pola yang dapat diprediksi di seluruh ukuran model dan kumpulan data, sehingga membantu dalam merancang strategi pelatihan secara efektif dan efisien, terutama karena pelatihan berskala besar menjadi semakin intensif sumber daya. Namun, dalam pengambilan padat, hukum ekspansi belum sepenuhnya dieksplorasi.

Studi ini mengeksplorasi bagaimana penskalaan mempengaruhi kinerja model pengambilan padat. Secara khusus, tim peneliti menerapkan model pengambilan padat dengan jumlah parameter berbeda dan melatihnya menggunakan jumlah data beranotasi berbeda. Penelitian ini menggunakan entropi kontrastif sebagai metrik evaluasi. Dibandingkan dengan metrik peringkat diskrit, entropi kontrastif bersifat kontinu sehingga dapat mencerminkan kinerja model secara akurat.

Hasil eksperimen menunjukkan bahwa performa model pengambilan padat mengikuti penskalaan hukum pangkat yang tepat dengan ukuran model serta jumlah anotasi.

Selain itu, penelitian ini juga menunjukkan bahwa undang-undang penskalaan membantu mengoptimalkan proses pelatihan, seperti memecahkan masalah alokasi sumber daya dalam keterbatasan anggaran.

Studi ini berkontribusi besar dalam memahami efek penskalaan model pengambilan padat dan memberikan panduan yang berarti untuk penelitian di masa depan.

Juara Kedua untuk Makalah Terbaik

Juara kedua makalah terbaik ACM SIGIR tahun ini diberikan kepada makalah "A Reproducibility Study of PLAID". Penulis makalah ini termasuk Sean MacAvaney dari Universitas Glasgow dan Nicola Tonellotto dari Universitas Pisa.

Alamat makalah: https://arxiv.org/pdf/2404.14989

Abstrak kertas : Algoritme PLAID ColBERTv2 menggunakan representasi istilah berkerumun untuk mengambil dan memangkas dokumen secara progresif untuk mendapatkan skor akhir dokumen. Artikel ini mereproduksi dan mengisi kekosongan yang hilang dalam teks aslinya. Dengan mempelajari parameter yang diperkenalkan oleh PLAID, peneliti menemukan bahwa batas Pareto dibentuk oleh keseimbangan antara tiga parameter. Penyimpangan dari pengaturan yang direkomendasikan dapat meningkatkan latensi secara signifikan tanpa harus meningkatkan efektivitasnya.

Berdasarkan temuan ini, makalah ini membandingkan PLAID dengan landasan penting yang hilang dari makalah ini: menata ulang sistem leksikal. Ditemukan bahwa penerapan ColBERTv2 sebagai penataan ulang di atas kumpulan hasil awal BM25 memberikan pertukaran efisiensi-efektivitas yang lebih baik dalam pengaturan latensi rendah. Pekerjaan ini menyoroti pentingnya pemilihan garis dasar yang relevan secara cermat ketika mengevaluasi efisiensi mesin pengambilan.

Penghargaan Penghargaan Terhormat Makalah Terbaik

Penghargaan honorable mention untuk makalah terbaik pada konferensi ini diraih oleh para peneliti dari Universitas Shandong (Qingdao), Universitas Leiden, dan Universitas Amsterdam. Makalah pemenangnya adalah "Generative Retrieval as Multi-Vector Dense Retrieval".

Penulis makalah: Wu Shiguang, Wei Wenda, Zhang Mengqi, Chen Zhumin, Ma Jun, Ren Zhaochun, Maarten de Rijke, Ren Pengjie

Alamat makalah: https://arxiv.org/pdf/2404.00684

Abstrak kertas : Makalah ini mengukur relevansi kueri dokumen dengan menunjukkan bahwa pengambilan generatif dan pengambilan padat multi-vektor memiliki kerangka kerja yang sama. Secara khusus, mereka mempelajari lapisan perhatian dan kepala prediksi pengambilan generatif, mengungkapkan bahwa pengambilan generatif dapat dipahami sebagai kasus khusus pengambilan padat multi-vektor. Kedua metode menghitung korelasi dengan menghitung jumlah produk vektor kueri dan vektor dokumen dengan matriks penyelarasan.

Para peneliti kemudian mengeksplorasi bagaimana kerangka kerja ini dapat diterapkan dalam pengambilan generatif, menggunakan strategi berbeda untuk menghitung vektor token dokumen dan matriks penyelarasan. Eksperimen dilakukan untuk memverifikasi kesimpulan, menunjukkan bahwa kedua paradigma menunjukkan kesamaan dalam pencocokan istilah dalam matriks penyelarasannya.

Penghargaan yang Telah Teruji Waktu

Penghargaan Tes Waktu ACM SIGIR tahun ini diberikan kepada penelitian tentang rekomendasi yang dapat dijelaskan yang diterbitkan di SIGIR 2014 10 tahun yang lalu. Makalahnya berjudul "Model Faktor Eksplisit untuk Rekomendasi yang Dapat Dijelaskan berdasarkan Analisis Sentimen Tingkat Frasa".

Penulis makalah: Zhang Yongfeng, Lai Guokun, Zhang Min, Yi Zhang, Liu Yiqun, Ma Shaoping

Institusi: Universitas Tsinghua, Universitas California, Santa Cruz

Tautan makalah: https://www.cs.cmu.edu/~glai1/papers/yongfeng-guokun-sigir14.pdf

Penelitian ini untuk pertama kalinya mendefinisikan masalah "rekomendasi yang dapat ditafsirkan", dan mengusulkan metode analisis sentimen yang sesuai untuk mengatasi tantangan teknis ini, dan telah memainkan peran utama dalam bidang terkait.

Abstrak kertas : Algoritme rekomendasi berbasis pemfilteran kolaboratif (CF), seperti model faktor laten (LFM), berkinerja baik dalam hal akurasi prediksi. Namun, karakteristik yang mendasarinya membuat sulit untuk menjelaskan hasil rekomendasi kepada pengguna.

Untungnya, seiring dengan berkembangnya ulasan pengguna online, informasi yang tersedia untuk sistem pemberi rekomendasi pelatihan tidak lagi terbatas pada peringkat bintang numerik atau karakteristik pengguna/item. Dengan mengekstraksi opini eksplisit pengguna tentang berbagai aspek suatu produk dari ulasan, pemahaman yang lebih mendetail tentang apa yang menjadi perhatian pengguna dapat diperoleh, yang selanjutnya membuka kemungkinan untuk membuat rekomendasi yang dapat dijelaskan.

Makalah ini mengusulkan EFM (Explicit Factor Model) untuk menghasilkan rekomendasi yang dapat ditafsirkan dengan tetap menjaga akurasi prediksi yang tinggi.

Para peneliti pertama-tama mengekstrak fitur produk eksplisit dan opini pengguna dengan melakukan analisis sentimen tingkat frase pada ulasan pengguna, dan kemudian menghasilkan rekomendasi dan penolakan berdasarkan fitur produk tertentu yang menarik minat pengguna dan fitur laten yang dipelajari. Selain itu, penjelasan tingkat fitur intuitif tentang alasan suatu item direkomendasikan atau tidak direkomendasikan dihasilkan dari model.

Hasil eksperimen offline pada beberapa kumpulan data dunia nyata menunjukkan bahwa kerangka kerja yang diusulkan dalam penelitian ini mengungguli algoritme dasar yang bersaing dalam tugas prediksi peringkat dan rekomendasi K teratas. Eksperimen online menunjukkan bahwa penjelasan mendetail membuat rekomendasi dan non-rekomendasi lebih berpengaruh terhadap perilaku pembelian pengguna.

Penghargaan Cendekiawan Muda

Penghargaan Cendekiawan Muda ACM SIGIR bertujuan untuk memberi penghargaan kepada para peneliti yang telah memainkan peran penting dalam penelitian pencarian informasi, pembangunan komunitas sarjana, dan promosi kesetaraan akademik. Penghargaan ini wajib diberikan kepada peneliti muda yang telah menerima gelar doktor dalam waktu 7 tahun. Ai Qingyao, asisten profesor dari Departemen Ilmu Komputer Universitas Tsinghua, dan Wang Xiang, seorang profesor dan pembimbing doktoral dari Sekolah Keamanan Cyberspace dan Sekolah Big Data Universitas Sains dan Teknologi Tiongkok, memenangkan SIGIR 2024 Young Penghargaan Cendekiawan.

Ai Qingyao

Ai Qingyao adalah asisten profesor di Departemen Ilmu Komputer di Universitas Tsinghua. Bidang penelitian utamanya berfokus pada pengambilan informasi, pembelajaran mesin, dan pemrosesan bahasa alami. Arah penelitian utama adalah penelitian dan desain sistem pengambilan informasi cerdas, termasuk pembelajaran representasi informasi, teori optimasi peringkat, dan penerapan model bahasa besar dalam pencarian dan rekomendasi Internet serta keadilan cerdas.

Wang Xiang

Wang Xiang adalah profesor dan pembimbing doktoral di School of Cyberspace Security dan School of Big Data di University of Science and Technology of China. Minat penelitian Profesor Wang Xiang mencakup pengambilan informasi, penambangan data, dan kecerdasan buatan yang dapat dipercaya dan dapat dijelaskan, terutama sistem rekomendasi, pembelajaran grafik, dan analisis media sosial.

berita

Universitas Tsinghua memenangkan Penghargaan Pengujian Waktu Kertas Terbaik, Universitas Shandong menerima Penghargaan Terhormat, dan SIGIR 2024 dirilis

Perkenalan

informasi kontak saya