berita

Kerangka evaluasi model multimodal lmms-eval dirilis! Cakupan komprehensif, biaya rendah, tanpa polusi

2024-08-21

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Kolom AIxiv adalah kolom tempat Machine Heart menerbitkan konten akademis dan teknis. Dalam beberapa tahun terakhir, kolom Heart of the Machine AIxiv telah menerima lebih dari 2.000 laporan, mencakup laboratorium terkemuka dari universitas dan perusahaan besar di seluruh dunia, yang secara efektif mendorong pertukaran dan diseminasi akademis. Jika Anda memiliki karya luar biasa yang ingin Anda bagikan, silakan berkontribusi atau hubungi kami untuk pelaporan.Email pengiriman: [email protected]; [email protected]

bersama denganmodelnya besarDengan semakin dalamnya penelitian, bagaimana memperluasnya ke lebih banyak modalitas telah menjadi topik hangat di dunia akademis dan industri. Baru-baru ini merilis model besar sumber tertutup seperti GPT-4oClaude 3.5 dan lainnya sudah memiliki kemampuan pemahaman gambar yang super, dan model domain sumber terbuka seperti LLaVA-NeXT, MiniCPM, dan InternVL juga telah menunjukkan kinerja yang semakin mendekati sumber tertutup.


Di era “80.000 kilogram per mu” dan “satu SoTA setiap 10 hari”, kerangka penilaian multi-modal yang mudah digunakan, memiliki standar transparan dan dapat direproduksi menjadi semakin penting, dan ini tidak mudah.


Untuk mengatasi masalah di atas, para peneliti dari LMMs-Lab Universitas Teknologi Nanyang bersama-sama melakukan open source LMMs-Eval, yang merupakan kerangka evaluasi yang dirancang khusus untuk model multi-modal skala besar dan menyediakan metode untuk evaluasi model multi-modal (LMM).


  • Repositori kode: https://github.com/EvolvingLMMs-Lab/lmms-eval

  • Beranda resmi: https://lmms-lab.github.io/

  • Alamat makalah: https://arxiv.org/abs/2407.12772

  • Alamat daftar: https://huggingface.co/spaces/lmms-lab/LiveBench


Sejak dirilis pada Maret 2024, framework LMMs-Eval telah menerima kontribusi kolaboratif dari banyak pihak termasuk komunitas open source, perusahaan, dan universitas. Kini telah memperoleh 1,1 Ribu Bintang di Github, dengan lebih dari 30+ kontributor, termasuk total lebih dari 80 kumpulan data dan lebih dari 10 model, dan masih terus berkembang.

 

Kerangka penilaian standar


Untuk menyediakan platform evaluasi standar, LMMs-Eval mencakup beberapa fitur berikut:


  1. Antarmuka terpadu: LMMs-Eval ditingkatkan dan diperluas berdasarkan kerangka evaluasi teks lm-evaluation-harness. Dengan mendefinisikan antarmuka terpadu untuk model, kumpulan data, dan indikator evaluasi, akan lebih mudah bagi pengguna untuk menambahkan model dan data multi-modal baru mengatur.

  2. Peluncuran sekali klik: LMMs-Eval menampung lebih dari 80 (dan terus bertambah) kumpulan data di HuggingFace, yang diubah secara cermat dari sumber aslinya, termasuk semua varian, versi, dan pemisahan. Pengguna tidak perlu melakukan persiapan apa pun. Hanya dengan satu perintah, beberapa kumpulan data dan model akan diunduh dan diuji secara otomatis, dan hasilnya akan tersedia dalam beberapa menit.

  3. Transparan dan dapat direproduksi: LMMs-Eval memiliki alat logging terpadu yang terintegrasi. Setiap pertanyaan yang dijawab oleh model dan benar atau tidaknya akan dicatat, memastikan reproduktifitas dan transparansi. Hal ini juga memfasilitasi perbandingan kelebihan dan kekurangan model yang berbeda.


Visi LMMs-Eval adalah model multimodal masa depan tidak lagi memerlukan penulisan pemrosesan data, inferensi, dan kode penyerahannya sendiri. Dalam lingkungan saat ini di mana rangkaian tes multi-modal sangat terkonsentrasi, pendekatan ini tidak realistis, dan skor yang diukur sulit untuk dibandingkan secara langsung dengan model lain. Dengan mengakses LMMs-Eval, pelatih model dapat lebih fokus pada peningkatan dan optimalisasi model itu sendiri, dibandingkan menghabiskan waktu pada evaluasi dan penyelarasan hasil.


Evaluasi "Segitiga yang Mustahil".


Tujuan akhir LMMs-Eval adalah menemukan metode untuk mengevaluasi LMM dengan 1. cakupan luas, 2. biaya rendah, dan 3. tidak ada kebocoran data. Namun, bahkan dengan LMMs-Eval, tim penulis menemukan bahwa sulit atau bahkan tidak mungkin untuk mencapai ketiga poin ini secara bersamaan.


Seperti yang ditunjukkan pada gambar di bawah, ketika mereka memperluas kumpulan data evaluasi menjadi lebih dari 50, akan sangat memakan waktu untuk melakukan evaluasi komprehensif terhadap kumpulan data tersebut. Selain itu, tolok ukur ini juga rentan terhadap kontaminasi selama pelatihan. Untuk tujuan ini, LMMs-Eval mengusulkan LMMs-Eval-Lite untuk mempertimbangkan cakupan yang luas dan biaya yang rendah. Mereka juga merancang LiveBench agar berbiaya rendah dan tidak ada kebocoran data.

 

LMMs-Eval-Lite: Evaluasi ringan dengan cakupan luas

 

Saat mengevaluasi model besar, banyaknya parameter dan tugas pengujian sering kali meningkatkan waktu dan biaya tugas evaluasi secara tajam. Oleh karena itu, orang sering kali memilih untuk menggunakan kumpulan data yang lebih kecil atau menggunakan kumpulan data tertentu untuk evaluasi. Namun, evaluasi yang terbatas sering kali menyebabkan kurangnya pemahaman tentang kemampuan model. Untuk mempertimbangkan keragaman evaluasi dan biaya evaluasi, LMMs-Eval meluncurkan LMMs-Eval-Lite.

 

LMMs-Eval-Lite bertujuan untuk membangun kumpulan benchmark yang disederhanakan untuk memberikan sinyal yang berguna dan cepat selama pengembangan model, sehingga menghindari masalah pembengkakan pada pengujian saat ini. Jika kami dapat menemukan subset dari set pengujian yang ada yang skor absolut dan peringkat relatif antar model tetap sama dengan set lengkap, maka kami dapat mempertimbangkan untuk memangkas kumpulan data ini dengan aman.


Untuk menemukan poin-poin penting data dalam kumpulan data, LMMs-Eval pertama-tama menggunakan model CLIP dan BGE untuk mengubah kumpulan data evaluasi multi-modal menjadi bentuk penyematan vektor dan menggunakan metode pengelompokan k-greedy untuk menemukan data penting poin. Dalam pengujian, kumpulan data yang lebih kecil ini masih menunjukkan kemampuan evaluasi yang serupa dengan kumpulan data lengkap.

 

Selanjutnya, LMMs-Eval menggunakan metode yang sama untuk menghasilkan versi Lite yang mencakup lebih banyak kumpulan data. Kumpulan data ini dirancang untuk membantu orang menghemat biaya evaluasi selama pengembangan untuk menilai kinerja model dengan cepat.

 

LiveBench: Pengujian dinamis LMM

Tolok ukur tradisional berfokus pada evaluasi statis menggunakan pertanyaan dan jawaban yang tetap. Dengan kemajuan penelitian multi-modal, model sumber terbuka sering kali lebih baik dibandingkan model komersial, seperti GPT-4V, dalam perbandingan skor, namun model tersebut tertinggal dalam pengalaman pengguna sebenarnya. Chatbots Arenas dan WildVision yang dinamis dan berorientasi pengguna semakin populer untuk evaluasi model, namun memerlukan pengumpulan ribuan preferensi pengguna, sehingga evaluasi menjadi sangat mahal.


Ide inti LiveBench adalah mengevaluasi kinerja model pada kumpulan data yang terus diperbarui untuk mencapai nol kontaminasi dan menjaga biaya tetap rendah. Tim penulis mengumpulkan data penilaian dari web dan membangun saluran untuk secara otomatis mengumpulkan informasi global terkini dari situs web seperti berita dan forum komunitas. Untuk memastikan ketepatan waktu dan keaslian informasi, tim penulis memilih sumber dari lebih dari 60 media berita termasuk CNN, BBC, Asahi Shimbun Jepang dan Kantor Berita Xinhua Tiongkok, serta forum seperti Reddit. Langkah-langkah spesifiknya adalah sebagai berikut:


  1. Ambil tangkapan layar beranda Anda dan hapus iklan dan elemen non-berita.

  2. Rancang kumpulan pertanyaan dan jawaban menggunakan model multi-modal paling kuat yang tersedia saat ini, seperti GPT4-V, Claude-3-Opus, dan Gemini-1.5-Pro. Ditinjau dan direvisi oleh model lain

  3. pertanyaan untuk memastikan akurasi dan relevansi.

  4. Kumpulan pertanyaan dan jawaban terakhir ditinjau secara manual, dan sekitar 500 pertanyaan dikumpulkan setiap bulan, dan 100-300 disimpan sebagai kumpulan pertanyaan livebench terakhir.

  5. Standar penilaian LLaVA-Wilder dan Vibe-Eval digunakan--skor model penilaian berdasarkan standar jawaban yang diberikan, dan rentang skornya adalah [1, 10]. Model penilaian default adalah GPT-4o, dengan Claude-3-Opus dan Gemini 1.5 Pro juga disertakan sebagai alternatif. Hasil akhir yang dilaporkan akan didasarkan pada skor yang diubah menjadi metrik akurasi yang berkisar antara 0 hingga 100.

 

Di masa mendatang, Anda juga dapat melihat data evaluasi terbaru model multimodal yang diperbarui secara dinamis setiap bulan di daftar kami yang diperbarui secara dinamis, serta hasil evaluasi terbaru dalam daftar.