berita

Jangan menunggu open source OpenAI GPT-4o, tunggu VITA versi open source

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Laporan Jantung Mesin

Departemen Editorial Jantung Mesin

Ada kabar baik lagi di bidang open source.

Model bahasa besar (LLM) telah mengalami evolusi yang signifikan, dan baru-baru ini, kita juga menyaksikan ledakan model bahasa besar multimodal (MLLM), yang menunjukkan kemampuan multimodal yang mengejutkan.

Secara khusus, kemunculan GPT-4o telah mendorong perkembangan bidang MLLM secara signifikan. Namun, model open source yang sesuai dengan model ini masih kurang memadai. Kebutuhan mendesak akan komunitas open source untuk memajukan bidang ini tidak dapat dilebih-lebihkan.

Dalam artikel ini, peneliti dari Tencent Youtu Lab dan institusi lain mengusulkan VITA, yang merupakan model bahasa besar multi-modal (MLLM) open source pertama, yang dapat memproses dan menganalisis modalitas video, gambar, teks, dan audio secara bersamaan pada saat yang sama, ia memiliki pengalaman interaktif multimodal yang canggih.

Para peneliti menggunakan Mixtral 8×7B sebagai dasar bahasa, kemudian memperluas kosakata bahasa Mandarinnya dan menyempurnakan instruksi bilingual. Selain itu, para peneliti selanjutnya melengkapi model bahasa dengan kemampuan visual dan audio melalui pembelajaran multi-tugas dua tahap yaitu penyelarasan multi-modal dan penyesuaian instruksi.

VITA menunjukkan kemampuan pemahaman multi-bahasa, visual dan audio yang kuat, sebagaimana dibuktikan oleh kinerjanya yang sangat baik pada tolok ukur modal tunggal dan multimodal.

Selain kemampuan dasar, penelitian ini juga telah mencapai kemajuan besar dalam meningkatkan pengalaman interaksi manusia-komputer multi-modal yang alami. Sejauh pengetahuan kami, ini adalah studi pertama yang mengeksploitasi interaksi non-bangun dan interupsi audio di MLLM. Para peneliti juga merancang token status tambahan dan data pelatihan serta strategi yang sesuai untuk memahami berbagai skenario interaksi.

VITA diterapkan menggunakan pendekatan dupleks, dengan satu model bertanggung jawab untuk menghasilkan respons terhadap pertanyaan pengguna dan model lainnya terus melacak masukan lingkungan. Hal ini memberikan VITA kemampuan interaksi manusia-komputer yang mengesankan.

VITA adalah langkah pertama bagi komunitas open source untuk mengeksplorasi integrasi pemahaman dan interaksi multimodal. Meskipun masih banyak pekerjaan yang harus dilakukan pada VITA untuk lebih dekat dengan rekan-rekannya yang bersumber tertutup, penelitian ini berharap bahwa peran VITA sebagai pionir dapat menjadi landasan untuk penelitian selanjutnya.



  • Alamat makalah: https://arxiv.org/pdf/2408.05211
  • Beranda makalah: https://vita-home.github.io/
  • Judul makalah: VITA: Menuju LLM Omni Multimodal Interaktif Sumber Terbuka



Catatan:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15 ede2b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd

Pada video di atas, pengguna dapat berkomunikasi tanpa hambatan dengan VITA. Setelah melihat kaos putih yang dikenakan pengguna, ia akan diberikan warna celana apa yang cocok; ketika ditanya soal matematika, ia dapat melihat tipe soal tersebut real-time dan membuat kesimpulan, lalu memberikan jawaban yang akurat; ketika Anda sedang berbicara dengan orang lain, VITA tidak akan menyela, karena ia mengetahui bahwa pengguna tidak berkomunikasi dengannya saat bepergian, VITA juga akan memberikan beberapa saran selama proses tersebut; dari keluaran VITA, Anda juga dapat Menginterupsi percakapan secara real time dan memulai topik lain.



Catatan:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15 ede2b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd

Dalam video ini, pengguna memegang biskuit dan bertanya kepada VITA apa yang dia makan. VITA memberitahunya bahwa dia sedang makan biskuit dan memberikan saran agar biskuit tersebut terasa lebih enak dengan susu atau teh.

Saat berolahraga, jadilah mitra obrolan Anda:



Catatan:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650930230&idx=4&sn=9438b7c9c53ffa71dc7b3aa78ffaf348&chksm=84e43848b393b15 ede2b21d694dde6ee5d90c364b94e53f09728faef1db5b5524cd4dbe49dee&token=2010422951⟨=zh_CN#rd

Catatan: Video di atas diputar secara real-time dengan kecepatan 1x dan belum dipercepat.

Berdasarkan flowchart yang diberikan pengguna, VITA dapat menulis kode:



Berikan gambarnya, dan VITA juga dapat menjawab pertanyaan berdasarkan isi gambar tersebut:



Anda juga dapat menonton video dan menjawab pertanyaan. Saat pengguna menanyakan pertanyaan "Jelaskan gerakan anjing secara detail", VITA juga dapat memberikan jawaban yang akurat:



Pengenalan metode

Seperti yang ditunjukkan pada Gambar 3, keseluruhan proses pelatihan VITA mencakup tiga tahap: penyempurnaan instruksi LLM, penyelarasan multi-modal, dan penyempurnaan instruksi multi-modal.



Penyempurnaan instruksi LLM

Performa Mixtral 8x7B termasuk di antara LLM open source teratas, sehingga digunakan sebagai dasar penelitian ini. Namun, peneliti mengamati bahwa model Mixtral resmi memiliki kemampuan terbatas dalam memahami bahasa Mandarin. Untuk meningkatkan kemampuan pemahaman bilingual (Mandarin dan Inggris), penelitian ini memperluas kosakata bahasa Mandarin ke model dasar, sehingga meningkatkan kosakata dari 32.000 menjadi 51.747. Setelah memperluas kosa kata, para peneliti menggunakan korpus bilingual sintetis sebanyak 5 juta untuk menyempurnakan instruksi teks biasa.

Penyelarasan multimoda

Untuk menjembatani kesenjangan representasi antara teks dan modalitas lainnya, sehingga meletakkan dasar bagi pemahaman multimodal. Konektor visual dilatih hanya selama fase penyelarasan visual. Tabel 1 merangkum data pelatihan yang digunakan, kecuali bagian teks biasa.



modalitas visual

Yang pertama adalah encoder visual. Para peneliti menggunakan InternViT-300M-448px sebagai encoder visual, yang mengambil gambar dengan resolusi 448×448 sebagai input dan menghasilkan 256 token setelah menggunakan konektor visual sebagai MLP dua lapis sederhana. Untuk masukan gambar resolusi tinggi, peneliti menggunakan strategi patching dinamis untuk menangkap detail lokal.

Video dianggap sebagai kasus penggunaan khusus untuk gambar. Jika durasi video kurang dari 4 detik, 4 frame per detik akan diambil sampelnya secara seragam. Jika durasi video antara 4 detik dan 16 detik, satu frame diambil sampelnya setiap detik. Untuk video berdurasi lebih dari 16 detik, 16 bingkai diambil sampelnya secara seragam.

Kedua adalah penyelarasan visual. Kami melatih konektor visual hanya selama fase penyelarasan visual dan tidak menggunakan pertanyaan audio selama fase ini.

Terakhir, ada data yang mengalir. Untuk data teks biasa dan data gambar, penelitian ini bertujuan untuk menggabungkan panjang konteks menjadi 6K token, seperti yang ditunjukkan pada Gambar 4. Perlu dicatat bahwa data video tidak digabungkan.



Cascading data yang berbeda memiliki dua manfaat:

  • Ini mendukung konteks yang lebih panjang, memungkinkan penskalaan dari interaksi pertanyaan gambar tunggal ke beberapa interaksi pertanyaan gambar, sehingga menghasilkan formulir masukan yang lebih fleksibel, dan panjang konteks yang diperluas.
  • Ini meningkatkan efisiensi komputasi karena bingkai video biasanya berisi token visual dalam jumlah besar. Dengan menggabungkan pasangan gambar-pertanyaan, penelitian ini dapat mempertahankan jumlah token yang seimbang dalam batch pelatihan, sehingga meningkatkan efisiensi komputasi.

Lebih lanjut, penelitian ini menemukan bahwa model yang dilatih menggunakan data berjenjang memiliki kinerja yang sebanding dengan model yang dilatih menggunakan data mentah.

modalitas audio

Di satu sisi adalah encoder audio. Audio input awalnya diproses melalui blok filter Mel, yang menguraikan sinyal audio menjadi pita frekuensi individual dalam rentang frekuensi mel, meniru persepsi suara non-linier manusia. Selanjutnya, para peneliti menggunakan lapisan downsampling 4×CNN dan transformator 24 lapisan, dengan total 341 juta parameter, untuk memproses fitur masukan. Mereka juga menggunakan MLP dua lapis sederhana sebagai konektor modal audio-teks. Terakhir, setiap 2 detik input audio dikodekan menjadi 25 token.

Aspek lainnya adalah penyelarasan audio. Untuk tugas penyelarasan, para peneliti menggunakan pengenalan ucapan otomatis (ASR). Kumpulan data mencakup Wenetspeech (dengan lebih dari 10.000 jam data pengenalan ucapan multi-domain, terutama berfokus pada tugas-tugas berbahasa Mandarin) dan Gigaspeech (dengan 10.000 jam data audio berkualitas tinggi, yang sebagian besar berorientasi pada tugas pengenalan ucapan bahasa Inggris). Untuk tugas subtitle audio, para peneliti menggunakan subset AudioSet SL dari Wavcaps, yang berisi 400 ribu klip audio dengan subtitle audio yang sesuai. Selama proses penyelarasan, encoder dan konektor audio dilatih.

Penyempurnaan instruksi multimodal

Studi ini mengadaptasi model untuk meningkatkan kemampuannya dalam mengikuti instruksi, baik teks maupun audio.

Konstruksi data. Sumber data untuk fase penyetelan instruksi sama dengan sumber data untuk fase penyelarasan pada Tabel 1, namun penelitian ini menghasilkan perbaikan sebagai berikut:

Pertanyaan diganti secara acak (kira-kira setengahnya) dengan versi audionya (menggunakan teknologi TTS, seperti GPT-SoVITS6), yang bertujuan untuk meningkatkan pemahaman model tentang kueri audio dan kemampuannya untuk mengikuti instruksi.

Atur perintah sistem yang berbeda untuk menghindari konflik antara berbagai jenis data, seperti yang ditunjukkan pada Tabel 2. Misalnya, beberapa pertanyaan dapat dijawab berdasarkan informasi visual atau berdasarkan pengetahuan model itu sendiri, sehingga menimbulkan konflik. Selain itu, data gambar telah ditambal, mirip dengan data video multi-frame, yang mungkin membingungkan model. Perintah sistem secara eksplisit membedakan berbagai tipe data, yang membantu untuk memahami secara lebih intuitif.



Untuk mewujudkan dua fungsi interaktif, yaitu interaksi non-wake-up dan interaksi interupsi audio, penelitian ini mengusulkan kerangka penerapan dupleks, yaitu dua model VITA diterapkan secara bersamaan, seperti yang ditunjukkan pada Gambar 1.



Biasanya, model generasi menjawab pertanyaan pengguna. Pada saat yang sama, model Pemantauan mendeteksi suara lingkungan selama proses pembangkitan. Ini mengabaikan suara pengguna non-kueri tetapi menghentikan kemajuan pembuatan model ketika audio kueri dikenali. Model pemantauan kemudian mengintegrasikan konteks historis dan merespons pertanyaan pengguna terbaru, dan identitas model pembangkit dan pemantauan dialihkan.



Evaluasi eksperimental

kinerja bahasa. Untuk memverifikasi efektivitas proses pelatihan model bahasa, peneliti menggunakan empat kumpulan data, yaitu C-EVAL, AGIEVAL, MMLU dan GSM8K. Kumpulan data ini mencakup berbagai skenario, termasuk pertanyaan pilihan ganda umum, pertanyaan kuis multidisiplin, dan tugas penalaran matematis dan logis, yang mencakup konteks bahasa Mandarin dan Inggris.

Hasil pada Tabel 3 di bawah menunjukkan bahwa pelatihan dalam artikel ini secara signifikan meningkatkan kemampuan model bahasa pada set evaluasi bahasa Mandarin (C-EVAL dan AGIEVAL), sekaligus mempertahankan tingkat kinerja asli pada tolok ukur terkait bahasa Inggris (MMLU) dan meningkatkan penalaran matematika. Peningkatan signifikan telah dicapai pada tugas (GSM8K).



kinerja audio. Untuk memverifikasi kekuatan representasi ucapan yang dipelajari oleh model tersebut, para peneliti melakukan pengujian pada dua kumpulan data: Wenetspeech dan Librispeech.

Diantaranya, Wenetspeech memiliki dua indikator evaluasi, yaitu test_net dan test_meeting. Sumber data yang pertama lebih konsisten dengan data pelatihan, sehingga lebih mudah; Sebagai kumpulan data model yang ada, Librispeech mengevaluasi kemampuan generalisasi model pada kumpulan data yang tidak terlihat. Ia memiliki empat kumpulan evaluasi. Yang dimulai dengan "dev" adalah kumpulan verifikasi, dan yang dimulai dengan "pengujian" adalah kumpulan evaluasi. adalah set pengujian, "Bersih" mewakili set yang kurang menantang, dan "lainnya" mewakili set yang lebih menantang.

Terlihat dari hasil pada Tabel 4 di bawah ini, VITA memperoleh hasil yang sangat baik pada pengujian ASR benchmark.



Kinerja multimoda. Untuk mengevaluasi kemampuan multimodal, penelitian ini mengevaluasi VITA pada empat tolok ukur, termasuk MME, OCRBench, HallusionBench, dan Video-MME. Hasilnya ditunjukkan pada Gambar 5.

Dalam hal pemahaman gambar, VITA lebih baik daripada model sumber terbuka khusus gambar LLaVA-Next, dan dekat dengan model sumber tertutup Gemini 1.5 Pro.

Dalam hal pemahaman video, VITA melampaui Video-CCAM, model video open source. Meskipun terdapat kesenjangan antara VITA dan LLaVA-Next-Video khusus video, hal ini dapat diterima mengingat VITA mendukung modalitas yang lebih luas dan memprioritaskan interaktivitas.

Terakhir, perlu dicatat bahwa masih terdapat kesenjangan besar dalam kemampuan pemahaman video antara model sumber terbuka dan model berpemilik.