berita

Metode penelitian dan pengembangan baru Meta: mengintegrasikan model AI bahasa dan difusi untuk mengurangi jumlah penghitungan, meningkatkan efisiensi komputasi, dan mengoptimalkan pembuatan gambar

2024-08-24

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House melaporkan pada 24 Agustus bahwa Meta AI Company baru-baru ini meluncurkan metode baru yang disebut Transfusion, yang dapat menggabungkan model bahasa dan model pembuatan gambar ke dalam sistem AI terpadu.

IT Home mengutip tim yang mengatakan bahwa Transfusi menggabungkan keunggulan model bahasa dalam memproses data diskrit seperti teks, dan kemampuan model difusi dalam menghasilkan data berkelanjutan seperti gambar.

Meta menjelaskan bahwa sistem pembuatan gambar saat ini biasanya menggunakan encoder teks terlatih untuk memproses masukan kata-kata isyarat, yang kemudian digabungkan dengan model difusi terpisah untuk menghasilkan gambar.

Banyak model bahasa multimodal bekerja dengan cara yang sama, menggabungkan model teks yang telah dilatih sebelumnya dengan pembuat enkode khusus untuk modalitas lain.

Namun, Transfusion menggunakan arsitektur Transformer tunggal dan terpadu yang cocok untuk semua mode dan melakukan pelatihan end-to-end pada data teks dan gambar. Teks dan gambar menggunakan fungsi kerugian yang berbeda: teks menggunakan prediksi token berikutnya dan gambar menggunakan difusi.

Untuk mengolah teks dan gambar secara bersamaan, gambar diubah menjadi rangkaian fragmen gambar. Dengan cara ini, model dapat memproses tag teks dan fragmen gambar secara bersamaan dalam urutan, dan masker perhatian khusus memungkinkan model menangkap hubungan di dalam gambar.

Berbeda dari metode Meta yang ada seperti Chameleon (yang mengubah gambar menjadi penanda diskrit dan kemudian memprosesnya dengan cara yang sama seperti teks), Transfusi mempertahankan representasi gambar secara terus menerus dan menghindari hilangnya informasi yang disebabkan oleh kuantisasi.

Eksperimen juga menunjukkan bahwa Fusion melakukan penskalaan lebih efisien dibandingkan metode serupa. Dalam hal pembuatan gambar, ini mencapai hasil yang serupa dengan model khusus namun dengan upaya komputasi yang jauh lebih sedikit, dan yang mengejutkan, mengintegrasikan data gambar juga meningkatkan kemampuan pemrosesan teks.

Para peneliti melatih model dengan 7 miliar parameter pada 2 triliun tag teks dan gambar. Model ini mencapai hasil yang serupa dengan sistem yang sudah matang seperti DALL-E 2 dalam pembuatan gambar sekaligus memproses teks.