berita

Kotak hitam telah dibuka! Alat interpretasi visual transformator, menjalankan GPT-2 secara lokal

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Sudah tahun 2024, ada yang masih belum paham cara kerja Transformer? Datang dan coba alat interaktif ini.

Pada tahun 2017, Google mengusulkan Transformer dalam makalah "Attention is all you need", yang menjadi terobosan besar di bidang deep learning. Jumlah kutipan makalah ini telah mencapai hampir 130.000. Semua model keluarga GPT berikutnya juga didasarkan pada arsitektur Transformer, yang menunjukkan pengaruhnya yang luas.

Sebagai arsitektur jaringan saraf, Transformer populer dalam berbagai tugas mulai dari teks hingga penglihatan, terutama di bidang chatbot AI yang sedang populer.

Namun, bagi banyak orang yang bukan ahli, cara kerja Transformer tetap tidak jelas, sehingga menghambat pemahaman dan partisipasi mereka. Oleh karena itu, sangat penting untuk mengungkap misteri arsitektur ini. Namun, banyak blog, video tutorial, dan visualisasi 3D yang sering kali menekankan kompleksitas matematika dan implementasi model, yang mungkin membuat pemula bingung. Pada saat yang sama, pekerjaan visualisasi yang dirancang untuk praktisi AI berfokus pada interpretasi saraf dan hierarki dan merupakan tantangan bagi non-ahli.

Jadi beberapa peneliti di Georgia Tech dan IBM Research mengembangkannyaAlat visualisasi interaktif sumber terbuka berbasis web "Transformer Penjelasan" untuk membantu non-profesional memahami struktur model canggih Transformer dan operasi matematika tingkat rendah. Seperti yang ditunjukkan pada Gambar 1 di bawah ini.

Transformer Penjelasan menjelaskan cara kerja Transformer melalui pembuatan teks, menggunakanDesain visualisasi diagram Sankey, terinspirasi oleh karya terbaru yang memperlakukan Transformers sebagai sistem dinamis, menekankan bagaimana data masukan mengalir melalui komponen model. Dari hasilnya, diagram Sankey secara efektif menggambarkan bagaimana informasi ditransfer dalam model dan menunjukkan bagaimana input diproses dan diubah melalui operasi Transformer.

Dari segi konten, Transformer Penjelasan dengan erat mengintegrasikan ikhtisar model yang merangkum struktur Transformer dan memungkinkan pengguna melakukan transisi dengan lancar antara beberapa tingkat abstraksi untuk memvisualisasikan interaksi antara operasi matematika tingkat rendah dan struktur model tingkat tinggi untuk membantu mereka memahami sepenuhnya konsep Kompleks di Transformator.

Dari segi fungsionalitas, Transformer Penjelasan tidak hanya menyediakan implementasi berbasis web, tetapi juga memiliki kemampuan penalaran waktu nyata. Tidak seperti banyak alat yang sudah ada yang memerlukan instalasi perangkat lunak khusus atau tidak memiliki kemampuan inferensi, alat ini mengintegrasikan model GPT-2 real-time yang berjalan secara asli di browser menggunakan kerangka kerja front-end modern. Pengguna dapat bereksperimen secara interaktif dengan teks masukan mereka dan mengamati secara real time bagaimana komponen dan parameter internal Transformer bekerja sama untuk memprediksi token berikutnya.

Transformer Penjelasan memperluas akses ke teknologi AI generatif modern tanpa memerlukan sumber daya komputasi tingkat lanjut, keterampilan instalasi atau pemrograman. Alasan pemilihan GPT-2 adalah karena model tersebut terkenal, memiliki kecepatan inferensi yang cepat, dan arsitekturnya mirip dengan model yang lebih canggih seperti GPT-3 dan GPT-4.

Alamat makalah: https://arxiv.org/pdf/2408.04619

Alamat GitHub: http://poloclub.github.io/transformer-explainer/

Alamat pengalaman online: https://t.co/jyBlJTMa7m



Catatan:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650929831&idx=1&sn=d0e5c01537def9f92c64dda2ea3c6626&chksm=84e43ed9b393b7cf1 77414848deaed70ac2a5b1522a12e3399920d4862e398c113b96af7b76e&token=522918026⟨=zh_CN#rd

Karena mendukung input mandiri, Machine Heart juga mencoba "hari yang indah", dan hasil yang dijalankan ditunjukkan pada gambar di bawah.

Banyak netizen yang memberikan pujian tinggi kepada Transformer Explore. Beberapa orang mengatakan ini adalah alat interaktif yang sangat keren.

Beberapa orang mengatakan bahwa mereka telah menunggu alat intuitif untuk menjelaskan perhatian diri dan pengkodean posisi, yaitu Transformer Penjelasan. Ini akan menjadi alat yang mengubah permainan.

Orang lain telah membuat terjemahan bahasa Mandarin.

Alamat tampilan: http://llm-viz-cn.iiiai.com/llm

Di sini saya tidak bisa tidak memikirkan Karpathy, tokoh hebat lainnya dalam sains populer. Dia telah menulis banyak tutorial tentang mereproduksi GPT-2 sebelumnya, termasuk "GPT-2 linting bahasa C murni, proyek baru dari OpenAI dan Tesla sebelumnya. eksekutif sangat populer." ", "Video tutorial empat jam terbaru Karpathy: Reproduksi GPT-2 dari awal, jalankan semalaman dan selesaikan", dll. Kini setelah terdapat alat visualisasi untuk prinsip internal Transformer, tampaknya efek pembelajaran akan lebih baik bila keduanya digunakan bersama.

Desain dan implementasi sistem Transformer Penjelasan

Transformer Penjelasan memvisualisasikan bagaimana model GPT-2 berbasis Transformer dilatih untuk memproses input teks dan memprediksi token berikutnya. Front-end menggunakan Svelte dan D3 untuk mengimplementasikan visualisasi interaktif, dan back-end menggunakan runtime ONNX dan pustaka Transformers HuggingFace untuk menjalankan model GPT-2 di browser.

Tantangan utama saat merancang Transformer Explore adalah mengelola kompleksitas arsitektur yang mendasarinya, karena menampilkan semua detail sekaligus akan mengalihkan perhatian dari intinya. Untuk mengatasi masalah ini, para peneliti menaruh perhatian besar pada dua prinsip desain utama.

Pertama, peneliti mengurangi kompleksitas melalui berbagai tingkat abstraksi. Mereka menyusun alat mereka untuk menyajikan informasi pada tingkat abstraksi yang berbeda. Hal ini menghindari kelebihan informasi dengan memungkinkan pengguna memulai dengan ikhtisar tingkat tinggi dan melanjutkan ke detail sesuai kebutuhan. Pada tingkat tertinggi, alat ini menunjukkan alur pemrosesan lengkap: mulai dari menerima teks yang diberikan pengguna sebagai masukan (Gambar 1A), menyematkannya, memprosesnya melalui beberapa blok Transformer, dan menggunakan data yang diproses untuk memprediksi prediksi token berikutnya yang paling mungkin terjadi. diurutkan.

Operasi perantara, seperti penghitungan matriks perhatian (Gambar 1C), yang diciutkan secara default untuk menampilkan secara visual pentingnya hasil penghitungan, pengguna dapat memilih untuk memperluas dan melihat proses penurunannya melalui urutan animasi. Para peneliti mengadopsi bahasa visual yang konsisten, seperti menumpuk kepala perhatian dan meruntuhkan blok Transformer yang berulang, untuk membantu pengguna mengidentifikasi pola berulang dalam arsitektur sambil mempertahankan aliran data end-to-end.

Kedua, peneliti meningkatkan pemahaman dan keterlibatan melalui interaktivitas. Parameter suhu sangat penting dalam mengontrol distribusi probabilitas keluaran Transformator. Ini akan mempengaruhi kepastian (pada suhu rendah) atau keacakan (pada suhu tinggi) prediksi token berikutnya. Namun sumber daya pendidikan yang ada di Transformers seringkali mengabaikan aspek ini. Pengguna kini dapat menggunakan alat baru ini untuk menyesuaikan parameter suhu secara real time (Gambar 1B) dan memvisualisasikan peran pentingnya dalam mengendalikan kepastian prediksi (Gambar 2).

Selain itu, pengguna dapat memilih dari contoh yang disediakan atau memasukkan teks mereka sendiri (Gambar 1A). Mendukung teks masukan khusus dapat memungkinkan pengguna untuk berpartisipasi lebih dalam. Dengan menganalisis perilaku model dalam kondisi yang berbeda dan secara interaktif menguji asumsi mereka berdasarkan masukan teks yang berbeda, rasa partisipasi pengguna ditingkatkan.

Jadi apa saja skenario penerapan praktisnya?

Profesor Rousseau memodernisasi konten kursus dalam kursus pemrosesan bahasa alami untuk menyoroti kemajuan terkini dalam AI generatif. Dia memperhatikan bahwa beberapa siswa memandang model berbasis Transformer sebagai "keajaiban" yang sulit dipahami, sementara yang lain ingin memahami cara kerja model ini tetapi tidak yakin harus mulai dari mana.

Untuk mengatasi masalah ini, ia membimbing siswa untuk menggunakan Transformer Penjelasan, yang memberikan gambaran interaktif tentang Transformer (Gambar 1) dan mendorong siswa untuk aktif bereksperimen dan belajar. Kelasnya memiliki lebih dari 300 siswa, dan kemampuan Transformer Penjelasan untuk berjalan sepenuhnya dalam browser siswa, tanpa perlu menginstal perangkat lunak atau perangkat keras khusus, merupakan keuntungan yang signifikan dan menghilangkan kekhawatiran siswa dalam mengelola pengaturan perangkat lunak atau perangkat keras.

Alat ini memperkenalkan siswa pada operasi matematika yang kompleks, seperti komputasi atensi, melalui abstraksi reversibel animasi dan interaktif (Gambar 1C). Pendekatan ini membantu siswa memperoleh pemahaman operasi tingkat tinggi dan pemahaman mendalam tentang detail mendasar yang menghasilkan hasil ini.

Profesor Rousseau juga menyadari bahwa kemampuan dan keterbatasan teknis Transformer terkadang dipersonifikasikan (misalnya, memandang parameter suhu sebagai kontrol "kreativitas"). Dengan mendorong siswa untuk bereksperimen dengan penggeser suhu (Gambar 1B), dia menunjukkan kepada siswa bagaimana suhu sebenarnya mengubah distribusi probabilitas token berikutnya (Gambar 2), sehingga mengendalikan keacakan prediksi dengan cara yang deterministik dan lebih kreatif, mencapai keseimbangan antara keluaran.

Lebih jauh lagi, ketika sistem memvisualisasikan proses pemrosesan token, siswa dapat melihat bahwa tidak ada yang disebut "keajaiban" di sini - tidak peduli apa teks masukannya (Gambar 1A), model mengikuti urutan operasi yang terdefinisi dengan baik, menggunakan arsitektur Transformer. Cicipi token satu per satu dan ulangi prosesnya.

pekerjaan masa depan

Peneliti meningkatkan penjelasan interaktif alat ini untuk meningkatkan pengalaman belajar. Pada saat yang sama, mereka juga meningkatkan kecepatan inferensi melalui WebGPU dan mengurangi ukuran model melalui teknologi kompresi. Mereka juga berencana melakukan riset pengguna untuk mengevaluasi efektivitas dan kegunaan Transformer Explore, mengamati bagaimana para pemula, siswa, pengajar, dan praktisi AI menggunakan alat ini, dan mengumpulkan masukan mengenai fitur-fitur tambahan yang ingin mereka dukung.

Tunggu apa lagi? Mulailah dan alami, hancurkan ilusi "ajaib" tentang Transformer, dan pahami betul prinsip di baliknya.