berita

lalu lintas pelatihan llm 10.000 kali lebih sedikit! pengoptimal terdistribusi baru, yang mengintegrasikan kekuatan komputasi dunia untuk melatih ai yang kuat

2024-09-10

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



  laporan kebijaksanaan baru

editor: alan
[pengantar kebijaksanaan baru]baru-baru ini, nous research mengumumkan terobosan besar. dengan menggunakan pengoptimal terdistribusi yang tidak bergantung pada arsitektur dan jaringan, para peneliti berhasil mengurangi volume komunikasi antar gpu saat melatih llm sebanyak 1.000 hingga 10.000 kali!

bagaimana jika seluruh kekuatan komputasi di dunia dapat digunakan untuk melatih model ai?

baru-baru ini, nous research, yang menarik perhatian luas dengan dirilisnya hermes 3 open source (berdasarkan llama 3.1), sekali lagi mengumumkan terobosan besar - distro (distributed internet training).

dengan menggunakan pengoptimal terdistribusi yang tidak bergantung pada arsitektur dan jaringan, para peneliti berhasil mengurangi komunikasi antar-gpu sebanyak 1.000 hingga 10.000 kali saat melatih llm!

dengan peningkatan yang berlebihan seperti itu, biaya penting dan hambatan dalam pelatihan model besar - bandwidth, tidak lagi menjadi masalah.

dengan menggunakan metode distro, anda dapat mendistribusikan beban pelatihan ke internet, dan seluruh dunia online menjadi cluster server ai heterogen yang sangat besar.

——perangkat apa pun dengan daya komputasi yang relevan dapat berpartisipasi dalam proses pelatihan.

eksperimen telah membuktikan bahwa metode dalam artikel ini pada dasarnya tidak menyebabkan penurunan performa model. pada saat yang sama, distro-adamw setara dengan standar adamw+all-reduce dalam hal kecepatan konvergensi.

pelatihan internet terdistribusi

secara umum, melatih jaringan saraf skala besar memerlukan biaya komunikasi yang signifikan.

misalnya, saat melakukan paralelisme data, data pelatihan yang berbeda dihitung maju dan mundur pada perangkat keras yang berbeda (kartu grafis, dll.). setelah itu, gradien yang dihitung dari kumpulan data yang sama perlu disinkronkan antar kartu grafis sebelum dimasukkan langkah berikutnya.

jika modelnya paralel, data perantara perlu disambung atau diakumulasikan melalui all-reduce.

jika overhead komunikasi data ini tidak dapat tumpang tindih, maka hal tersebut akan menjadi hambatan dalam pelatihan model.

kebetulan, memori video dan bandwidth laohuang sangat mahal, dan bahkan perangkat keras yang diperlukan untuk menyiapkan banyak kartu juga sangat mahal.

untuk mengatasi masalah ini, para peneliti mengembangkan distro, yang mengurangi kebutuhan komunikasi antar-gpu sebanyak empat hingga lima kali lipat tanpa bergantung pada analisis yang diamortisasi, sehingga memungkinkan pelatihan latensi rendah pada jaringan neural besar pada jaringan yang lambat.

distro bersifat umum, dapat diskalakan, dan disinkronkan dengan jam (mirip dengan sgd, adam, dll., setiap langkah pelatihan menggunakan operasi aritmatika yang sama dan memerlukan waktu yang sama).

selain itu, dibandingkan dengan pengoptimal komunikasi rendah ad-hoc sebelumnya, distro tidak sensitif terhadap topologi jaringan telekomunikasi dan arsitektur jaringan saraf, dan secara asli dapat mendukung pelatihan paralel data terdistribusi (ddp) dengan overhead minimal.

pra-pelatihan llm

para peneliti menggunakan nanotron sebagai kerangka pra-pelatihan dan hanya dijalankan berdasarkan strategi ddp (setiap gpu memuat seluruh model ke dalam vram).

llm memilih llama 2 berukuran 1,2b. hyperparameter yang digunakan dalam model dan pelatihan adalah sebagai berikut:

data pelatihan menggunakan kumpulan data dolma v1.7, dan 10% sampel representatif (105b token pertama) dipilih secara acak.

pengoptimal menggunakan adamw, β1=0,9, β2=0,95, kecepatan pemelajaran puncak adalah 4×10e-4, skema peluruhan kosinus digunakan, dan peluruhan bobot disetel ke 0,1.

sebagai rangkaian eksperimen lain sebagai perbandingan, adamw diganti dengan distro-adamw tanpa mengubah hyperparameter dan menonaktifkan operasi all-reduce di nanotron.

berbeda dengan metode pelatihan terdistribusi sebelumnya, distro tidak menyinkronkan status pengoptimal (bahkan bisa tanpa kewarganegaraan).

gambar di bawah adalah kurva kerugian pelatihan dari dua rangkaian eksperimen, menggunakan 105 miliar data untuk 25.000 langkah. terlihat kemampuan konvergensi distro sama dengan all-reduce.

yang penting, distro secara langsung mengurangi volume komunikasi dari 74,4 gb menjadi 86,8 mb tanpa memengaruhi efek pelatihan! ini setara dengan pengurangan tekanan bandwidth sebesar 857 kali lipat.

penulis juga menyatakan bahwa 857 kali ini hanyalah pengujian awal, dan tidak akan menjadi masalah untuk menyesuaikan hyperparameter nantinya dan menguranginya sebanyak 1000 kali menjadi 3000 kali.

jika dilakukan pasca-pelatihan dan penyempurnaan, ia bahkan dapat mencapai optimalisasi komunikasi hingga 10.000 kali tanpa mempengaruhi efek pelatihan pada dasarnya.

terakhir, untuk memverifikasi efek pelatihan, penulis melakukan uji benchmark zero-shot gpt4all pada model yang dilatih dan membandingkannya dengan tinyllama (pos pemeriksaan) yang dilatih pada jumlah token yang sama.

hasilnya ditunjukkan pada tabel di atas. arsitektur dan proses pelatihan tinyllama sangat mirip dengan eksperimen dalam artikel ini dan dapat digunakan sebagai ukuran untuk memeriksa kewarasan hasilnya.

aplikasi masa depan

aliran data

dalam skenario percobaan ini, 32 node menggunakan all-reduce yang paling sederhana (koneksi penuh), dan setiap node mentransmisikan rata-rata 86,8mb (2,8mb×31) dan menerima jumlah data yang sama.

jika server khusus digunakan untuk agregasi data, setiap node hanya perlu mengunggah 2,8mb data (data yang diterima tetap tidak berubah), dan volume komunikasi semakin berkurang.

selain itu, asimetri juga menguntungkan karena bandwidth sebagian besar konsumen internet sangat condong ke arah kecepatan unduh yang lebih tinggi.

dengan asumsi kecepatan jaringan yang stabil adalah pengunduhan 100mbps dan pengunggahan 10mbps, penundaan terburuk hanya 6,94 detik untuk pengunduhan dan 2,24 detik untuk pengunggahan. jika tumpang tindih, penundaan untuk setiap langkah adalah 6,94 detik.

ps: pengiriman data di atas semuanya vektor asli, dan bisa lebih cepat jika menggunakan teknologi kompresi.

lebar pita

penulis menyatakan bahwa eksperimen dan penelitian saat ini relatif terbatas dan tidak mungkin untuk menyimpulkan apakah laju pengurangan bandwidth akan meningkat, menurun, atau tetap sama seiring dengan bertambahnya model.

namun, 1.2b saat ini tampaknya merupakan ukuran minimum di mana distro dapat bekerja dengan baik (tidak peduli seberapa kecilnya, ia tidak akan menyatu), sehingga dapat diasumsikan bahwa seiring dengan bertambahnya ukuran model, komunikasi akan semakin berkurang. diperlukan.

namun, mungkin juga volume komunikasi tidak berhubungan dengan ukuran model. dalam hal ini, ukuran model dapat ditingkatkan tanpa menambah bandwidth komunikasi untuk melihat apakah model yang lebih besar akan meningkatkan efek pelatihan dan pembelajaran.

jika skenario terakhir ini benar, maka paradigma desain dan manufaktur gpu di masa depan akan berubah (vram lebih besar dan bandwidth lebih sempit).

kebetulan kami juga lebih memilih beban kerja yang intensif komputasi (dibandingkan dengan intensif i/o), karena bandwidth jauh lebih mahal daripada komputasi saat ini.

pembelajaran gabungan

selain untuk melatih llm, distro bisa digunakan untuk apa lagi?

melakukan pelatihan terdistribusi di internet langsung membuat orang berpikir tentang pembelajaran gabungan.

meskipun memungkinkan pelatihan kolaboratif model, menjaga privasi dan desentralisasi data setiap peserta menjadi semakin penting sekarang karena llm dikendalikan oleh perusahaan besar.

hingga saat ini, pembelajaran gabungan belum memiliki metode yang efektif untuk melatih model besar dengan bandwidth internet terbatas.

distro tidak memiliki persyaratan apa pun tentang cara memproses data atau mendistribusikan data ke node gpu individual, dan dapat bersifat stateless (mirip dengan federasi rata-rata), sehingga cocok untuk masa depan pembelajaran gabungan.

cluster gpu heterogen virtual

selain itu, distro dapat menciptakan jaringan yang sepenuhnya terdesentralisasi dan tanpa izin untuk berkolaborasi dan berbagi sumber daya.

eksperimen menunjukkan bahwa distro secara signifikan memiliki ketahanan terhadap sejumlah kecil node yang diturunkan atau dihapus selama pelatihan, dan dapat dengan mudah beradaptasi dengan penambahan node baru.

dengan berkah dari kemampuan ini, di satu sisi, dapat menjamin keamanan seluruh sistem dan mengurangi risiko node yang tidak tepercaya menggunakan serangan musuh untuk mengganggu operasi.

di sisi lain, institusi dan individu juga dapat didorong untuk secara fleksibel menyumbangkan sumber daya komputasi mereka dan mengeluarkan potensi daya komputasi.

bahkan beberapa kartu lama dengan memori atau daya komputasi yang tidak mencukupi dapat bergabung untuk menghasilkan uang tambahan, menggunakan strategi seperti fsdp dan swarm parallelism untuk bekerja dengan distro.

energi

penerapan distro dalam skala besar lebih lanjut dapat mengurangi konsumsi energi, biaya infrastruktur, dan masalah terkait penggunaan lahan yang disebabkan oleh pembangunan pusat data berukuran besar.

proyek llama 3.1 memerlukan pembangunan dua supercluster monolitik besar, masing-masing berisi 24.000 gpu h100, dan proses pelatihannya saja menghasilkan setara dengan 11.000 ton emisi co2.

di llm saat ini, selain peningkatan ukuran parameter model, jumlah data pelatihan juga meningkat, menyebabkan pusat data terkait ai mencapai batas jaringan listrik modern.

distro dapat digunakan untuk secara adaptif menyeimbangkan beberapa pusat data modular kecil menggunakan kelebihan kapasitas, memanfaatkan infrastruktur yang ada melalui teknologi pelatihan penyeimbangan dinamis untuk mengurangi dampak negatif pelatihan terhadap lingkungan.

saat ini, teori di balik distro masih memerlukan eksplorasi lebih lanjut, dan makalah akademis yang lebih teliti dan rinci serta kode lengkap akan dirilis di masa mendatang.