wakil presiden eksekutif grup baidu shen dou: model-model besar terintegrasi erat dengan komputasi awan dan menjadi jenis infrastruktur

wakil presiden eksekutif grup baidu shen dou: model-model besar terintegrasi erat dengan komputasi awan dan menjadi jenis infrastruktur baru.

2024-09-25

pada tanggal 25 september, di baidu cloud intelligence conference 2024, shen dou, wakil presiden eksekutif baidu group dan presiden baidu intelligent cloud business group, mengatakan di cloud intelligence conference bahwa tahun lalu adalah kunci bagi model besar untuk beralih dari teknologi perubahan menuju perubahan industri. satu tahun, dan model besar terintegrasi erat dengan komputasi awan dan menjadi jenis infrastruktur baru. "model besar dan sistem terkait dengan cepat menjadi infrastruktur generasi baru hanya dalam beberapa tahun. kecepatan perubahan ini belum pernah terjadi sebelumnya."

shen dou, wakil presiden eksekutif baidu group dan presiden baidu intelligent cloud business group. sumber foto: foto disediakan oleh perusahaan

mengenai daya komputasi model besar, shen dou mengatakan bahwa dalam hal daya komputasi, banyak orang telah mendengar tentang "klaster wanka". sederhananya, kluster gpu memiliki tiga karakteristik: skala ekstrem, kepadatan sangat tinggi, dan interkoneksi ekstrem.

dan kondisi “ekstrim” ini membawa beberapa tantangan serius. shen dou memperkenalkan bahwa yang pertama adalah biaya konstruksi dan pengoperasian yang besar. untuk membangun cluster wanka, biaya pembelian gpu saja mencapai beberapa miliar yuan. kedua, pada cluster berskala besar, kompleksitas operasi dan pemeliharaan meningkat secara dramatis. dia mencatat bahwa perangkat keras pasti akan gagal, dan semakin besar skalanya, semakin tinggi kemungkinan kegagalannya. “saat meta melatih llama3, sebuah cluster yang menggunakan 16.000 kartu gpu mengalami kegagalan rata-rata setiap 3 jam.”

shen dou lebih lanjut mengatakan bahwa di antara kegagalan tersebut, sebagian besar disebabkan oleh gpu. faktanya, gpu adalah perangkat keras yang sangat sensitif, dan bahkan fluktuasi suhu cuaca di siang hari akan mempengaruhi tingkat kegagalan gpu. kedua tantangan ini memaksa baidu untuk memikirkan kembali cara membangun, mengelola, dan memelihara cluster gpu yang besar dan kompleks, melindungi kompleksitas lapisan perangkat keras, dan menyediakan platform komputasi yang sederhana dan mudah digunakan untuk seluruh proses implementasi model besar, memungkinkan pengguna menjadi lebih mudah mengelola daya komputasi gpu dan memanfaatkan daya komputasi dengan baik dengan biaya rendah. “pada tahun lalu, kami merasakan bahwa kebutuhan pelatihan model pelanggan telah melonjak, dan ukuran cluster yang dibutuhkan menjadi semakin besar. pada saat yang sama, ekspektasi semua orang terhadap terus menurunnya biaya inferensi model juga menjadi semakin tinggi . semua ini berdampak besar pada gpu. stabilitas dan efektivitas manajemen telah mengajukan persyaratan yang lebih tinggi.”

berdasarkan hal ini, baidu intelligent cloud mengumumkan bahwa mereka akan sepenuhnya meningkatkan platform komputasi heterogen baige ai ke versi 4.0. dengan berfokus pada kebutuhan daya komputasi dalam keseluruhan perjalanan penerapan model besar, hal ini akan memberikan empat aspek utama bagi perusahaan: pembuatan cluster, eksperimen pengembangan, pelatihan model, dan inferensi model. menyediakan infrastruktur ai yang "berganda, cepat, stabil, dan ekonomis".

diantaranya, untuk mengatasi masalah kekurangan sumber daya komputasi, baige 4.0 telah melakukan peningkatan penting pada kemampuan "pelatihan campuran multi-inti", mencapai 95% efisiensi pelatihan campuran multi-inti pada kluster skala wanka, mencapai tingkat efisiensi tertinggi tingkat mahir dalam bisnis. dalam proses penerapan klaster, baige yang ditingkatkan dapat mencapai penerapan tingkat kedua di tingkat alat, mengurangi waktu persiapan untuk operasi klaster wanka dari berminggu-minggu menjadi paling cepat satu jam, sangat meningkatkan efisiensi penerapan dan memperpendek siklus peluncuran bisnis. menanggapi masalah kesalahan yang sering terjadi selama pelatihan model besar, baige 4.0 telah meningkatkan metode deteksi kesalahan secara komprehensif dan mekanisme toleransi kesalahan otomatis, yang secara efektif dapat mengurangi frekuensi kesalahan dan secara signifikan mengurangi waktu penanganan kesalahan cluster % pada cluster wanka.

selain itu, baidu intelligent cloud juga mengumumkan "rapor" terbaru dari platform model besar qianfan. pada platform model besar qianfan, model besar wenxin memiliki rata-rata volume panggilan harian lebih dari 700 juta kali, dan telah membantu pengguna dengan baik. -menyempurnakan total 30.000 model besar, mengembangkan lebih dari 700.000 aplikasi tingkat perusahaan. pada tahun lalu, harga model besar andalan wenxin telah turun lebih dari 90%.

berita ekonomi harian

laporan/umpan balik

berita

wakil presiden eksekutif grup baidu shen dou: model-model besar terintegrasi erat dengan komputasi awan dan menjadi jenis infrastruktur baru.

perkenalan

informasi kontak saya