berita

Llama3.1 tidak bisa dijual sama sekali! Orang dalam industri: Biaya model open source lebih tinggi

2024-08-27

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Yunzhong berasal dari Kuil Aofei
Qubit |. Akun publik QbitAI

Model besar sumber terbuka Meta, Llama 3, lesu di pasar, semakin mengintensifkan fokus pada perdebatan antara sumber terbuka dan sumber tertutup untuk model besar.

Menurut media asing The Information, model open source besar Meta, Llama 3, sulit mendapatkan perhatian dari Amazon AWS, vendor cloud terbesar di duniaLebih suka menggunakan model besar sumber tertutup Anthropic, Claude

Menurut orang dalam Microsoft,Llama juga bukan pilihan penjualan utama Microsoft, mereka lebih cenderung merekomendasikan Llama kepada perusahaan yang memiliki keahlian data, seperti perusahaan yang memiliki insinyur dan ilmuwan data internal.

Meta kini menghadapi tantangan, yang mungkin menginspirasi Meta untuk membangun tim penjualannya sendiri untuk produk AI guna memenuhi kebutuhan perusahaan. Serangkaian masalah ini juga menyoroti kesulitan dalam proses komersialisasi model open source berukuran besar. Dari perspektif pemilihan pasar, dampak aktual dan keuntungan komersial dari model sumber terbuka mungkin tidak memenuhi harapan pelanggan perusahaan.

menghadapi"Sumber terbuka atau sumber tertutup" Mengenai masalah ini, produsen model besar dalam negeri telah membentuk posisi yang sangat berbeda berdasarkan jalur teknis dan strategi bisnis mereka sendiri. Jadi, bagaimana sebaiknya perusahaan memilih model besar, dan bagaimana menemukan keseimbangan terbaik di antara keduanya?

Dalam konteks ini,Xin Zhou, Manajer Umum Baidu Intelligent Cloud AI dan Platform Model BesarDia diwawancarai oleh media dan menganalisis secara rinci logika yang mendasari, strategi bisnis, dan prediksi pasar masa depan dalam perdebatan antara open source dan close source.

Xinzhou percaya bahwa,Ada perbedaan mendasar antara open source model besar dan perangkat lunak open source——Karena model sumber terbuka tidak membuka kode sumber pelatihan, data pra-pelatihan dan penyesuaian, serta informasi penting lainnya yang memengaruhi efek model, model ini tidak dapat mengandalkan partisipasi pengembang komunitas untuk meningkatkan efek dan kinerja seperti perangkat lunak sumber terbuka. Namun, pelatihan model dasar Itu hanya bisa berada di tangan pabrikan itu sendiri.

Ketika berbicara tentang "siapa yang lebih mahal, model open source atau model close source?" Xin Zhou mengatakan bahwa model open source itu gratis dan memberi kesan berbiaya rendah kepada orang-orang, tetapiPenerapan model besar bukan hanya satu teknologi, tetapi solusi lengkap yang mencakup "teknologi + layanan", dan perusahaan harus menghitung "buku besar". Ketika bisnis ini benar-benar diterapkan, jika model sumber terbuka ingin mencapai efek yang sama dengan model sumber tertutup, hal ini akan memerlukan sejumlah besar investasi lanjutan dalam hal tenaga kerja, uang, dan waktu, serta biaya keseluruhannya akan lebih tinggi.

Skenario apa yang cocok untuk model sumber terbuka dan sumber tertutup? Xinzhou percaya bahwa,Model sumber terbuka lebih cocok untuk penelitian akademis, tetapi tidak cocok untuk proyek komersial berskala besar yang memberikan layanan kepada dunia luar. Dalam beberapa proyek serius dengan investasi jutaan atau bahkan puluhan juta, model sumber tertutup masih berlaku protagonis.

“Model open source tidak murah”

Berikut teks lengkap wawancara yang telah diedit:

1. Di pasar model yang besar, peran apa yang dimainkan oleh masing-masing produsen model? Apa model bisnisnya?

Xinzhou: Dalam pesta model besar ini, positioning dan model bisnis masing-masing produsen berbeda, dan secara kasar dapat dibagi menjadi tiga kategori:

Untuk jenis peran pertama, bagi vendor cloud, model bisnisnya sebenarnya menjual sumber daya komputasi. Mengurangi biaya dan meningkatkan elastisitas sumber daya melalui skala untuk mencapai profitabilitas. Ini adalah model vendor cloud yang bertahan lama. Terlepas dari apakah itu model sumber terbuka atau model sumber tertutup, selama dihosting oleh vendor cloud, vendor cloud dapat menghasilkan uang.

Jenis peran kedua adalah vendor cloud dan vendor model. Mereka berharap dapat mengarahkan bisnis ke cloud melalui penggunaan model. Saat ini, keuntungan dari hanya mengandalkan panggilan model API masih sangat rendah. Mereka saat ini berharap dapat menguasai pangsa pasar yang menguntungkan dan terus mencari peluang ekspansi baru di tabel model besar.

Jenis peran ketiga, bagi produsen model wirausaha, setelah vendor cloud besar mengumumkan pemotongan harga model, volume panggilan mereka turun tajam. Bidang model besar akan segera berubah menjadi pertarungan antara beberapa vendor cloud besar. Startup model besar akan fokus pada industri tertentu, memprivatisasi proyek toB, atau bertransformasi menjadi produk toC.

2. Mengapa dikatakan "model open source tidak murah, dan teknologinya akan semakin terbelakang"?

Xinzhou: Mari kita bicara tentang masalah teknologi terbelakang dulu.

Pertama, model besar open source tidak dapat meningkatkan kinerja model.

kontrasperangkat lunak sumber terbuka, seperti sistem operasi seluler Android dan perangkat lunak database MySQL. Semua kode sumber perangkat lunak sumber terbuka ini terbuka, dan pengembang dari seluruh masyarakat dapat berpartisipasi dalam pengembangan kode tersebut. Hal ini tidak hanya mengurangi biaya pengembangan perangkat lunak, tetapi juga mempercepat iterasi perangkat lunak dan meningkatkan keamanan perangkat lunak. Inilah nilai open source bagi perangkat lunak.

Model open source jauh lebih kompleks, yang dapat bersumber terbuka termasuk kode sumber pelatihan model, bobot parameter, data pelatihan, dll.Namun, saat ini produsen model biasanya hanya bobot parameter open source, tetapi kode sumber pelatihan, data pelatihan, dll. Bukan open source. Hal ini membuat pengembang tidak dapat memperbaikinya dan berkontribusi pada efektivitas model open source.

Misalnya, bagi Llama, setiap peningkatan performa model sebenarnya merupakan hasil pelatihan Meta sendiri, bukan hasil partisipasi pengembang. Tidak banyak perbedaan antara Llama2 dan Llama3 dalam hal struktur jaringan. Di satu sisi, proses fase pelatihan dioptimalkan, seperti pelatihan multi-tahap; di sisi lain, banyak data yang ditambahkan. Data Llama2 dan Llama3 memiliki urutan besarnya lebih banyak data dan pelatihan waktu membawa hasil yang lebih baik pada model.

Namun semua efek bagus ini diciptakan oleh Meta sendiri, dan tidak ada cara untuk menggunakan kekuatan pengembang, apalagi proses umpan balik komunitas seperti perangkat lunak sumber terbuka.

Kedua, model open source akan semakin tertinggal karena tidak ada model bisnis yang baik untuk memastikan iterasi model yang berkelanjutan.

Pelatihan model dan anotasi data sangat mahal. Kecuali ada sumber daya perusahaan yang kuat seperti Meta untuk mendukung pengembangan model open source yang berkelanjutan, jika itu adalah perusahaan start-up dengan model open source, maka tidak akan bisa membentuk bisnis tertutup. lingkaran. Pada saat yang sama, pengembang tidak dapat berkontribusi pada efektivitas model Anda, sehingga startup harus semakin tertinggal dalam melakukan hal ini. Dilihat dari hasilnya, model terbaik sebenarnya adalah Open AI, dan model yang berada di urutan teratas daftar evaluasi saat ini semuanya adalah model sumber tertutup.

Mari kita bahas mengapa model open source tidak murah.Penerapan model besar adalah solusi lengkap yang mencakup "teknologi + layanan". Perusahaan yang menerapkan model besar perlu "menghitung buku besar". Bagaimana cara menghitung buku besar?

Tingkat pertama adalah menghitung biaya sumber daya perangkat keras.. Karena model bisnis sumber tertutup akan dilengkapi dengan rantai alat yang sesuai, termasuk rantai alat pelatihan dan rantai alat inferensi, kinerja rantai alat ini lebih baik daripada rantai alat sumber terbuka. Bagi pelanggan, pelatihan dapat menghemat sekitar 10~20% biaya perangkat keras. , Anda berhemat lebih banyak saat berpikir, dan semakin besar skala bisnis, semakin banyak Anda berhemat.

Tingkat kedua adalah melihat manfaat bisnis yang dihasilkan oleh model tersebut. Untuk model dengan skala parameter yang sama, hasil sumber tertutup lebih baik. Beberapa pelanggan tidak terlalu sensitif terhadap akurasi 90% atau 95%. Namun ada beberapa bisnis, seperti periklanan komersial, yang CPM dan CTRnya hanya berjarak satu poin. Untuk platform periklanan, mungkin ada puluhan juta perbedaan dalam sehari. Saat ini, perusahaan dengan persyaratan efek model yang lebih tinggi lebih bersedia untuk membeli model sumber tertutup yang berfungsi lebih baik.

Tingkat ketiga mencakup biaya peluang dan biaya tenaga kerja.. Jika Anda menggunakan model bisnis sumber tertutup untuk melakukan konvergensi lebih cepat, Anda dapat meluncurkan produk baru lebih cepat dibandingkan pesaing Anda. Dalam model bisnis sumber tertutup, pabrikan telah mengadaptasi model dan perangkat keras ke kondisi optimal, dan pelanggan cukup meniru pengalaman yang sudah matang. Namun jika Anda menggunakan open source, Anda harus menyesuaikannya sendiri, dan biaya tenaga komputasi serta insinyur akan lebih tinggi.

Oleh karena itu, kami mengatakan bahwa model aplikasi perusahaan perlu "menghitung buku besar", dan perhitungan buku besar ini akan jauh berbeda.

3. Mengapa open source jauh lebih mahal dibandingkan close source dalam hal biaya perangkat keras?
Xinzhou: Sebagian besar pelanggan perusahaan akan membeli dua atau lebih jenis perangkat keras karena mereka harus mempertimbangkan keamanan dan fleksibilitas rantai pasokan. Jika model sumber terbuka perlu diadaptasi pada setiap perangkat keras, biayanya akan sangat tinggi.

Hal ini mencerminkan keunggulan model bisnis sumber tertutup, karena dapat membagi biaya adaptasi perangkat lunak dan perangkat keras melalui penjualan skala besar. Terlebih lagi, adaptasi multi-core adalah masalah yang sangat teknisPlatform Komputasi Heterogen BaigeBanyak optimasi telah dilakukan khusus untuk heterogenitas multi-core, dan cocok untuk berbagai perangkat keras. Baige sendiri dapat melindungi berbagai perbedaan di lapisan perangkat keras. Terdapat banyak perpustakaan akselerasi, perpustakaan inferensi, dan perpustakaan pelatihan. Baige juga menyediakan optimasi end-to-end untuk model besar Wenxin.

Keuntungannya bagi pelanggan adalah mereka dapat bekerja dengan cepat, apa pun perangkat keras yang mereka gunakan, dan waktu serta biaya tenaga kerja yang dihemat sangat tinggi.

4. Dalam skenario manakah model sumber terbuka dan model sumber tertutup cocok untuk masing-masing skenario?

Xinzhou: Ide umumnya adalah: jika Anda ingin mencoba dan memverifikasi dalam skenario bisnis individual, Anda dapat menjalankannya terlebih dahulu dengan model sumber tertutup, menjalankannya langsung, dan dengan cepat memverifikasinya di beberapa bisnis serius yang menelan biaya jutaan atau puluhan juta dolar, Dalam proyek yang membutuhkan skala dan presisi tinggi, model bisnis sumber tertutup masih menjadi pilihan terbaik bagi perusahaan. Hanya dalam beberapa skenario bisnis yang tidak memiliki persyaratan efek dan kinerja yang tinggi, namun memerlukan penerapan pribadi dan sangat sensitif terhadap harga, pertimbangkan untuk menggunakan model sumber terbuka.

Sumber terbuka sangat berharga untuk mempromosikan akademis dan penelitian, seperti optimalisasi kinerja teknik inferensi, dampak pra-pelatihan dan penyesuaian data pada hasil, dll. Jika dapat membuka lebih banyak hal, seperti kode pelatihan, data pelatihan, dan penyempurnaan instruksi Data dan sebagainya juga terbuka, dan nilainya bagi penelitian akademis dan pengembangan teknologi akan lebih besar. Sekalipun hanya bobot model yang dibuka, hal ini memberikan peneliti model dasar yang baik.

5. Beberapa produsen berharap bahwa sumber terbuka dan sumber tertutup dapat dijalankan secara bersamaan. Artinya, model sumber terbuka menarik pengguna untuk memperluas ekosistem, sedangkan model sumber tertutup bertanggung jawab untuk komersialisasi.

Xinzhou: Kalau belum mempraktekkannya, sepertinya bisa dilakukan. Namun kenyataannya adalah:

Di cloud publik, di antara panggilan telepon yang diumumkan oleh berbagai produsen, volume panggilan model sumber tertutup jauh lebih tinggi dibandingkan model sumber terbuka, yang menunjukkan bahwa model sumber terbuka sebenarnya tidak berperan dalam menarik pengguna untuk memperluas ekosistem di cloud publik.. Terlebih lagi, ketika fine tuning dilakukan pada public cloud, baik model open source maupun close source dapat diimplementasikan, sehingga pelanggan akan langsung memilih model terbaik di public cloud.

Dalam hal penerapan yang diprivatisasi, logika ini masuk akal sampai batas tertentu.. Banyak perusahaan pertama kali memulai dengan model sumber terbuka untuk pengujian. Kemudian, mereka menemukan hasilnya bagus dan ingin membelinya. Mereka akan memilih model sumber terbuka agar sesuai dengan model sumber tertutup pabrikan, karena model sumber yang sama lebih mudah beradaptasi petunjuknya. Dalam hal ini, logika ini berlaku.Namun nilai ini perlahan-lahan menyusut. Karena kemampuan umum masing-masing model pabrikan meningkat dengan cepat, biaya peralihan menjadi semakin rendah, secara bertahap menghapus warisan model ini.

Ada juga beberapa produsen yang meluncurkan model open source untuk mempromosikan perangkat keras. Misalnya, Nvidia meluncurkan model open source. Logika bisnisnya sangat sederhana, dan Anda perlu membeli kartu untuk menggunakan model tersebut.

6. Mengapa Baidu belum meluncurkan model open source?

Xin Zhou: Terlihat jelas dari volume penerapan berbagai produsen bahwa model sumber tertutup komersial dengan volume penerapan terbesar di cloud publik tidak berdampak banyak pada cloud publik.

Di pasar yang diprivatisasi, seiring dengan meningkatnya kesadaran pelanggan terhadap model besar, open source dan close source secara bertahap tidak lagi menjadi faktor kunci.. Setelah berkomunikasi dengan banyak pelanggan perusahaan besar, saya menemukan bahwa ada banyak faktor yang menentukan apakah pemimpin bisnis harus menggunakan suatu model. Urutan prioritasnya biasanya: efek, kinerja, keamanan, dan harga. Apakah suatu model bersifat open source atau close source bukanlah faktor penentu.

7. Anda menyebutkan bahwa hal terpenting bagi perusahaan ketika memilih model adalah efek, kinerja, keamanan, dan harga. Apakah "Mesin All-in-one Model Besar Qianfan" yang diluncurkan oleh Baidu Cloud mencoba model bisnis baru yang mengintegrasikan perangkat lunak dan perangkat keras?

Xinzhou: Saat ini, penggunaan model besar oleh perusahaan masih dalam tahap penjajakan, dan terdapat kebutuhan yang kuat akan produk berbiaya rendah dan siap pakai untuk memverifikasi skenario penggunaan dan dampak model besar dengan cepat. "Mesin All-in-one Model Besar Qianfan" sangat cocok untuk tahap saat ini, karena ada banyak permintaan untuk penerapan yang diprivatisasi di Tiongkok. Mesin all-in-one kami terbuka dan dapat disesuaikan dengan berbagai perangkat keras, terintegrasi semua produk utama di pasar. Mesin all-in-one model besar Qianfan dari Baidu Smart Cloud menyediakan dua kemampuan:

Pertama, menyediakan platform terintegrasi untuk adaptasi perangkat lunak dan perangkat keras, platform ini memiliki model besar Wenxin bawaan dan model besar sumber terbuka arus utama industri serta ruang sampel aplikasi skenario. Model open source yang populer juga telah diadaptasi dan dioptimalkan. Pengguna dapat menjalankannya langsung di mesin all-in-one tanpa harus menyesuaikan modelnya sendiri. Pada saat yang sama, mesin all-in-one model besar Qianfan dapat menyediakan solusi perangkat lunak dan perangkat keras model besar yang terintegrasi mulai dari manajemen dan kontrol dasar, kerangka kerja AI, pelatihan model, penalaran prediktif, dan aplikasi skenario, menyediakan perangkat lunak proses penuh dan aplikasi kepada pelanggan. layanan perangkat keras.

KeduaMesin all-in-one model besar Qianfan sangat hemat biaya karena optimalisasi kinerja ujung ke ujung dan kemampuan untuk memeras semua kinerja perangkat keras. Pelanggan dapat menggunakannya dengan cepat dan dengan biaya lebih rendah.

Dari segi harga keseluruhan, harga mesin all-in-one Qianfan jauh lebih rendah daripada membeli server, model besar, dan platform secara terpisah. Bagi pelanggan, mesin ini dapat langsung digunakan.

8. Saat ini banyak orang yang merasa tidak cukup hanya menggunakan model dasar yang besar. Kita masih perlu membangun model industri untuk benar-benar mewujudkan implementasi industri model besar. Jadi, berapa biaya yang harus dikeluarkan saat ini bagi suatu perusahaan untuk melatih model industrinya sendiri?

Xinzhou: Biayanya sangat tinggi. Pertama, biaya ini meningkat secara linier bergantung pada ukuran parameter model yang akan dilatih. Kedua, tergantung seberapa besar volume datanya. Terakhir, ada biaya pelabelan data Anda.

Jika Anda ingin melatih model 70b dari awal, Anda mungkin memerlukan 30 juta sumber daya cloud elastis. Jika ingin melatih model dengan jumlah parameter lebih banyak, biayanya mungkin ratusan juta. Ini harus dilatih oleh orang-orang yang berpengalaman. Jika Anda tidak berpengalaman dan mengambil jalan memutar dalam prosesnya, biayanya akan lebih tinggi.

9. Dengan biaya yang begitu tinggi, bagaimana suatu perusahaan dapat menentukan apakah perlu membangun model industri?

Xinzhou: Kami tidak menyarankan pelanggan hanya membangun model basis industri dari awal tanpa memperhatikan keuntungannya. Kami akan membantu pelanggan menganalisis kebutuhan mereka terlebih dahulu.

Misalnya, jika Anda menggambar sistem koordinat, absisnya adalah sensitivitas tugas, dan ordinatnya adalah permintaan data industri. Yang disebut sensitivitas tugas mengacu pada apakah skenario tersebut terkait erat dengan industri dan bisnis. Misalnya, dalam bidang medis, ini merupakan isu yang cukup profesional. Sumbu vertikalnya adalah permintaan akan data industri. Semakin tertutup suatu industri dan semakin sedikit data yang ada di jaringan publik, semakin banyak pelatihan awal yang diperlukan. Misalnya, di bidang medis, beberapa informasi rekam medis yang tidak peka perlu dilatih terlebih dahulu ke dalam model.

Melalui analisis, pada sumbu koordinat ini, pojok kiri bawah tidak memiliki karakteristik industri maupun data industri, sehingga model umum dapat digunakan secara langsung, namun pojok kanan atas peka terhadap atribut bisnis industri tersebut dan memerlukan banyak data industri. . Ini saatnya membangun model industri.

Kami biasanya merekomendasikan agar perusahaan mengambil tiga langkah.

Langkah pertama adalah verifikasi nilai. Konstruksi awal infrastruktur perangkat lunak dan perangkat keras model skala besar dan konstruksi model industri skala besar awal. Dikombinasikan dengan penerapan AI generatif yang relatif matang, hasilnya dapat terlihat dengan cepat. Misalnya, melalui versi ringan dari platform model besar Qianfan, aplikasi matang seperti layanan pelanggan cerdas, manajemen pengetahuan perusahaan, dan manusia digital ditambahkan.

Langkah kedua adalah menghubungkan berbagai aplikasi perusahaan secara mendalam. Infrastruktur model besar telah ditingkatkan lebih lanjut dan ditingkatkan menjadi Qianfan Large Model Ultimate Edition. Selain pelatihan dan penyetelan terkait model besar, ini juga mencakup platform untuk konstruksi aplikasi. Baidu dan mitra ekologisnya sangat terlibat dalam pelatihan dan pengoperasian model berskala besar di dalam perusahaan, membangun suasana teknis, melatih talenta yang relevan, dan bekerja sama dengan perusahaan untuk memecahkan masalah bisnis yang sulit dan memberikan nilai lebih bagi perusahaan.

Langkah ketiga adalah inovasi komprehensif dan pengendalian independen. Perusahaan ini telah menguasai teknologi yang relevan untuk pengembangan model dan aplikasi besar, dan juga memiliki eselon bakat yang sesuai, yang memungkinkannya untuk berkembang lebih baik secara mandiri dan terkendali serta memulai inovasi yang komprehensif. Baidu akan bertindak sebagai dukungan teknis dan konsultan jangka panjang untuk membantu pengembangan dan terus menghadirkan teknologi dan solusi baru bagi perusahaan.

10. Bagaimana Anda menilai besarnya pasar model di tahun depan?

Xinzhou: Saya punya tiga penilaian tentang tren perkembangan di tahun depan:

Pertama, multi-modalitas akan menjadi hot spot baru di pasar.

Kedua, akan ada ledakan besar dalam aplikasi berdasarkan model besar, dan arah yang sangat penting adalah Agen.. Jika model besar hanya melakukan tindakan "input dan output" yang ditentukan, model tersebut akan sangat membatasi nilainya. Model tersebut harus lebih seperti manusia, mampu menggunakan alat, berkolaborasi satu sama lain, merencanakan dan berpikir, serta berefleksi dan mengulangi . Hal ini perlu dikombinasikan dengan berbagai komponen dan plug-in untuk memenuhi kebutuhan skenario bisnis tertentu, sehingga Agen akan menjadi kunci bagi produsen model berikutnya.

Ketiga, akan ada lebih banyak peluang untuk aplikasi perusahaan, seperti basis pengetahuan, layanan pelanggan, tenaga digital, penulisan kode tambahan, dan skenario lainnya.Misalnya, dengan menggunakan model besar untuk menulis kode, Baidu memiliki produk bernama "Wenxin Quick Code", yang telah banyak digunakan di Baidu. Tingkat adopsi dapat mencapai 46%, dan proporsi kode baru yang dihasilkan telah mencapai 30%. dapat membantu Perusahaan meningkatkan efisiensi pengembangan secara signifikan. Pada saat yang sama, sejumlah besar perusahaan yang terlibat dalam pengembangan aplikasi AI akan bermunculan. Perusahaan-perusahaan ini dapat mengurangi biaya penerapan dan penyalinan aplikasi ke tingkat yang cukup rendah, selama efisiensi operasionalnya cukup tinggi, mereka dapat menonjol.