berita

robin li mengungkap ilusi "skor berjalan" dari model-model besar: daftar tersebut tidak mewakili semua kekuatan, dan kesenjangan antar model akan semakin lebar di masa depan.

2024-09-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

setiap kali versi baru dari model besar dirilis, industri selalu tertarik untuk mengutip data daftar pihak ketiga, "mencetak skor" dengan model besarnya sendiri terhadap gpt-4, dan mengklaim telah melampaui indikator tertentu buktikan kekuatan teknisnya dalam model besar.
namun dalam perdebatan baru-baru ini antara ketua baidu robin li dan karyawan internal, dia mendobrak “kertas jendela” yang menghalangi benchmarking dalam industri model besar. “setiap keluar model baru harus dibandingkan dengan gpt-4o. konon skor saya hampir sama, bahkan melebihi di beberapa item individu, tapi bukan berarti tidak ada gap. dengan model tercanggih.
lebih lanjut ia menjelaskan, kesenjangan antar model bersifat multidimensi. salah satu dimensinya adalah aspek kemampuan, baik itu kesenjangan dalam kemampuan dasar seperti kemampuan pemahaman, kemampuan pembangkitan, kemampuan penalaran logis, atau kemampuan mengingat; dimensi lainnya adalah aspek biaya tinggi dan kecepatan alasannya lambat, nyatanya masih kalah dengan model lanjutan.
setiap model yang ingin membuktikan kemampuannya akan masuk ke pemeringkatan. saat melakukan pemeringkatan, dia harus menebak apa yang sedang diuji orang lain dan pertanyaan apa yang bisa saya gunakan dan teknik apa yang saya gunakan. bisa benar. , jadi kalau dilihat dari daftar atau set pengujian, menurut anda kemampuannya sangat dekat, namun masih ada kesenjangan yang jelas dalam aplikasi sebenarnya, "kata robin li.
seorang praktisi model besar mengatakan kepada wartawan bahwa over-fitting (over-fitting) dari set pengujian yang disebutkan oleh robin li terutama mengacu pada fakta bahwa selama proses pelatihan model, model tersebut mempelajari data pelatihan terlalu tepat, sehingga model tersebut gagal. untuk berkinerja baik pada data pelatihan. performanya sangat bagus, namun performanya buruk pada data pengujian yang tidak terlihat. hal ini biasanya berarti bahwa model tersebut sangat kompleks sehingga mampu "mengingat" noise dan detail dalam data pelatihan, namun detail dan noise ini tidak bersifat umum, dan oleh karena itu model tidak dapat digeneralisasi dengan baik ke lebih banyak data baru.
orang-orang yang disebutkan di atas percaya bahwa memang ada keterbatasan dalam pemeringkatan dan skor yang dijalankan. misalnya, karena keterbukaan kumpulan data evaluasi, model dapat dilatih dengan cara yang ditargetkan untuk meningkatkan peringkat, yang mengakibatkan fenomena "" menggesek peringkat". namun, itu tidak sepenuhnya tidak berarti. pemeringkatan masih relatif ini memberikan standar evaluasi kuantitatif untuk membantu orang dengan cepat memahami kinerja berbagai model besar, mendorong semua orang untuk terus mengoptimalkan tingkat teknis model besar melalui kompetisi, dan juga memainkan peran tertentu dalam publisitas dan promosi.
dalam pandangan robin li, "bagian dari hype media mandiri, ditambah dengan motivasi publisitas ketika setiap model baru dirilis, memberikan kesan kepada semua orang bahwa perbedaan kemampuan antar model relatif kecil. faktanya, tidak demikian halnya." . " robin li mengatakan bahwa dalam penggunaan sebenarnya, baidu tidak mengizinkan personel teknis membuat peringkat. pengukuran nyata atas kemampuan model besar harus dilakukan dalam skenario aplikasi tertentu untuk melihat apakah model tersebut dapat memenuhi kebutuhan pengguna dan menghasilkan peningkatan nilai.
adapun "12 bulan ke depan atau 18 bulan ke belakang" yang sering disebut-sebut di industri model besar, menurutnya tidak terlalu penting. karena setiap perusahaan berada dalam lingkungan pasar yang sepenuhnya kompetitif, terdapat banyak pesaing, apa pun arah yang diambilnya. “jika anda selalu bisa unggul 12 hingga 18 bulan dari pesaing anda, anda tidak akan terkalahkan. jangan berpikir bahwa 12 hingga 18 bulan adalah waktu yang singkat. bahkan jika anda selalu bisa 6 bulan lebih maju dari pesaing anda, anda akan menang. pangsa pasar anda mungkin 70%, sedangkan lawan anda mungkin hanya memiliki 20% atau bahkan 10%."
ia menilai kesenjangan antar model besar mungkin akan semakin lebar di masa depan. karena plafon model besar sangat tinggi, maka masih jauh dari situasi ideal. oleh karena itu, model tersebut perlu terus diulang, diperbarui, dan ditingkatkan dengan cepat; model tersebut harus dapat berinvestasi terus menerus selama beberapa tahun atau lebih dari sepuluh tahun untuk terus memenuhi kebutuhan pengguna, mengurangi biaya dan meningkatkan efisiensi.
selain membahas apakah terdapat hambatan persaingan pada model besar, dalam pertukaran tersebut, robin li juga menyebutkan bahwa terdapat banyak kesalahpahaman mengenai model besar, termasuk topik seperti efisiensi model open source dan close source, serta ai. agen.
robin li adalah pendukung setia model besar sumber tertutup. "sebelum era model besar, semua orang terbiasa dengan sumber terbuka yang berarti gratis dan berbiaya rendah." dia menjelaskan bahwa misalnya linux sumber terbuka, karena komputer sudah ada, jadi linux digunakan gratis. namun hal ini tidak berlaku di era model besar. inferensi model besar sangat mahal, dan model sumber terbuka tidak menyediakan daya komputasi. anda harus membeli peralatan sendiri, yang tidak dapat mencapai pemanfaatan daya komputasi secara efisien.
"model sumber terbuka tidak efisien dalam hal efisiensi." dia berkata, "tepatnya, model sumber tertutup harus disebut model bisnis. ini adalah cara bagi banyak pengguna untuk berbagi biaya penelitian dan pengembangan, sumber daya mesin, dan gpu untuk kesimpulannya. efisiensi penggunaan gpu adalah yang tertinggi. artikel baidu penggunaan gpu model xinda 3.5 dan 4.0 telah mencapai lebih dari 90%.
robin li menganalisis bahwa dalam bidang seperti pengajaran dan penelitian ilmiah, model open source sangat berharga, namun dalam bidang komersial, ketika mengejar efisiensi, efektivitas dan biaya terendah, model open source tidak memiliki keunggulan.
mengenai evolusi penerapan model besar, ia juga mengutarakan pandangannya. yang pertama adalah copilot, yang membantu orang; yang berikutnya adalah agen intelijen, yang memiliki tingkat otonomi tertentu dan dapat menggunakan alat secara mandiri, berefleksi, dan berevolusi sendiri ; jika tingkat otomatisasi ini berkembang lebih lanjut, maka akan menjadi pekerja ai yang dapat menyelesaikan seluruh aspek pekerjaan secara mandiri.
saat ini, agen cerdas telah menarik lebih banyak perhatian dari perusahaan model besar dan pelanggan. robin li percaya bahwa meskipun banyak orang optimis dengan arah pengembangan ini, hingga saat ini, agen cerdas belum menjadi konsensus.
“ambang batas untuk agen cerdas memang sangat rendah.” dia mengatakan bahwa banyak orang tidak tahu cara mengubah model besar menjadi aplikasi, dan agen cerdas adalah cara yang sangat langsung, efisien, dan sederhana agen di atas model.
(artikel ini berasal dari china business news)
laporan/umpan balik