berita

Mengungkap DeepSeek: Kisah idealisme teknologi Tiongkok yang lebih ekstrem |. 36Kr Eksklusif

2024-07-22

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Teks |. Yu Lili
Penyunting |.Liu Jing

Di antara tujuh model startup besar di Tiongkok, DeepSeek adalah yang paling tidak terkenal, namun selalu dapat diingat dengan cara yang tidak terduga.

Setahun yang lalu, kejutan ini datang dari fakta bahwa raksasa ekuitas swasta kuantitatif Huan Fang di belakangnya adalah satu-satunya perusahaan di luar produsen besar yang mencadangkan 10,000 chip A100. Setahun kemudian, kejutan ini datang dari fakta bahwa itu adalah sumbernya perang harga untuk model besar Tiongkok.

Pada bulan Mei, yang terus menerus dibombardir oleh AI, DeepSeek menjadi terkenal. Alasannya adalah mereka merilis model sumber terbuka yang disebut DeepSeek V2, yang memberikan efektivitas biaya yang belum pernah terjadi sebelumnya: biaya inferensi dikurangi menjadi hanya 1 yuan per juta token, yaitu sekitar sepertujuh dari Llama3 70B, GPT-4 One- ketujuh puluh dari Turbo.

Sementara DeepSeek dengan cepat dijuluki sebagai "Pinduoduo dari industri AI", produsen besar seperti ByteDance, Tencent, Baidu, dan Alibaba juga tidak tahan dan memotong harga satu demi satu. Perang harga model besar-besaran di Tiongkok akan segera pecah.

Asap tembakan sebenarnya menyembunyikan fakta bahwa tidak seperti banyak perusahaan besar yang menghabiskan uang untuk subsidi, DeepSeek menguntungkan.

Di balik ini adalah inovasi menyeluruh DeepSeek dalam arsitektur model. Ini mengusulkan MLA baru (Mekanisme perhatian baru yang potensial bagi pembeli) arsitektur, mengurangi penggunaan memori hingga 5%-13% dari arsitektur MHA yang paling umum digunakan di masa lalu. Pada saat yang sama, struktur DeepSeekMoESparse aslinya juga mengurangi jumlah penghitungan hingga ekstrem, yang semuanya pada akhirnya berkontribusi pada pengurangan penggunaan memori. pengurangan biaya.

Di Silicon Valley, DeepSeek disebut sebagai "kekuatan misterius dari Timur". Kepala analis SemiAnalysis percaya bahwa makalah DeepSeek V2 "mungkin yang terbaik tahun ini." Mantan karyawan OpenAI Andrew Carr menyebut makalah ini "penuh dengan kebijaksanaan luar biasa" dan menerapkan pengaturan pelatihannya pada modelnya sendiri. Jack Clark, mantan direktur kebijakan OpenAI dan salah satu pendiri Anthropic, percaya bahwa DeepSeek "mempekerjakan sekelompok penyihir yang tidak dapat diprediksi" dan percaya bahwa model besar buatan Tiongkok "akan menjadi sama pentingnya dengan drone dan mobil listrik yang tidak dapat diabaikan." kekuatan."

Ini adalah situasi yang jarang terjadi dalam gelombang AI di mana Silicon Valley pada dasarnya menggerakkan cerita tersebut.Banyak orang dalam industri memberi tahu kami,Respons yang kuat ini berasal dari inovasi di tingkat arsitektur, yang merupakan upaya langka yang dilakukan oleh perusahaan model besar dalam negeri dan bahkan model besar berbasis sumber terbuka global. Seorang peneliti AI mengatakan bahwa arsitektur Attention telah diusulkan selama bertahun-tahun, namun hampir tidak pernah berhasil dimodifikasi, apalagi verifikasi skala besar. “Itu bahkan sebuah gagasan yang terputus dari pengambilan keputusan karena kebanyakan orang kurang percaya diri.”

Di sisi lain, model-model besar dalam negeri jarang sekali terlibat dalam inovasi di tingkat arsitektur sebelumnya, juga karena hanya sedikit orang yang berinisiatif untuk mematahkan stereotip tersebut:Amerika Serikat lebih baik dalam inovasi teknologi dari 0-1, sedangkan Tiongkok lebih baik dalam inovasi aplikasi dari 1-10. Terlebih lagi, perilaku seperti ini sangat tidak ekonomis - model generasi baru dengan sendirinya akan diproduksi oleh seseorang dalam beberapa bulan, dan perusahaan China hanya perlu mengikuti dan menerapkannya dengan baik. Menginovasi struktur model berarti tidak ada jalan yang harus diikuti, banyak kegagalan yang harus dialami, dan waktu serta biaya ekonomi yang sangat besar.

DeepSeek jelas merupakan pemberontak. Di tengah desakan bahwa teknologi model besar pasti akan menyatu dan mengikuti adalah jalan pintas yang lebih cerdas, DeepSeek menghargai nilai yang terakumulasi dalam "jalan memutar" dan percaya bahwa selain inovasi aplikasi, pengusaha model besar Tiongkok juga dapat bergabung dengan inovasi teknologi global. torrent tersebut.

Banyak pilihan DeepSeek yang unik. Hingga saat ini, di antara 7 model startup skala besar di Tiongkok, hanya mereka yang menyerah pada jalur "kebutuhan dan keinginan" dan fokus pada riset dan teknologi tanpa melakukan aplikasi toC yang belum sepenuhnya mempertimbangkan komersialisasi dan dengan tegas memilih Ada perusahaan yang bahkan belum meningkatkan modal di jalur open source. Hal ini membuatnya sering terlupakan di luar meja poker, namun di sisi lain sering disebarkan oleh pengguna di masyarakat seperti “air keran”.

Bagaimana DeepSeek dibuat? Untuk tujuan ini, kami mewawancarai Liang Wenfeng, pendiri DeepSeek yang jarang muncul.

Pendiri pasca tahun 80an ini, yang telah mempelajari teknologi di balik layar sejak era Magic Square, masih melanjutkan gayanya yang sederhana di era DeepSeek, seperti semua peneliti, dia "membaca makalah, menulis kode, dan berpartisipasi dalam diskusi kelompok". setiap hari.

Berbeda dengan banyak pendiri dana kuantitatif yang memiliki pengalaman dalam dana lindung nilai di luar negeri dan sebagian besar mengambil jurusan fisika, matematika, dll., Liang Wenfeng selalu berasal dari latar belakang lokal dan mempelajari kecerdasan buatan di Departemen Teknik Elektronika Universitas Zhejiang pada tahun-tahun awalnya. .

Banyak orang dalam industri dan peneliti DeepSeek memberi tahu kami bahwa Liang Wenfeng adalah orang yang sangat langka di industri AI Tiongkok saat ini yang "memiliki kemampuan rekayasa infra yang kuat dan kemampuan penelitian model, serta dapat memobilisasi sumber daya", "dapat membuat penilaian yang akurat dari tingkat tinggi , dan dapatkah Seseorang yang "lebih baik dari peneliti garis depan dalam hal detail", dia memiliki "kemampuan belajar yang sangat buruk", dan pada saat yang sama, dia "sama sekali tidak seperti bos, tetapi lebih seperti seorang geek."

Ini adalah wawancara yang jarang terjadi. Dalam wawancara tersebut, idealis teknis ini memberikan suara yang sangat langka di kalangan ilmu pengetahuan dan teknologi Tiongkok:Dia adalah salah satu dari sedikit orang yang menempatkan “pandangan benar dan salah” di atas “pandangan kepentingan”, mengingatkan kita akan kelembaman zaman, dan menempatkan “inovasi orisinal” dalam agenda.

Setahun yang lalu, ketika DeepSeek baru saja berakhir, kami mewawancarai Liang Wenfeng untuk pertama kalinya: "Crazy Magic Square: Jalan Menuju Model Besar Raksasa AI yang Tak Terlihat".Jika Anda mengucapkan kalimat itu saat itu"Anda harus sangat ambisius, tetapi juga sangat tulus."Slogan ini masih indah, namun satu tahun kemudian, menjadi sebuah tindakan.

Berikut ini adalah bagian dari percakapan tersebut:

Bagaimana awal terjadinya perang harga?

"Arus Bawah": Setelah peluncuran model DeepSeek V2, hal itu dengan cepat memicu perang harga model berskala besar yang berdarah. Beberapa orang mengatakan bahwa Anda adalah ikan lele di industri ini.

Liang Wenfeng: Kami tidak bermaksud menjadi ikan lele, kami hanya tidak sengaja menjadi ikan lele.

"Arus Bawah": Apakah hasil ini mengejutkan Anda?

Liang Wenfeng : Sangat tidak terduga. Saya tidak menyangka harganya akan membuat semua orang begitu sensitif. Kami hanya melakukan berbagai hal sesuai kecepatan kami sendiri dan menghitung harga biaya. Prinsip kami adalah tidak memberi uang atau mendapat untung besar. Harga ini juga sedikit keuntungan di atas biayanya.

"Arus Bawah": Zhipu AI ditindaklanjuti 5 hari kemudian, diikuti oleh Byte, Alibaba, Baidu, Tencent, dan perusahaan besar lainnya.

Liang Wenfeng : Zhipu AI adalah produk entry-level, dan model dengan level yang sama dengan kami masih sangat mahal. Byte benar-benar orang pertama yang mengikuti. Model andalannya turun ke harga yang sama dengan kami, yang kemudian memicu produsen besar lainnya untuk menurunkan harganya. Karena harga model dari produsen besar jauh lebih tinggi daripada harga kami, kami tidak menyangka ada orang yang akan kehilangan uang karena melakukan hal ini, dan pada akhirnya hal ini menjadi logika subsidi yang menghabiskan banyak uang di era Internet.

"Arus Bawah": Dari luar, pemotongan harga terlihat seperti mencoba menarik pengguna, yang biasanya terjadi pada perang harga di era Internet.

Liang Wenfeng : Meraih pengguna bukanlah tujuan utama kami. Di satu sisi, kami menurunkan harga karena kami sedang menjajaki struktur model generasi berikutnya, dan biayanya telah diturunkan terlebih dahulu. Di sisi lain, kami juga merasa bahwa API dan AI harus bersifat universal dan terjangkau bagi semua orang.

"Arus Bawah": Sebelumnya, sebagian besar perusahaan China akan langsung menyalin struktur Llama generasi ini untuk aplikasi.

Liang Wenfeng : Jika tujuannya adalah untuk membuat aplikasi, maka menggunakan struktur Llama dan produk yang pendek, datar, dan cepat juga merupakan pilihan yang masuk akal. Namun tujuan kami adalah AGI, yang berarti kami perlu mempelajari struktur model baru untuk mencapai kemampuan model yang lebih kuat dengan sumber daya yang terbatas. Ini adalah salah satu studi dasar yang diperlukan untuk memperluas model yang lebih besar. Selain struktur model, kami juga telah melakukan banyak penelitian lain, termasuk bagaimana menyusun data, bagaimana membuat model agar lebih mirip manusia, dll, yang semuanya tercermin dalam model yang kami rilis. Selain itu, struktur Llama diperkirakan tertinggal dua generasi di belakang tingkat mahir asing dalam hal efisiensi pelatihan dan biaya inferensi.

"Arus Bawah": Dari manakah sumber kesenjangan generasi ini?

Liang Wenfeng : Pertama, terdapat kesenjangan dalam efisiensi pelatihan. Kami memperkirakan bahwa struktur model dan dinamika pelatihan mungkin dua kali lebih berbeda antara model domestik terbaik dan model asing terbaik. Untuk mencapai efek yang sama, kami harus mengonsumsi daya komputasi dua kali lipat. Selain itu, mungkin ada kesenjangan dua kali lipat dalam efisiensi data, yang berarti kita harus mengonsumsi data pelatihan dan daya komputasi dua kali lebih banyak untuk mencapai efek yang sama. Secara keseluruhan, ini mengkonsumsi daya komputasi 4 kali lebih banyak. Yang harus kita lakukan adalah terus mempersempit kesenjangan ini.

"Arus Bawah": Sebagian besar perusahaan Tiongkok memilih untuk memiliki model dan aplikasi. Mengapa DeepSeek saat ini memilih untuk hanya melakukan penelitian dan eksplorasi?

Liang Wenfeng : Karena kami merasa yang terpenting saat ini adalah berpartisipasi dalam gelombang inovasi global. Dalam beberapa tahun terakhir, perusahaan Tiongkok telah terbiasa dengan perusahaan lain yang membuat inovasi teknologi dan kami menggunakannya untuk memonetisasi aplikasi, namun hal ini bukanlah suatu hal yang wajar. Dalam gelombang ini, titik awal kita bukanlah memanfaatkan peluang untuk menghasilkan banyak uang, namun menjadi yang terdepan dalam teknologi untuk mendorong perkembangan seluruh ekosistem.

"Arus Bawah": Persepsi inersia yang tersisa bagi sebagian besar orang di era Internet dan Internet seluler adalah bahwa Amerika Serikat pandai dalam inovasi teknologi, sedangkan Tiongkok lebih baik dalam bidang aplikasi.

Liang Wenfeng: Kami percaya bahwa dengan pembangunan ekonomi,Tiongkok juga harus secara bertahap menjadi kontributor dan bukannya selalu menjadi penumpang bebas.Selama gelombang TI selama tiga puluh tahun terakhir ini, pada dasarnya kita belum berpartisipasi dalam inovasi teknologi yang nyata. Kita sudah terbiasa dengan Hukum Moore yang jatuh dari langit, dan perangkat keras serta perangkat lunak yang lebih baik akan muncul hanya dalam waktu 18 bulan di rumah. Scaling Law juga diperlakukan dengan cara ini.

Namun pada kenyataannya, ini adalah sesuatu yang telah diciptakan oleh komunitas teknologi yang didominasi Barat tanpa lelah selama beberapa generasi, hanya karena kita tidak berpartisipasi dalam proses ini sebelumnya, jadi kita mengabaikan keberadaannya.

Kesenjangan sebenarnya bukan satu atau dua tahun, tapi perbedaan antara orisinalitas dan tiruan

"Arus Bawah": Mengapa DeepSeek V2 mengejutkan banyak orang di Silicon Valley?

Liang Wenfeng : Di antara banyaknya inovasi yang terjadi setiap hari di Amerika Serikat, hal ini merupakan salah satu inovasi yang sangat umum.Alasan mengapa mereka terkejut adalah karena ini adalah perusahaan ChinaBergabunglah dengan permainan mereka sebagai kontributor inovatif.Lagi pula, sebagian besar perusahaan Tiongkok terbiasa mengikuti daripada berinovasi.

"Arus Bawah": Namun dalam konteks Tiongkok, pilihan ini terlalu berlebihan. Model besar adalah permainan investasi besar-besaran, dan tidak semua perusahaan mempunyai modal untuk hanya meneliti inovasi tanpa terlebih dahulu mempertimbangkan komersialisasi.

Liang Wenfeng : Biaya inovasi jelas tidak murah, dan kelambanan apropriasionisme di masa lalu juga terkait dengan kondisi nasional di masa lalu. Tapi sekarang, apakah Anda melihat ukuran ekonomi Tiongkok atau keuntungan perusahaan besar seperti Byte dan Tencent, mereka tidaklah rendah di dunia. Kekurangan kita dalam inovasi jelas bukan modal, tapi kurangnya rasa percaya diri dan tidak tahu bagaimana mengorganisir talenta-talenta dengan kepadatan tinggi untuk mencapai inovasi yang efektif.

"Arus Bawah": Mengapa perusahaan-perusahaan Tiongkok, termasuk perusahaan-perusahaan besar yang tidak kekurangan uang, begitu mudah menganggap komersialisasi cepat sebagai prioritas pertama?

Liang Wenfeng : Dalam tiga puluh tahun terakhir, kita hanya menekankan pada menghasilkan uang dan mengabaikan inovasi. Inovasi tidak sepenuhnya didorong oleh bisnis, namun juga memerlukan rasa ingin tahu dan kreativitas. Kita hanya terikat oleh kelembaman masa lalu, tapi itu juga sebuah fase.

"Arus Bawah": Namun bagaimanapun juga, Anda adalah organisasi komersial, bukan lembaga penelitian ilmiah kesejahteraan masyarakat. Anda memilih untuk berinovasi dan membagikannya melalui sumber terbuka. Inovasi seperti arsitektur MLA di bulan Mei akan segera ditiru oleh perusahaan lain, bukan?

Liang Wenfeng:ada Dalam menghadapi teknologi yang disruptif, parit yang dibentuk oleh sumber tertutup tidak akan bertahan lama. Meskipun OpenAI adalah sumber tertutup, OpenAI tidak dapat mencegahnya diambil alih oleh pihak lain.Oleh karena itu, kami memberikan nilai dalam tim. Kolega kami tumbuh dalam prosesnya, mengumpulkan banyak pengetahuan, dan membentuk organisasi dan budaya yang dapat berinovasi, yang merupakan parit kami.

Faktanya, tidak ada ruginya bagi makalah open source dan penerbitan. Bagi staf teknis, diikuti adalah suatu pencapaian yang luar biasa. Faktanya, open source lebih seperti perilaku budaya daripada perilaku komersial. Memberi sebenarnya merupakan suatu kehormatan ekstra. Perusahaan yang melakukan hal ini juga akan memiliki daya tarik budaya.

"Arus Bawah": Apa pendapat Anda tentang penganut pasar seperti Zhu Xiaohu?

Liang Wenfeng: Zhu Xiaohu adalah orang yang konsisten, tetapi gaya permainannya lebih cocok untuk perusahaan yang menghasilkan uang dengan cepat. Dan jika Anda melihat perusahaan paling menguntungkan di Amerika Serikat, mereka semua adalah perusahaan teknologi tinggi dengan akumulasi yang dalam.

“Arus Bawah” (Undercurrent): Namun ketika menyangkut model skala besar, sulit untuk membentuk keunggulan absolut hanya dengan memimpin dalam teknologi.

Liang WenfengApa yang kami lihat adalah AI Tiongkok tidak selalu bisa mengikuti. Kita sering mengatakan bahwa ada kesenjangan satu atau dua tahun antara AI Tiongkok dan Amerika Serikat, namun kesenjangan sebenarnya adalah perbedaan antara orisinalitas dan tiruan. Jika hal ini tidak berubah, Tiongkok akan selalu menjadi pengikutnya, sehingga sejumlah eksplorasi tidak bisa dihindari.

Kepemimpinan NVIDIA bukan hanya upaya satu perusahaan, namun hasil upaya bersama seluruh komunitas dan industri teknologi Barat. Mereka dapat melihat tren teknologi generasi berikutnya dan memiliki peta jalan. Perkembangan AI di Tiongkok juga membutuhkan ekosistem seperti itu. Banyak chip dalam negeri tidak dapat dikembangkan karena kurangnya dukungan komunitas teknis dan hanya informasi bekas. Oleh karena itu, Tiongkok harus memiliki seseorang yang berada di garis depan dalam teknologi.

Lebih banyak investasi tidak selalu menghasilkan lebih banyak inovasi

"Arus Bawah": DeepSeek saat ini memiliki temperamen idealis sejak awal OpenAI, dan juga open source. Apakah Anda akan memilih sumber tertutup di masa depan? Baik OpenAI maupun Mistral telah melalui proses peralihan dari open source ke close source.

Liang Wenfeng : Kami tidak akan menutup sumbernya. Kami percaya bahwa yang lebih penting adalah memiliki ekosistem teknis yang kuat terlebih dahulu.

"Arus Bawah": Apakah Anda mempunyai rencana pembiayaan? Menurut laporan media, Huanfang memiliki rencana untuk memisahkan dan mendaftarkan DeepSeek secara independen. Startup AI di Silicon Valley pada akhirnya akan terikat dengan produsen besar.

Liang Wenfeng: Tidak ada rencana pembiayaan dalam jangka pendek. Masalah yang kami hadapi bukanlah uang, melainkan embargo chip kelas atas.

"Arus Bawah": Banyak orang percaya bahwa melakukan AGI dan melakukan kuantifikasi adalah dua hal yang sangat berbeda. Kuantifikasi dapat dilakukan secara diam-diam, namun AGI mungkin memerlukan lebih banyak upaya dan aliansi tingkat tinggi, yang dapat meningkatkan investasi Anda.

Liang Wenfeng : Lebih banyak investasi tidak selalu menghasilkan lebih banyak inovasi. Jika tidak, pabrikan besar bisa mengambil alih semua inovasi.

"Arus Bawah": Anda tidak membuat aplikasi sekarang, apakah karena Anda tidak memiliki gen untuk beroperasi?

Liang Wenfeng : Kami percaya bahwa tahapan saat ini adalah periode ledakan inovasi teknologi, bukan periode ledakan penerapan. Dalam jangka panjang, kami berharap dapat membentuk ekosistem di mana industri secara langsung menggunakan teknologi dan keluaran kami. Kami hanya bertanggung jawab atas model dasar dan inovasi mutakhir, dan kemudian perusahaan lain membangun bisnis toB dan toC berdasarkan DeepSeek. Kalau kita bisa membentuk industri hulu dan hilir yang utuh, kita tidak perlu membuat aplikasi sendiri. Tentu saja bila diperlukan tidak ada kendala bagi kami untuk menerapkannya, namun riset dan inovasi teknologi akan selalu menjadi prioritas utama kami.

"Arus Bawah": Namun ketika memilih API, mengapa memilih DeepSeek daripada produsen besar?

Liang Wenfeng: Dunia di masa depan kemungkinan besar akan menjadi salah satu divisi kerja yang terspesialisasi. Model dasar skala besar memerlukan inovasi berkelanjutan.

"Arus Bawah": Namun apakah teknologi benar-benar dapat memperlebar kesenjangan? Anda juga mengatakan bahwa tidak ada rahasia teknis yang mutlak.

Liang Wenfeng : Tidak ada rahasia dalam teknologi, namun melakukan reset membutuhkan waktu dan biaya. Secara teori, kartu grafis NVIDIA tidak memiliki rahasia teknis apa pun dan mudah untuk ditiru, namun perlu waktu untuk mengatur ulang tim dan mengejar teknologi generasi berikutnya, sehingga parit sebenarnya masih sangat luas.

"Arus Bawah": Setelah Anda menurunkan harga, Byte menindaklanjutinya terlebih dahulu, yang menunjukkan bahwa mereka masih merasakan semacam ancaman. Apa pendapat Anda tentang solusi baru bagi startup untuk bersaing dengan perusahaan besar?

Liang Wenfeng : Sejujurnya, kami tidak terlalu peduli dengan masalah ini, kami hanya melakukannya saja. Menyediakan layanan cloud bukanlah tujuan utama kami. Tujuan kami tetap mencapai AGI.

Saya belum melihat solusi baru apa pun sejauh ini, namun produsen besar juga tidak memiliki keuntungan yang jelas. Pabrikan besar mempunyai pengguna yang siap pakai, namun bisnis arus kas mereka juga menjadi beban, membuat mereka rentan terhadap subversi kapan saja.

"Undercurrent": Apa pendapat Anda tentang hasil dari enam startup model besar selain DeepSeek?

Liang Wenfeng : Mungkin 2 atau 3 keluarga akan bertahan. Kita masih dalam tahap pembakaran uang, sehingga mereka yang memiliki posisi yang jelas dan operasional yang lebih baik mempunyai peluang lebih besar untuk bertahan hidup. Perusahaan lain mungkin akan diciptakan kembali. Hal-hal yang berharga tidak akan hilang, namun akan berubah.

"Arus Bawah": Di era kotak ajaib, sikap dalam menghadapi persaingan dinilai sebagai "menjalani jalannya sendiri" dan jarang memperhatikan perbandingan horizontal. Terkait persaingan, apa yang menjadi titik awal pemikiran Anda?

Liang Wenfeng : Yang sering saya pikirkan adalah apakah suatu hal dapat membuat masyarakat lebih efisien, dan apakah Anda dapat menemukan posisi yang Anda kuasai dalam pembagian industri dalam rantai tenaga kerja. Selama hasil akhirnya adalah membuat masyarakat lebih efisien, maka hal tersebut sah. Ada banyak tahapan di antaranya, dan perhatian yang berlebihan pasti akan membuat Anda pusing.

Sekelompok anak muda yang melakukan hal-hal yang “tak terduga”.

"Undercurrent": Jack Clark, mantan direktur kebijakan OpenAI dan salah satu pendiri Anthropic, percaya bahwa DeepSeek mempekerjakan "sekelompok penyihir yang tidak dapat diprediksi". Orang seperti apa yang membuat DeepSeek v2?

Liang Wenfeng: Tidak ada orang jenius yang misterius, mereka semua adalah lulusan baru dari universitas ternama, magang dengan gelar PhD 4 dan 5 yang belum lulus, dan beberapa anak muda yang baru lulus beberapa tahun yang lalu.

"Arus Bawah": Banyak perusahaan model besar yang gigih merekrut orang di luar negeri. Banyak orang berpikir bahwa 50 talenta terbaik di bidang ini mungkin tidak berasal dari perusahaan China.

Liang Wenfeng : Tidak ada orang yang kembali dari luar negeri dengan model V2, semuanya lokal. 50 talenta terbaik mungkin tidak ada di Tiongkok, tapi mungkin kita bisa membangun orang-orang seperti itu sendiri.

"Arus Bawah": Bagaimana inovasi MLA ini terjadi? Saya dengar idenya pertama kali datang dari ketertarikan pribadi seorang peneliti muda?

Liang Wenfeng : Setelah merangkum beberapa perubahan utama dalam arsitektur Attention, dia tiba-tiba ingin merancang alternatif. Namun, dibutuhkan proses yang panjang mulai dari ide hingga implementasi. Kami membentuk tim untuk ini dan kami memerlukan waktu beberapa bulan untuk menyelesaikannya.

"Arus Bawah": Kelahiran inspirasi yang berbeda ini berkaitan erat dengan struktur organisasi Anda yang sepenuhnya inovatif. Di era Magic Square, jarang sekali Anda menetapkan tujuan atau tugas dari atas ke bawah. Namun apakah AGI, sebuah eksplorasi perbatasan yang penuh ketidakpastian, memerlukan lebih banyak tindakan pengelolaan?

Liang Wenfeng : DeepSeek juga bersifat bottom-up. Selain itu, pada umumnya kita tidak mengutamakan pembagian kerja, melainkan pembagian kerja yang alamiah. Setiap orang memiliki pengalaman pertumbuhan yang unik dan memiliki ide-idenya sendiri, jadi tidak perlu memaksakannya. Dalam proses eksplorasi, ketika menemui permasalahan, ia akan mengajak orang lain untuk berdiskusi. Namun ketika sebuah ide menunjukkan potensi, kami akan mengalokasikan sumber daya dari atas ke bawah.

"Arus Bawah": Saya mendengar bahwa DeepSeek sangat fleksibel dalam memobilisasi kartu dan orang.

Liang Wenfeng : Masing-masing dari kita tidak memiliki batasan atas dalam transfer kartu dan orang. Jika Anda punya ide, semua orang dapat menghubungi kartu cluster pelatihan kapan saja tanpa persetujuan. Pada saat yang sama, karena tidak ada hierarki dan lintas departemen, setiap orang dapat dipanggil secara fleksibel selama pihak lain juga berkepentingan.

"Arus Bawah": Metode manajemen yang longgar juga bergantung pada Anda memilih sekelompok orang yang didorong oleh cinta yang kuat. Saya mendengar bahwa Anda sangat pandai merekrut orang berdasarkan detail, dan dapat memilih beberapa orang berprestasi berdasarkan indikator evaluasi non-tradisional.

Liang Wenfeng : Kriteria kami dalam memilih orang selalu cinta dan rasa ingin tahu, sehingga banyak orang akan mendapatkan pengalaman unik, yang sangat menarik. Banyak orang yang lebih ingin melakukan penelitian daripada memikirkan uang.

"Undercurrent": Transformer lahir di Lab AI Google, dan ChatGPT lahir di OpenAI. Menurut Anda apa perbedaan nilai inovasi antara AILab perusahaan besar dan perusahaan startup?

Liang Wenfeng : Baik itu Google Labs, OpenAI, atau bahkan AI Labs dari perusahaan besar Tiongkok, semuanya berharga. Pada akhirnya, OpenAI berhasil, dan itu juga merupakan kecelakaan bersejarah.

"Arus Bawah": Apakah sebagian besar inovasi merupakan suatu kebetulan? Saya melihat deretan ruang konferensi di tengah area kantor Anda memiliki pintu di kiri dan kanan yang bisa dibuka sesuka hati. Rekan-rekan Anda mengatakan bahwa ini untuk memberikan ruang bagi peluang. Dalam kelahiran transformator, ada sebuah cerita di mana orang-orang yang kebetulan mendengarnya dan bergabung, akhirnya mengubahnya menjadi kerangka universal.

Liang Wenfeng : Menurut saya inovasi pada dasarnya adalah soal keyakinan. Mengapa Silicon Valley begitu inovatif? Yang pertama adalah berani. Ketika Chatgpt keluar, seluruh negara kurang percaya pada inovasi mutakhir. Dari investor hingga produsen besar, semua orang merasa kesenjangannya terlalu besar, jadi mereka sebaiknya membuat aplikasi saja. Namun inovasi pertama-tama membutuhkan kepercayaan diri. Rasa percaya diri ini biasanya lebih terasa pada orang yang lebih muda.

"Arus Bawah": Tapi Anda tidak berpartisipasi dalam pembiayaan, jarang berbicara kepada dunia luar, dan suara sosial Anda jelas tidak sebaik perusahaan-perusahaan yang aktif dalam pembiayaan. Bagaimana Anda bisa memastikan bahwa DeepSeek adalah pilihan pertama orang yang ingin membuat model besar?

Liang Wenfeng: Karena kami melakukan hal yang paling sulit.Hal yang paling menarik bagi talenta-talenta terbaik adalah menyelesaikan permasalahan tersulit di dunia. Faktanya, talenta-talenta terbaik diremehkan di Tiongkok. Karena terlalu sedikit inovasi inti di seluruh tingkat sosial, maka inovasi tersebut tidak mempunyai peluang untuk diidentifikasi. Kami melakukan hal tersulit yang menarik bagi mereka.

"Arus Bawah": Peluncuran OpenAI beberapa waktu lalu tidak menunggu GPT5. Banyak orang berpikir bahwa kurva teknologi jelas melambat, dan banyak orang mulai mempertanyakan Hukum Penskalaan.

Liang Wenfeng : Kami optimis dan seluruh industri tampaknya sejalan dengan ekspektasi. OpenAI bukanlah dewa dan tidak bisa selalu menjadi yang terdepan.

"Undercurrent": Menurut Anda berapa lama waktu yang dibutuhkan untuk mewujudkan AGI? Sebelum merilis DeepSeek V2, Anda merilis pembuatan kode dan model matematika, dan juga beralih dari model padat ke MOE.

Liang Wenfeng : Mungkin 2 tahun, 5 tahun atau 10 tahun. Singkatnya, itu akan terwujud dalam hidup kita. Mengenai peta jalannya, bahkan di dalam perusahaan kami, belum ada konsensus. Tapi kami bertaruh pada tiga arah. Yang pertama adalah matematika dan kode, yang kedua adalah multimodalitas, dan yang ketiga adalah bahasa alami itu sendiri. Matematika dan kode adalah tempat pengujian alami untuk AGI. Ini mirip dengan Go. Ini adalah sistem yang tertutup dan dapat diverifikasi, dan dimungkinkan untuk mencapai kecerdasan tinggi melalui pembelajaran mandiri. Di sisi lain, pembelajaran multimodal yang melibatkan manusia di dunia nyata mungkin juga diperlukan untuk AGI. Kami terbuka terhadap segala kemungkinan.

"Undercurrent": Menurut Anda seperti apa akhir dari model besar itu?

Liang Wenfeng : Akan ada perusahaan khusus yang menyediakan model dasar dan layanan dasar, dan akan ada rantai panjang pembagian kerja profesional. Lebih banyak orang dapat memenuhi beragam kebutuhan masyarakat secara keseluruhan.

Semua rutinitas adalah produk generasi sebelumnya

"Arus Bawah": Dalam setahun terakhir, telah terjadi banyak perubahan dalam model kewirausahaan besar di Tiongkok. Misalnya, Wang Huiwen, yang aktif pada awal tahun lalu, mengundurkan diri dari perusahaan di tengah jangka waktu, dan perusahaan yang ia ikuti kemudian bergabung. mulai menunjukkan diferensiasi.

Liang Wenfeng : Wang Huiwen menanggung sendiri semua kerugiannya dan membiarkan orang lain lolos tanpa cedera. Dia membuat pilihan yang paling merugikan dirinya sendiri tetapi juga terbaik bagi semua orang, jadi dia adalah orang yang sangat baik, yang sangat saya kagumi.

"Arus Bawah": Di manakah Anda memfokuskan sebagian besar energi Anda saat ini?

Liang Wenfeng : Fokus utamanya adalah meneliti model besar generasi berikutnya. Masih banyak pertanyaan yang belum terjawab.

"Arus Bawah": Beberapa startup model besar lainnya bersikeras untuk memiliki keduanya. Bagaimanapun, teknologi tidak akan membawa kepemimpinan permanen. Penting juga untuk memanfaatkan waktu untuk memanfaatkan keunggulan teknis dalam produk itu karena kemampuan modelnya tidak cukup?

Liang Wenfeng : Semua rutinitas adalah produk dari generasi sebelumnya dan mungkin tidak berlaku lagi di masa mendatang. Gunakan logika bisnis Internet untuk mendiskusikan model keuntungan AI di masa depan, seperti ketika Ma Huateng memulai bisnisnya, Anda membahas General Electric dan Coca-Cola. Ini mungkin semacam mengukir perahu untuk mencari pedang.

"Arus Bawah": Di masa lalu, Huanfang memiliki gen teknologi dan inovasi yang kuat, dan pertumbuhannya relatif lancar. Apakah ini alasan Anda optimis?

Liang Wenfeng : Magic Square telah meningkatkan kepercayaan kami terhadap inovasi berbasis teknologi sampai batas tertentu, namun hal ini tidak selalu berjalan mulus. Kami telah melalui proses akumulasi yang panjang. Apa yang kami lihat dari luar adalah bagian dari Magic Square setelah tahun 2015, namun sebenarnya kami sudah melakukannya selama 16 tahun.

"Arus Bawah": Kembali ke topik inovasi orisinal. Kini, ketika perekonomian telah memasuki masa kemerosotan dan modal telah memasuki siklus dingin, apakah hal ini akan semakin menghambat inovasi awal?

Liang Wenfeng : Saya kira tidak demikian. Penyesuaian struktur industri Tiongkok akan lebih mengandalkan inovasi pada teknologi inti. Ketika banyak orang mengetahui bahwa menghasilkan uang dengan cepat di masa lalu kemungkinan besar disebabkan oleh keberuntungan, mereka akan lebih bersedia untuk bersandar dan melakukan inovasi nyata.

"Undercurrent": Jadi Anda juga optimis dengan hal ini?

Liang Wenfeng : Saya dibesarkan di kota lapis kelima di Guangdong pada tahun 1980an. Ayah saya adalah seorang guru sekolah dasar. Pada tahun 1990-an, ada banyak peluang untuk menghasilkan uang di Guangdong. Saat itu, banyak orang tua yang datang ke rumah saya. Tapi melihat ke belakang sekarang, ide saya telah berubah. Karena sulitnya menghasilkan uang, saya bahkan mungkin tidak punya kesempatan untuk menjadi supir taksi. Itu berubah dalam satu generasi.

Akan ada lebih banyak inovasi inti di masa depan. Hal ini mungkin tidak mudah untuk dipahami saat ini karena seluruh kelompok sosial perlu dididik mengenai fakta-fakta tersebut. Ketika masyarakat ini memungkinkan orang-orang yang sangat inovatif untuk menjadi sukses, pemikiran kelompok akan berubah.Kita hanya perlu sekumpulan fakta dan proses.