berita

Li Mu: Satu tahun untuk memulai bisnis, tiga tahun untuk hidup

2024-08-15

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina



Diterbitkan dengan izin dari Heart of the Machine

Penulis: Li Mu

  • Izinkan saya melaporkan kepada teman-teman tentang kemajuan, perjuangan dan refleksi LLM di tahun pertama berwirausaha.

Ketika saya berada di Amazon untuk tahun kelima, saya berpikir untuk memulai bisnis, namun tertunda karena epidemi. Pada usia tujuh setengah tahun, saya merasa terlalu gatal, jadi saya mengundurkan diri. Sekarang aku memikirkannya, jika ada sesuatu yang harus aku coba dalam hidupku, aku akan melakukannya sejak dini. Karena begitu Anda benar-benar memulai, Anda akan menemukan begitu banyak hal baru untuk dipelajari, dan Anda selalu bertanya-tanya mengapa Anda tidak memulainya lebih awal.

Nama: Asal BosonAI

Sebelum memulai bisnis, saya melakukan serangkaian proyek yang diberi nama Gluon. Dalam fisika kuantum, Gluon adalah boson yang mengikat quark, melambangkan bahwa proyek ini dimulai sebagai proyek gabungan antara Amazon dan Microsoft. Pada saat itu, manajer proyek menepuk-nepuk kepalanya dan namanya keluar, tetapi penamaan sangat sulit bagi pemrogram. Kami berjuang dengan berbagai nama file dan nama variabel setiap hari. Pada akhirnya, perusahaan baru tersebut hanya menamainya dengan nama Boson. Saya harap semua orang akan tersenyum penuh arti ketika mereka mendapatkan meme "Boson dan fermion membentuk dunia". Tapi saya tidak menyangka banyak orang akan menganggapnya sebagai Boston.

"Aku di Boston. Ayo kita bertemu kapan-kapan?" "Hah? Tapi aku di Bay Area."

Pembiayaan: Investor utama melarikan diri sehari sebelum penandatanganan

Pada akhir tahun 2022, saya mendapat dua ide untuk menggunakan model bahasa besar (LLM) sebagai alat produktivitas. Saya kebetulan bertemu Zhang Yiming dan meminta nasihatnya. Usai berdiskusi, beliau bertanya: Mengapa tidak mengambil LLM sendiri? Saya secara tidak sadar tersentak: Tim kami di Amazon telah melakukan ini selama beberapa tahun, dengan puluhan ribu kartu, dan banyak kesulitan seperti blabla. Yiminghehe berkata: Ini adalah kesulitan jangka pendek, dan kita perlu mengambil pandangan jangka panjang.

Keuntungan saya adalah saya mendengarkan saran dan benar-benar memutuskan untuk menjadi seorang LLM. Tim pendiri mengumpulkan orang-orang yang bertanggung jawab atas data, pra-pelatihan, pasca-pelatihan, dan arsitektur, dan pergi untuk mengumpulkan dana. Jika beruntung, saya segera menerima investasi awal. Tetapi uangnya tidak cukup untuk membeli kartu tersebut, jadi saya harus mendapatkan putaran kedua. Pemimpin putaran ini adalah sebuah organisasi yang sangat besar, yang membutuhkan waktu beberapa bulan untuk mendokumentasikan dan menegosiasikan persyaratannya. Namun sehari sebelum penandatanganan, pemimpin tersebut mengatakan dia tidak akan berinvestasi, yang secara langsung menyebabkan penarikan beberapa investor. Saya sangat berterima kasih kepada investor yang tersisa karena telah menyelesaikan putaran ini dan mendapatkan tiket untuk melakukan LLM.

Kalau saya renungkan hari ini, dengan semangat pasar modal yang masih ada saat itu, sebenarnya saya bisa terus menggalang dana. Mungkin seperti teman-teman yang lain, saya sekarang punya uang tunai satu miliar. Saat itu, saya khawatir jika saya mengumpulkan terlalu banyak uang, akan sulit untuk keluar, atau saya akan terlempar ke langit. Kalau dipikir-pikir, memulai bisnis adalah tentang mengubah hidup Anda melawan rintangan. Apa jalan keluarnya?

Mesin: orang pertama yang memakan kepiting

Jika Anda punya uang, belilah GPU. Saya bertanya kepada berbagai pemasok dan jawaban bulatnya adalah H100 akan dikirimkan satu tahun kemudian. Saya punya ide dan langsung menulis email ke Lao Huang. Lao Huang langsung menjawab dan berkata dia akan memeriksanya. Satu jam kemudian CEO Supermicro menelepon. Saya membayar lebih sedikit, mengantri, dan mendapatkan mesin itu 20 hari kemudian. Saya merasa terhormat bisa makan kepiting lebih awal.

Setelah makan kepiting, saya meragukan hidup saya dan menemukan segala jenis serangga yang luar biasa. Misalnya, catu daya GPU tidak mencukupi, menyebabkan ketidakstabilan. Kemudian, para insinyur Supermicro memodifikasi kode bios dan menambalnya; misalnya, sudut pemotongan serat optik salah, mengakibatkan komunikasi tidak stabil, misalnya tata letak jaringan yang direkomendasikan Nvidia kurang maksimal, jadi kami membuat rencana baru, dan kemudian Nvidia saya sendiri yang mengadopsi rencana ini. Saya masih belum memahaminya. Kami membeli kurang dari seribu kartu, jadi kami bisa dianggap pembeli kecil. Namun bukankah pembeli besar pernah mengalami masalah seperti yang kami alami? Mengapa kami memerlukan debug?

Pada saat yang sama, kami juga menyewa H100 dalam jumlah yang sama, dan terdapat berbagai macam bug. GPU mengalami masalah setiap hari, dan kami bahkan bertanya-tanya apakah hanya kami yang ada di cloud ini. Kemudian, saya melihat laporan teknis Llama 3 yang mengatakan bahwa setelah mereka beralih ke H100, model tersebut terputus ratusan kali selama pelatihan.

Jika kita bandingkan pembangunan sendiri dan sewa, biaya sewa selama tiga tahun hampir sama dengan biaya pembangunan sendiri. Keuntungan menyewa kartu adalah ketenangan pikiran. Ada dua manfaat membangun diri sendiri. Pertama, jika teknologi Nvidia masih unggul jauh dalam tiga tahun ke depan, maka ia bisa mengendalikan harga sehingga GPU tetap bisa mempertahankan nilainya. Alasan lainnya adalah rendahnya biaya penyimpanan data yang dibuat sendiri. Penyimpanan harus dekat dengan GPU. Baik itu cloud besar atau cloud GPU kecil, harga penyimpanannya tinggi. Namun, satu pelatihan model dapat menggunakan beberapa TB ruang untuk menyimpan pos pemeriksaan, dan penyimpanan data pelatihan dimulai pada 10PB. Jika Anda menggunakan AWS S3, biaya 10PB adalah dua juta setahun. Kalau uang ini dipakai untuk pembangunan sendiri bisa mencapai 100PB.

Bisnis: Terima kasih kepada pelanggan, kami mencapai titik impas di tahun pertama

Kami sangat beruntung pemasukan dan pengeluaran kami seimbang di tahun pertama. Pengeluaran kami terutama untuk tenaga kerja dan daya komputasi. Berkat sumber daya keuangan Openai dan keunggulan Nvidia, kedua pengeluaran tersebut cukup besar. Sumber pendapatan kami adalah membuat model yang disesuaikan untuk pelanggan besar. Sebagian besar perusahaan yang memasuki LLM sangat awal karena CEO mereka sangat suka mengambil keputusan. Mereka tidak terintimidasi oleh tingginya daya komputasi dan biaya tenaga kerja, dan dengan tegas mendorong tim internal mereka untuk bekerja sama dalam mencoba teknologi baru. Saya sangat berterima kasih kepada klien karena telah memberi kami waktu untuk bernafas, jika tidak, saya akan bergegas ke berbagai investor dalam beberapa bulan terakhir.

Selanjutnya, lebih banyak perusahaan harus mencoba menggunakan LLM, baik untuk meningkatkan produk mereka sendiri atau mengurangi biaya dan meningkatkan efisiensi. Alasannya adalah di satu sisi, biaya teknologi menurun, dan di sisi lain, para pemimpin industri (seperti pelanggan kami) akan secara berturut-turut merilis produk berbasis LLM, sehingga menggemparkan industri.

Kami juga memperhatikan penerapan LLM pada toC. Pemain top di gelombang sebelumnya, seperti c.ai dan kebingungan, masih mencari model bisnis, tetapi ada juga selusin aplikasi asli LLM kecil dengan pendapatan bagus. Kami menyediakan model untuk perusahaan rintisan yang bermain peran. Mereka fokus pada pemain dalam dan menyeimbangkan pendapatan dan pengeluaran, dan itu juga bagus. Kemampuan model masih terus berkembang, dan lebih banyak modalitas (suara, musik, gambar, video) yang diintegrasikan. Saya yakin akan ada lebih banyak aplikasi imajinatif di masa depan.

Secara keseluruhan, industri dan modal masih belum sabar. Tahun ini, beberapa perusahaan yang telah berdiri lebih dari setahun tetapi telah mengumpulkan miliaran dolar memilih untuk keluar. Dari teknologi hingga produk adalah proses yang panjang, dan biasanya memakan waktu 2 atau 3 tahun. Mengingat munculnya kebutuhan pengguna, mungkin membutuhkan waktu lebih lama. Kami fokus pada masa kini, menjelajahi jalan di tengah kabut, dan tetap optimis terhadap masa depan.

Teknologi: Empat tahap kognisi LLM

Pemahaman LLM telah melalui empat tahap. Tahap pertama dari Bert ke GPT3. Rasanya arsitektur baru dan big data sudah bisa dilakukan. Saat kami berada di Amazon, kami juga langsung terjun untuk melakukan pelatihan skala besar dan implementasi produk.

Tahap kedua adalah ketika GPT4 dirilis ketika saya pertama kali memulai bisnis saya, dan saya sangat terkejut. Sebagian besar alasannya berasal dari fakta bahwa teknologi tersebut tidak dipublikasikan. Menurut rumor yang beredar, waktu pelatihan satu model diperkirakan 100 juta, dan biaya data standarnya puluhan juta. Banyak investor yang bertanya kepada saya berapa biaya untuk mereproduksi GPT4, dan saya menjawab 300-400 juta. Belakangan, salah satu dari mereka justru menginvestasikan ratusan juta.

Tahap ketiga adalah setengah tahun pertama memulai usaha. Kami tidak bisa membuat GPT4, jadi mari kita mulai dari masalah spesifik. Jadi saya mulai mencari pelanggan, termasuk pelanggan di bidang game, pendidikan, penjualan, keuangan, dan asuransi. Latih model berdasarkan kebutuhan spesifik. Pada awalnya, tidak ada model open source yang bagus di pasaran, jadi kami berlatih dari awal. Belakangan, banyak model bagus yang keluar, sehingga mengurangi biaya kami. Kemudian rancang metode evaluasi berdasarkan skenario bisnis, tandai datanya, lihat di mana model tidak berfungsi, dan perbaiki sesuai dengan itu.

Pada akhir tahun 2023, kami terkejut saat mengetahui bahwa model seri Foton (sejenis Boson) kami mengungguli GPT4 dalam aplikasi pelanggan. Keuntungan menyesuaikan model adalah biaya inferensinya 1/10 dari pemanggilan API. Meskipun API saat ini jauh lebih murah, teknologi kami juga mengalami kemajuan dan biayanya masih 1/10. Selain itu, QPS, penundaan, dll. semuanya dikontrol dengan lebih baik. Pemahaman pada tahap ini adalah bahwa untuk aplikasi spesifik, kami dapat mengalahkan model terbaik di pasar.

Tahap keempat adalah paruh kedua tahun memulai usaha. Meskipun pelanggan mendapatkan model yang mereka minta dalam kontrak, hal tersebut tidak sesuai dengan harapan mereka karena GPT4 saja tidak cukup. Pada awal tahun, kami menemukan bahwa sulit bagi model untuk melakukan lompatan lain jika dilatih untuk satu aplikasi. Melihat ke belakang, jika AGI ingin mencapai level manusia biasa, maka yang diinginkan pelanggan adalah level profesional. Permainan membutuhkan perencana profesional dan aktor profesional, pendidikan membutuhkan guru medali emas, penjualan membutuhkan penjualan medali emas, dan keuangan serta asuransi membutuhkan analis senior. Ini semua adalah AGI plus kemampuan profesional industri. Meskipun kami kagum pada AGI pada saat itu, kami merasa hal itu tidak dapat dihindari.

Pada awal tahun kami merancang serangkaian model Higgs (Partikel Dewa, sejenis Boson). Kemampuan umum yang utama adalah mengikuti model terbaik, namun menonjol dalam kemampuan tertentu. Kompetensi yang kami pilih adalah role-playing: bermain karakter virtual, bermain guru, bermain penjualan, bermain analis, dan sebagainya. Itu diulang ke generasi kedua pada pertengahan tahun 2024. Pada Arena-Hard dan AlpacaEval 2.0, yang menguji kemampuan umum, V2 sebanding dengan model terbaik, dan tidak ketinggalan jauh di MMLU-Pro, yang menguji pengetahuan.



Higgs-V2 didasarkan pada basis Llama3, dan kemudian menyelesaikan pasca-pelatihan. Kami tidak dapat menghabiskan banyak uang untuk memberi label data seperti Meta, jadi V2 lebih baik daripada Llama3 Instruct. Alasan utamanya adalah inovasi algoritma.

Kemudian kami membuat review set untuk mengevaluasi role-playing, antara lain bermain sesuai karakter dan bermain sesuai skenario. Saya menyesal model saya menduduki peringkat pertama dalam daftar saya. Namun, tidak ada data yang digunakan untuk evaluasi selama pelatihan model. Karena kumpulan evaluasi ini dimaksudkan untuk penggunaan pribadi sejak awal dan diharapkan benar-benar mencerminkan kemampuan model, maka kumpulan data model yang overfit perlu dihindari. Namun siswa yang melakukan evaluasi ingin menulis laporan teknis, sehingga mereka merilisnya. Menariknya, sampel tes role-playing berasal dari c.ai, tetapi kemampuan modelnya berada di bawah.



Pemahaman tahap keempat adalah model vertikal yang baik tidak boleh lemah dalam kemampuan umum, misalnya penalaran dan mengikuti instruksi juga diperlukan secara vertikal. Dalam jangka panjang, model umum dan vertikal harus beralih ke AGI. Hanya saja model vertikal bisa sedikit lebih berorientasi pada mata pelajaran, dengan nilai tinggi pada mata kuliah profesional dan mata kuliah umum oke, sehingga biaya penelitian dan pengembangan sedikit lebih rendah dan metode penelitian dan pengembangan akan berbeda.

Bagaimana dengan pemahaman tahap kelima? Ini masih dalam proses dan saya berharap dapat segera membagikannya.

Visi: Persahabatan manusia

Sangat memalukan untuk mengatakan bahwa kami fokus pada teknologi dan penyesuaian untuk pelanggan, dan kemudian perlahan-lahan memikirkan visi apa yang kami kejar. Kami melihat apa yang diinginkan pelanggan, apa yang kami inginkan, dan apa yang mungkin kami perlukan di masa depan. Berbicara sendiri, bertahun-tahun yang lalu saya merindukan robot pengasuh untuk membantu saya merawat anak-anak saya dan menemani mereka, karena saya merasa sulit untuk melakukan ini, dan saya tidak begitu memahami kognisi dan pemikiran anak-anak saya saat ini. Saya berharap saya memiliki asisten virtual hebat di tempat kerja yang dapat menciptakan hal-hal baru bersama saya. Ketika saya bertambah tua, saya juga ingin memiliki robot-robot yang menarik untuk menemani saya. Prediksi saya ke depan adalah alat-alat produksi akan semakin berkembang, dan satu orang bisa menyelesaikan hal-hal yang sebelumnya hanya bisa diselesaikan oleh sebuah tim, membuat manusia lebih mandiri secara individu lebih kesepian.

Dengan menyatukan semua ini, kami telah menetapkan visi kami sebagai "agen cerdas yang mendampingi manusia". Agen cerdas dengan kecerdasan emosional tinggi dan IQ online. Jika itu adalah orang sungguhan, itu akan menjadi tim profesional. Misalnya, jika Anda ingin bermain dengan Anda, maka itu adalah perencana + aktor profesional. Menemani Anda berolahraga, lalu memberi semangat kepada guru + pelatih olahraga profesional. Jika saya belajar dengan Anda, saya dapat menjelaskan apa yang Anda tidak mengerti. Kelebihan seorang model adalah bisa menemani Anda dalam waktu lama dan sangat memahami Anda. Dan aku bisa "dengan tulus untukmu".

Namun teknologi yang ada saat ini masih jauh dari visi tersebut. Teknologi masa kini bisa menemani Anda ngobrol. Dalam banyak situasi, percakapannya kurang bagus, isinya kurang, dan IQ serta EQ terkadang tidak online. Ini semua adalah masalah yang perlu diselesaikan sekarang. Jika anda mempunyai teman yang ingin membuat aplikasi luar negeri ini, silahkan menghubungi kami.

Tim: Hal-hal yang menantang harus bergantung pada tim

Baru setelah memulai bisnis saya benar-benar menyadari pentingnya sebuah tim. Ketika saya berada di sebuah pabrik besar, saya merasa seperti saya adalah sebuah sekrup, anggota tim saya adalah sekrup, dan bahkan tim adalah sebuah sekrup. Tapi tim wirausaha adalah sebuah mobil. Mobilnya lebih kecil, tapi bisa berjalan, membawa beban, berbelok dengan fleksibel, dan bisa melaju ke setiap tikungan. Tidak lama setelah perusahaan didirikan, MiHoYo Lao Cai melihat dan melihat semua orang dalam satu ruangan. Dia berkata dengan penuh emosi bahwa tim kecil itu hebat.

Tentu saja ada beberapa ketidaknyamanan. Anda harus selalu memeriksa apakah ada oli, dan Anda harus berhati-hati agar mobil tidak terguncang di jalan yang sulit. Setiap anggota itu penting dan tidak ada redundansi. Jika satu orang tidak efektif, bisa jadi bannya kempes. Manusia juga berharga. Satu orang bisa kehilangan satu ban.

Dulu, ketika saya memilih proyek, saya akan memilih proyek yang dapat saya pimpin pengembangannya. Tapi itu juga berarti pertanyaannya tidak terlalu menantang. Memulai bisnis adalah masalah besar, dan itu semua tergantung tim. Meski banyak kata "saya" yang digunakan dalam artikel ini, nyatanya pengerjaannya dilakukan oleh tim. Tanpa tim, saya mungkin harus mengubah karier saya untuk menjual kursus.

Pengejaran pribadi: ketenaran atau kekayaan?

Sejauh ini, saya mengandalkan suara hati untuk mengambil keputusan. Setelah bekerja, saya akan belajar untuk mendapatkan gelar Ph.D., membuat video, dan memulai bisnis. Kewirausahaan memerlukan dukungan motivasi yang kuat untuk mengatasi kesulitan yang tiada habisnya. Ini memerlukan analisis yang lebih mendalam tentang motivasi Anda sendiri.

Motivasi datang dari keinginan atau ketakutan. Sepuluh tahun yang lalu, saya mungkin lebih tertarik pada ketenaran dan kekayaan, tetapi pada usia saya saat ini, saya merasa utilitas marjinal uang tidak lagi tinggi, dan nilai emosional yang dibawa oleh ketenaran juga sangat kecil. Motivasi terdalam saya berasal dari ketakutan bahwa hidup tidak ada artinya. Mengesampingkan luasnya alam semesta, bahkan dalam sejarah panjang umat manusia, manusia hanyalah sebutir pasir. Tiba secara tak terduga dan menghilang dengan cepat. Ada 100 miliar orang yang hidup di bumi, dan sebagian besar dari mereka tidak akan meninggalkan jejak apapun dalam sejarah. Saya hampir tidak mengenali ribuan nama di silsilah keluarga saya.

Lalu apa arti keberadaan seseorang? Ketika saya masih kecil, saya mengalami depresi karena saya tidak bisa berpikir jernih tentang masalah ini. Jadi secara tidak sadar, saya ingin menciptakan nilai dan memperoleh makna keberadaan. Saya memilih untuk "maju" untuk meningkatkan kemampuan saya dalam menciptakan nilai; saya memilih untuk merekam video panjang dan menulis materi pengajaran untuk menciptakan nilai pendidikan; saya memilih untuk menulis ringkasan studi Ph.D keterikatan dan kesulitan yang terlibat, dan menciptakan nilai contoh;Memilih untuk memulai bisnis dan menyatukan upaya banyak orang untuk menciptakan nilai yang lebih besar.

nota bene

Su Hua dan saya sedang berjalan-jalan di Stanford tahun lalu. Dia menepuk bahu saya dan berkata, "Katakan sejujurnya, mengapa Anda ingin memulai bisnis?" Pada saat itu, saya tidak berpikir demikian: "Saya hanya ingin mengubah karierku." Lalu Su Hua tersenyum.

Sekarang saya paham, karena beliau pernah mengalami naik turunnya berwirausaha. Jika saya harus menjawab pertanyaan ini hari ini, saya akan berkata: "Saya baru saja kehilangan akal." Tapi saya senang saya tidak menyangka akan semudah itu pada saat itu, jadi saya langsung memikirkannya. Jika tidak, yang mungkin dilihat semua orang adalah "refleksi sepuluh tahun kerja". Menurut saya cerita yang saya tulis hari ini lebih menarik.

Salut untuk semua pengusaha.

(Terakhir, informasi rekrutmen perusahaan kami (Bay Area dan Vancouver) di bawah iklan adalah https://jobs.lever.co/bosonai. Jika Anda memiliki lamaran di luar negeri, silakan hubungi kami di [email protected])