informasi kontak saya
surat[email protected]
2024-10-01
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
laporan jantung mesin
departemen editorial jantung mesin
arsitektur baru yang terinspirasi oleh c. elegans, ketiga "bentuk cangkir" dapat mencapai kinerja sota, dan dapat diterapkan di lingkungan dengan sumber daya terbatas. robot seluler mungkin membutuhkan otak dari serangga.
di era model besar, transformer yang diusulkan dalam makalah penting google tahun 2017 "attention is all you need" telah menjadi arsitektur arus utama.
namun, liquid ai, sebuah startup yang baru saja didirikan oleh mantan peneliti dari laboratorium ilmu komputer dan kecerdasan buatan (csail) mit, telah mengambil jalur yang berbeda.
liquid ai mengatakan tujuan mereka adalah untuk "mengeksplorasi cara membangun model di luar basis generatif yang telah dilatih sebelumnya (gpt)."
untuk mencapai tujuan ini, liquid ai meluncurkan model ai multi-modal pertamanya: liquid foundation models (lfm). ini adalah generasi baru model ai generatif yang dibangun dari prinsip pertama, dengan lfm 1b, 3b, dan 40b mencapai kinerja sota di semua skala sambil mempertahankan jejak memori yang lebih kecil dan inferensi yang lebih efisien.
direktur pasca-pelatihan liquid ai, maxime labonne, mengatakan di x bahwa lfm adalah versi yang paling ia banggakan dalam kariernya. keuntungan utama lfm adalah mereka dapat mengungguli model berbasis transformer sambil menggunakan lebih sedikit memori.
ada yang bilang lfm adalah terminator transformer.
beberapa netizen memuji lfm sebagai game changer.
beberapa netizen percaya bahwa "mungkin ini saatnya untuk meninggalkan transformers. arsitektur baru ini terlihat sangat menjanjikan."
liquid ai merilis tiga model
rangkaian lfm tersedia dalam tiga ukuran dan varian berbeda:
lfm intensif 1,3b (minimum), ideal untuk lingkungan dengan sumber daya terbatas.
lfm 3b yang padat, dioptimalkan untuk penerapan edge.
model lfm 40.3b moe (model hybrid ahli terbesar seperti mistral), dirancang untuk menangani tugas yang lebih kompleks.
kinerja sota
perbandingan lfm-1b dengan model skala setara. lfm-1b meraih skor tertinggi di setiap pengujian benchmark, menjadikannya model tercanggih dalam skalanya. ini adalah pertama kalinya arsitektur non-gpt mengungguli model berbasis transformer secara signifikan. misalnya, lfm 1.3b mengungguli llama 3.2-1.2b dari meta dan phi-1.5 dari microsoft dalam benchmark pihak ketiga.
lfm-3b mencapai kinerja luar biasa, menempati peringkat pertama dibandingkan dengan model transformator 3b, model hybrid, dan model rnn. ini juga sebanding dengan phi-3.5-mini dalam beberapa pengujian benchmark, namun 18,4% lebih kecil. dapat dilihat bahwa lfm-3b ideal untuk aplikasi teks seluler dan edge lainnya.
lfm-40b mencapai keseimbangan baru antara ukuran model dan kualitas keluaran. hal ini dapat mengaktifkan parameter 12b pada saat runtime, dengan kinerja yang sebanding dengan model yang lebih besar, sementara arsitektur moe memungkinkan throughput yang lebih tinggi dan dapat diterapkan pada perangkat keras yang lebih hemat biaya.
hemat memori
lfm memakan lebih sedikit memori dibandingkan dengan arsitektur transformer. hal ini terutama berlaku untuk input yang panjang, karena cache kv di llm berbasis transformer tumbuh secara linier seiring dengan panjang urutan. dengan mengompresi input secara efisien, lfm dapat memproses urutan yang lebih panjang pada perangkat keras yang sama. lfm menempati memori paling sedikit dibandingkan model kelas 3b lainnya. misalnya, lfm-3b hanya membutuhkan memori 16 gb, sedangkan llama-3.2-3b meta membutuhkan memori lebih dari 48 gb.
lfm benar-benar memanfaatkan panjang konteks
tabel di bawah ini membandingkan performa beberapa model dalam jangka waktu konteks yang berbeda.
jendela konteks yang efisien ini memungkinkan tugas konteks panjang pada perangkat edge untuk pertama kalinya. bagi pengembang, hal ini membuka aplikasi baru, termasuk analisis dan peringkasan dokumen, interaksi yang lebih bermakna dengan chatbot yang sadar konteks, dan peningkatan kinerja pengambilan-augmented generation (rag).
model-model ini kompetitif tidak hanya dalam tolok ukur kinerja mentah, namun juga dalam efisiensi operasional, menjadikannya ideal untuk berbagai kasus penggunaan, mulai dari aplikasi tingkat perusahaan hingga edge dalam layanan keuangan, bioteknologi, dan penerapan peralatan elektronik konsumen.
pengguna dapat mengaksesnya melalui lambda chat atau perplexity ai, dll.
bagaimana liquid melampaui transformator terlatih generatif (gpt)
liquid menggunakan gabungan unit komputasi yang berakar kuat pada teori sistem dinamis, pemrosesan sinyal, dan aljabar linier numerik. hasilnya adalah pengembangan model ai serba guna yang dapat digunakan untuk mensimulasikan semua jenis data urutan, termasuk video, audio, teks, deret waktu, dan sinyal, untuk melatih lfm barunya.
pada awal tahun lalu, liquid ai menggunakan metode yang disebut lnn (liquid neural networks). berbeda dengan model pembelajaran mendalam tradisional yang memerlukan ribuan neuron untuk melakukan tugas kompleks, lnn menunjukkan bahwa lebih sedikit neuron (dikombinasikan dengan rumus matematika inovatif) dapat mencapai hal yang sama. hasil.
model baru liquid ai mempertahankan manfaat inti dari kemampuan beradaptasi ini, memungkinkan penyesuaian real-time selama inferensi tanpa beban komputasi yang terkait dengan model tradisional. dapat secara efisien menangani hingga 1 juta token sambil meminimalkan penggunaan memori.
misalnya, dalam hal penggunaan memori inferensi, model lfm-3b mengungguli model populer seperti gemma-2 google, phi-3 microsoft, dan llama-3.2 meta, terutama ketika panjang token diperpanjang.
meskipun model lain mengalami peningkatan dramatis dalam penggunaan memori saat memproses konteks yang panjang, lfm-3b hanya menggunakan lebih sedikit ruang, sehingga ideal untuk aplikasi yang memerlukan pemrosesan data sekuensial berat, seperti analisis dokumen atau chatbots.
liquid ai telah membangun model dasarnya sebagai model universal di berbagai modalitas data, termasuk audio, video, dan teks.
dengan kemampuan multimodal ini, liquid bertujuan untuk memecahkan berbagai tantangan spesifik industri mulai dari jasa keuangan hingga bioteknologi dan elektronik konsumen.
liquid ai mengoptimalkan modelnya untuk produk dari berbagai produsen perangkat keras, termasuk nvidia, amd, apple, qualcomm, dan cerebras.
liquid ai mengundang pengguna dan pengembang awal untuk menguji model baru mereka dan memberikan masukan. meskipun modelnya belum sempurna, perusahaan berencana menggunakan masukan tersebut untuk menyempurnakan produk. mereka akan menggelar acara peluncuran resmi pada 23 oktober 2024 di mit.
dalam upaya menjaga transparansi dan memajukan ilmu pengetahuan, perusahaan berencana untuk menerbitkan serangkaian postingan blog teknis sebelum peluncuran. mereka juga mendorong pengguna untuk melakukan pengujian tim merah guna mengeksplorasi batasan model guna membantu meningkatkan versi mendatang.
lfm yang diperkenalkan oleh liquid ai menggabungkan kinerja tinggi dan penggunaan memori yang efisien, memberikan alternatif yang kuat terhadap model tradisional berbasis transformer. hal ini membuat liquid ai diharapkan menjadi pemain penting di bidang model dasar.
liquid ai: dimulai dengan bug kecil
startup yang bersaing secara terbuka dengan openai dan perusahaan model bahasa besar lainnya ini diinkubasi oleh laboratorium ilmu komputer dan kecerdasan buatan mit, csail, dan didirikan pada maret 2023.
pada desember 2023, perseroan mendapat pendanaan seed round sebesar us$37,5 juta dengan valuasi mencapai 300 juta.
investor termasuk salah satu pendiri github tom preston werner, salah satu pendiri shopify tobias lütke, salah satu pendiri red hat bob young, dll.
daniela rus, direktur mit csail, adalah salah satu pendiri perusahaan tersebut. ahli robotik dan ilmuwan komputer terkenal ini juga merupakan direktur wanita pertama di laboratorium tersebut.
selain daniela rus, tiga pendiri liquid ai lainnya adalah peneliti pascadoktoral di mit csail.
salah satu pendiri dan ceo ramin hasani adalah kepala ilmuwan kecerdasan buatan di vanguard, salah satu perusahaan pengelola dana terbesar di amerika serikat, sebelum terlibat dalam penelitian pascadoktoral di mit csail.
salah satu pendiri dan cto mathias lechner telah mempelajari struktur saraf nematoda dengan hasani sejak mereka masih menjadi mahasiswa di universitas teknik wina.
salah satu pendiri dan chief scientific officer alexander amini adalah mahasiswa phd daniela rus.
keempat pendiri (dari kiri ke kanan) ceo ramin hasani, daniela rus, chief scientific officer alexander amini dan cto mathias lechner
pada tahun 2017, daniela rus "menggali" hasani dan lechner ke mit csail, dan rus serta mahasiswa doktoralnya amini juga bergabung dalam penelitian tentang jaringan saraf cair.
daniela rus menunjukkan bahwa ai generatif memiliki keterbatasan yang jelas dalam hal keamanan, interpretabilitas, dan daya komputasi, sehingga sulit digunakan untuk memecahkan masalah robotik, khususnya robot bergerak.
terinspirasi oleh struktur saraf nematoda caenorhabditis elegans, yang sering menjadi tamu di komunitas penelitian ilmiah, daniela rus dan peneliti pascadoktoral di laboratoriumnya mengembangkan jenis jaringan saraf fleksibel baru, yang juga dikenal sebagai jaringan saraf cair.
caenorhabditis elegans juga merupakan satu-satunya organisme yang penentuan konekomnya telah selesai (pada 2019). meskipun otaknya sederhana, otaknya juga jauh lebih baik dalam belajar dan beradaptasi dengan lingkungan dibandingkan sistem kecerdasan buatan mana pun saat ini.
caenorhabditis elegans hanya memiliki panjang 1 mm, hanya memiliki 302 neuron, dan 96 otot, namun mampu melakukan perilaku cerdas yang kompleks seperti penginderaan, melarikan diri, mencari makan, dan kawin.
ini adalah kecerdasan hidup paling sederhana dan pembawa terkecil untuk mewujudkan kecerdasan buatan umum melalui simulasi mekanisme saraf biologis.
dalam beberapa tahun terakhir, peneliti ilmiah juga menggunakan hasil penelitian pada saraf c. elegans untuk melakukan simulasi biologis komputer. dengan mempelajari cara kerja otak c. elegans, daniela rus dan yang lainnya merancang "jaringan konstan-waktu cair":
model waktu kontinu yang terdiri dari beberapa sistem dinamis sederhana yang mengatur satu sama lain melalui gerbang nonlinier.
jika kita mengatakan bahwa jaringan saraf standar seperti lapisan bendungan yang berjarak sama, dengan banyak katup (bobot) dipasang di setiap lapisan bendungan, torrent yang dihitung harus melewati katup ini setiap kali melewati lapisan bendungan, dan kemudian bergegas ke tingkat berikutnya.
nah, jaringan saraf cair tidak memerlukan bendungan karena setiap neuron dikendalikan oleh persamaan diferensial (ode).
jenis jaringan ini dicirikan oleh konstanta waktu variabel dan keluarannya diperoleh dengan menyelesaikan persamaan diferensial. penelitian menunjukkan bahwa model ini mengungguli model tradisional dalam hal stabilitas, ekspresi, dan prediksi deret waktu.
kemudian, daniela rus dan yang lainnya mengusulkan metode perkiraan yang dapat menggunakan solusi bentuk tertutup untuk secara efisien mensimulasikan interaksi antara neuron dan sinapsis (jaringan saraf waktu kontinu bentuk tertutup), yang tidak hanya sangat meningkatkan perhitungan model kecepatan, juga menunjukkan skalabilitas yang lebih baik, dan berkinerja baik dalam pemodelan deret waktu, mengungguli banyak model jaringan saraf berulang tingkat lanjut.
anggota tim liquid ai telah mengklaim bahwa arsitektur tersebut cocok untuk menganalisis fenomena apa pun yang berfluktuasi seiring waktu, termasuk pemrosesan video, mengemudi otonom, pemantauan otak dan jantung, perdagangan keuangan (harga saham), dan prakiraan cuaca.
selain fleksibel seperti cairan, karakteristik lain dari jaringan saraf cair adalah skalanya yang jauh lebih kecil dibandingkan model ai generatif yang sering kali memiliki miliaran parameter.
misalnya, lfm 1.3b, yang dapat diterapkan di lingkungan dengan sumber daya terbatas, hanya memiliki 1,3b parameter (mirip dengan gpt-2 versi maksimum 1.5b), dengan tetap mempertahankan jejak memori yang lebih kecil dan inferensi yang lebih efisien, dan dapat digunakan dalam berbagai jalankan pada platform perangkat keras robot.
selain itu, jaringan saraf cair juga memiliki keunggulan dalam kemampuan interpretasi karena ukurannya yang kecil dan arsitekturnya yang sederhana.
namun, masih harus dilihat bagaimana arsitektur baru ini akan bersaing dengan model mainstream dari pesaing seperti openai.
hasani mengatakan saat ini liquid ai belum berencana mengembangkan aplikasi seperti chatgpt untuk konsumen. perusahaan ini pertama kali berfokus pada klien korporat yang ingin menjadi model penelitian keuangan dan medis.
tautan referensi:
https://venturebeat.com/ai/the-tireless-teammate-how-agentic-ai-is-reshaping-development-teams/
https://arxiv.org/abs/2106.13898
https://arxiv.org/abs/2006.04439
https://www.jiqizhixin.com/articles/2023-12-12?from=synced&keyword=liquid%20ai