Informasi kontak saya
Surat[email protected]
2024-08-18
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Penulis|Xuushan, editor|Manmanzhou
“
Banyak orang berharap ini menjadi Midjourney berikutnya.
”
Ini mungkin merupakan startup AI dengan eksekusi paling banyak dalam sejarah.
Hanya 15 hari setelah didirikan, startup AI Black Forest Labs telah mengumpulkan pendanaan putaran awal sebesar US$32 juta dan merilis seri model besar Vincent AI FLUX.1.
Tidak hanya itu, bahkan Grok-2, model AI besar yang baru saja diproduksi oleh Musk, dengan cepat meluncurkan fungsi grafik Vinsensian dengan dukungannya, menarik jutaan netizen untuk berpartisipasi dalam interaksi tersebut.
Dan tidak seperti fungsi gambar Vincent pada model AI lainnya, hampir tidak ada batasan pada gambar yang dihasilkan di Grok-2, dan gambar tersebut cukup realistis.
Apakah Anda ingin Steve Jobs menggoda kucing, atau Anda ingin Zuckerberg dan Musk bertemu secara offline di "Kandang Segi Delapan", Grok-2 dapat memenuhi keinginan Anda. Terlihat bahwa model tersebut berkinerja sangat baik dalam hal pemahaman semantik, penyelarasan, dan kemampuan menghasilkan gambar (kecuali untuk keamanan).
Apa asal usul perusahaan ini? Bagaimana hal itu bisa membuat netizen tergila-gila padanya, dan bahkan Musk rela memilihnya untuk mendukung produk intinya? Setelah diselidiki secara mendalam, Mr. Silicon Rabbit akhirnya mengungkap misteri Black Forest Labs.
01
Peluang pendirian Black Forest Labs dimulai dengan Stability AI, perusahaan unicorn AI lainnya.
Faktanya, tim start-up Black Forest Labs yang beranggotakan 15 orang saat ini semuanya berasal dari Stability AI. Dapat dikatakan bahwa pendirian Black Forest Labs merupakan pelarian kolektif para karyawan.
Pendiri Black Forest Labs Robin Rombach adalah mantan ilmuwan peneliti di Stability AI dan salah satu dari dua pilar inti Stability AI.
Ia belajar fisika di Universitas Heidelberg dan memulai studi PhD di kelompok visi komputer universitas tersebut pada tahun 2020. Robin selama ini fokus pada model pembelajaran mendalam, khususnya di bidang grafik Vinsensian, dan kemudian bergabung dengan Universitas Munich pada tahun 2021 bersama tim peneliti ilmiah.
Saat berada di Stability AI, ia memimpin pengembangan model besar AI grafik Vincentian.Difusi Stabil. Pada awalnya, Difusi Stabil bisa disebut sebagai penguasa di bidang pencitraan AI, sehingga menyebabkan guncangan di industri. Valuasi Stability AI juga telah melampaui US$1 miliar, menjadikannya salah satu AI unicorn.
Namun perkembangan Stability AI akan mengalami perubahan tajam pada tahun 2024. Menurut laporan, biaya tahunan Stability AI adalah sekitar US$99 juta, namun pendapatannya hanya US$11 juta, yang mengakibatkan ketidakseimbangan yang serius antara pendapatan dan pengeluaran. Selanjutnya, mantan CEO Stability AI Emad Mostaque mengeluarkan setidaknya 19 eksekutif senior dari perusahaan pada bulan Maret tahun ini.
Robin Rombach pun mulai mencari jalan keluar lagi. Black Forest Labs adalah awal baru baginya dan titik awal baru bagi banyak mantan karyawan Stability AI. Ketika Black Forest Labs didirikan, banyak karyawan Stability AI berkata dengan penuh semangat: "Kami sedang siaran langsung!".
Saat ini terdapat tiga versi model seri FLUX.1, baik open source maupun close source. Diantaranya, FLUX.1 [pro] adalah versi sumber tertutup paling kuat, dirancang untuk aplikasi profesional yang mengejar kinerja terbaik; FLUX.1 [dev] adalah model AI sumber terbuka yang memberikan kinerja lebih efisien dalam kualitas gambar dan cepat layanan kata-kata, tetapi tidak untuk penggunaan komersial; FLUX.1 [schnell] adalah versi open source yang dirancang untuk pengembangan lokal dan penggunaan pribadi.
Ketiga model memiliki versi uji coba terbuka pada Replikasi dan Model. Hanya dalam setengah bulan, FLUX.1 [dev]Wajah BerpelukanJumlah unduhan telah melebihi 200.000, dan jumlah unduhan FLUX.1 [schnell] telah melampaui 580.000, dan jumlah pengalaman telah mencapai 380 juta kali.
Tautan pengalaman pendaftaran: FLUX.1 [schnell]: https://replication.com/black-forest-labs/flux-schnell
02
Meskipun model seri FLUX.1 dibuat oleh tim asli Difusi Stabil, bukan berarti model tersebut merupakan replika Difusi Stabil.
Media menyatukan Flux, SD3 Medium, Auraflow, dan Midjourney untuk ditinjau. Terlihat bahwa model grafik Vinsensian yang luar biasa saat ini menghasilkan foto yang berbeda untuk prompt teks yang sama.
Pertama, prompt: "Ilustrasi gambar tangan tentang seekor laba-laba raksasa yang mengejar seorang wanita di hutan. Pemandangan yang sangat menakutkan, menyakitkan, gelap dan menyeramkan, dengan suasana yang menakutkan dan sugestif."
Terlihat Flux menggunakan cahaya dan bayangan dengan sangat baik untuk menciptakan rasa horor. Desain laba-laba ini memang menyeramkan, kakinya lancip dan wajah laba-laba sangat realistis. Nada cyan Auraflow tidak menghasilkan efek gelap dan menakutkan, dan keseluruhan gambarnya bergaya. Gaya hitam dan putih SD3 Medium memberikan kesan seperti sketsa yang kuat. Desain laba-labanya detail dan menakutkan, tetapi karakterisasinya agak tidak konsisten.
Evaluasi kedua terutama mengkaji kemampuan generator gambar dalam memahami ruang. Teks promptnya berbunyi: "Seekor anjing berdiri di atas televisi dengan kata 'Decrypt' ditampilkan di layar. Di sebelah kiri adalah seorang wanita berjas memegang koin, dan di sebelah kanan adalah robot yang berdiri di atas pertolongan pertama. kit. Seluruh adegan itu tidak nyata.”
Gambar yang dihasilkan oleh Flux paling dekat dengan deskripsi, ini menempatkan semua elemen di tempat yang seharusnya. Komposisi keseluruhannya seimbang, desain setiap elemen dan gaya retro-futuristik memenuhi persyaratan surealisme. Namun ia juga memiliki beberapa kekurangan, seperti karakternya yang memiliki tangan ekstra. SD3 Medium menduduki peringkat kedua. Desain keseluruhan juga memenuhi persyaratan deskripsi teks, namun keakuratannya kurang. Misalnya, anjing bergaya kartun harus berdiri, bukan duduk. Auraflow memiliki kesenjangan dalam keakuratan pemahaman teks dan kualitas gambar yang disajikan.
Tip ketiga berbunyi "Foto resolusi tinggi dari jalan kota yang sibuk di malam hari. Lampu neon menerangi pemandangan. Orang-orang berjalan di sepanjang trotoar, mobil lewat, dan pedagang kaki lima menjual hot dog. Lampu terpantul di trotoar licin. gaya keseluruhan Hiper-realistis, perhatian terhadap detail dan pencahayaan, tanda neon bertuliskan 'Decrypted'" Tip ini berfokus pada pandangan pembuat gambar utama tentang realisme.
Gambar yang dihasilkan oleh Flux kaya akan detail dan pencahayaan yang baik. Gambar tersebut menggambarkan jalan yang sibuk dengan baik, dengan rambu-rambu utama yang jelas dan gambar pejalan kaki yang jelas. SD3 juga mampu menampilkan komposisi seimbang, pencahayaan realistis, dan elemen terintegrasi secara cermat, namun penggambaran pejalan kaki agak tipis.
Terakhir, media luar negeri Decrypt pun memasukkan Flux dan Midjourney ke dalam dua evaluasi, dan akhirnya menilai Flux lebih kuat.
Perintah teks pertama berbunyi: "Foto hitam putih seorang wanita dengan rambut lurus panjang duduk di lantai di depan sofa modern, mengenakan pakaian serba hitam yang menonjolkan lekuk tubuhnya. Dia menatap kamera dengan percaya diri. Berpose, dia kaki rampingnya terlihat saat ia berjongkok dengan latar belakang minimalis yang menonjolkan pose elegannya. Difoto oleh Peter Lindbergh menggunakan lensa Hasselblad X2D 105mm pada pengaturan aperture f/4 untuk meningkatkan daya tarik visual.”
Decrypt percaya Flux menangkap persyaratan perintah dengan pose alami, latar belakang kontekstual, dan rendering mendetail. Secara morfologi, ini adalah yang paling akurat. Midjourney menampilkan gambar yang hidup dan detail yang kaya dalam gambar, namun tidak memiliki lapisan gambar seperti Flux, dan representasi postur tubuh tidak seakurat Flux.
Perintah teks kedua berbunyi, "Foto seluruh tubuh seekor kucing putih sedang bermain piano, mengenakan kacamata hitam dan topi, mengenakan pakaian ungu gaya Hawaii, dengan latar belakang studio abu-abu, untuk penggunaan komersial."
Decrypt percaya bahwa Flux memenuhi persyaratan foto seluruh tubuh, latar belakang studio abu-abu, dan pakaian khusus. Komposisinya profesional dan indah, serta sepenuhnya memenuhi persyaratan yang diminta. Midjourney memberikan bidikan close-up, dan gambarnya ekspresif, namun tidak memenuhi persyaratan bidikan seluruh tubuh dan latar belakang studio.
Terlihat bahwa Flux telah menjadi yang terdepan dalam industri dalam hal detail foto dan pemahaman ruang serta stilisasi. Flux dapat bersaing dengan Midjourney, dan bahkan lebih baik daripada Midjourney dalam beberapa aspek.
03
Bidang AI Wenshengtu bisa dikatakan saat iniAI generatifSalah satu trek terpanas di lapangan. Saat ini, Google, Meta, dan OpenAI sedang mengincar bidang ini. Kemampuan yang ditunjukkan oleh FLUX.1 telah membuat banyak orang mengharapkannya menjadi Midjourney berikutnya.
Namun kunci untuk menjadi Midjourney berikutnya terletak pada komersialisasi.
Paket dasar Midjourney, pionir di jalur yang sama, berharga US$96 per tahun dan dapat menghasilkan sekitar 200 gambar per bulan, yang setara dengan 25 gambar per dolar. Paket dasar Ideogram berharga $84 per tahun dan dapat menghasilkan hingga 400 gambar per bulan, atau 50 gambar per dolar.
Black Forest telah bermitra dengan Fal AI, pengembang model open source Auraflow, untuk mendukung pembuatan cloud. Model ini juga tersedia untuk pengujian gratis di Replication.com. Setelah pengguna mencapai kuota harian gratis, mereka dapat memilih untuk menggunakan model Flux Pro untuk menghasilkan 33 gambar seharga $1 atau menggunakan Flux Schell untuk menghasilkan 333 gambar seharga $1.
Dibandingkan dengan Midjourney dan Ideogram, Black Forest memberi pengguna lebih banyak pilihan. Namun hal ini tidak mewakili kesuksesan komersial Black Forest. Biaya pemeliharaan model AI generatif sangat tinggi. Ambil contoh Stability AI. Menurut Forbes, Stability AI menghabiskan sekitar US$8 juta per bulan untuk biaya dan gaji, namun pendapatannya hanya US$1,2 juta, jauh dari menutupi biaya tersebut. Saat ini, komersialisasi juga menjadi “mata rantai macet” bagi Ideogram dan AI Pika Labs.
Oleh karena itu, untuk benar-benar melampaui Midjourney, cara Black Forest menyeimbangkan pendapatan dan pengeluaran akan menjadi kunci dominasi model besar Vincentian AI.
04
Black Forest Labs dan Musk tampaknya sepakat untuk membangun "chatbot anti-kebangkitan AI", dan tidak ada yang ingin menerapkan terlalu banyak pembatasan pada AI.
“Chatbot AI anti-kebangkitan” di sini mengacu pada chatbot AI yang sengaja menghindari mengadopsi pandangan tertentu yang benar secara politik atau kebangkitan sosial. Ini akan menghadapi topik kontroversial tanpa penyaringan. Grok jelas merupakan pembawa konsep "chatbot AI anti-kebangkitan" Musk.
Dalam hal evaluasi keamanan, meskipun Grok menyebutkan enam "larangan", termasuk pembatasan konten, hak cipta, kerumitan pemrosesan gambar, dll., nyatanya, dilihat dari foto yang dihasilkan, Grok hampir tidak memiliki pantangan, termasuk selebriti, pornografi, kekerasan, dll. Gambar yang dihasilkan telah menjadi populer di platform sosial X.
Meskipun beberapa badan pengatur telah menyatakan ketidakpuasannya terhadap Platform Sosial X, Musk tampaknya masih tidak terpengaruh. Setelah peluncuran Grok-2, Musk juga mengizinkan pengguna untuk mempublikasikan gambar AI yang dihasilkan Grok langsung di platform tanpa perintah tanda air yang dibuat oleh AI atau yang dibuat oleh Grok.
Musk menyebutkan di platform sosial X pada tahun 2022 bahwa menetapkan batasan untuk AI akan mengurangi keamanan model AI. "Melatih AI itu mudah untuk dibangunkan. Dengan kata lain, bahaya kebohongan (AI) berakibat fatal." Beberapa media berspekulasi bahwa mungkin karena model seri FLUX.1 tidak menerapkan terlalu banyak batasan yang membuat Musk memilih Grok. untuk mengambil alih.
menurutThe VergeMenurut evaluasi banyak media, model AI gambar serupa dari Google Imagen dan DALL·E 3 OpenAI juga menolak untuk menghasilkan kata-kata cepat dengan "nada berbahaya", tetapi Grok merespons dengan cepat dan menghasilkan gambar dengan cepat.
Setengah bulan yang lalu, ketika Black Forest Labs pertama kali didirikan, diumumkan bahwa tujuan perusahaan adalah “meningkatkan kepercayaan masyarakat terhadap keamanan model-model ini.” Setengah bulan kemudian, Black Forest Labs dan Musk berpihak pada "tidak ada batasan pada AI" dan membuka kotak hitam model AI Vincentian.
Dihadapkan pada banyak kontroversi, Black Forest Labs kini memilih untuk menghindari membicarakannya, mencoba mengalihkan fokus diskusi ke arah lain. Anggota dewannya Anjney Midha mengkritik Google di platform sosial X pada 14 Agustus GeminiSaat pertama kali dirilis, terdapat diskriminasi rasial yang tersembunyi dan situasi lain di bidang grafis Vinsensian, dan dinyatakan bahwa situasi seperti itu tidak akan terjadi pada model seri FLUX.1.
Terlihat dari segi kemampuan grafik Vinsensian, model seri FLUX.1 memang bertenaga dan sudah mampu bersaing dengan Midjourney. Namun dari segi keamanan, Black Forest Labs sepertinya memilih jalan yang berbeda dari para pemain di trek yang sama.
Akankah "tidak memasang pagar pengaman" akan membuat Black Forest Labs menjadi pemain dominan mutlak di bidang grafis Vinsensian? Atau akankah hal ini menghancurkan popularitas baru model seri FLUX.1 dalam satu gerakan? Kita lihat saja nanti.